1. Introducción Los algoritmos de aprendizaje automático son métodos que dado un conjunto de ejemplos de entrenamiento infieren un modelo de las categorías en las que se agrupan los datos, de tal forma que se pueda asignar a nuevos ejemplos una o más categorías de manera automática mediante analogía de patrones en dicho modelo. Estas técnicas han sido aplicadas con éxito a una gran variedad de problemas y datos en tareas de predicción. El objetivo principal de este trabajo es investigar y descubrir cómo aplicar los algoritmos de aprendizaje supervisado para descubrir relaciones entre atributos y para realizar predicciones que puedan ser útiles a la toma de decisiones. Los datos biomédicos son un tipo especial de datos, ya que datos de diferente naturaleza recogen toda la información. Además, este tipo de datos presenta ciertos problemas conocidos: información ausente y dispersa, ruido y datos temporales. Los algoritmos de aprendizaje automático son muy apropiados para este tipo de datos [2]. Existen algunos trabajos sobre KDD que intentan tratar con información biomédica a gran escala. En [3], los autores tratan de detectar el tipo de hepatitis extrayendo patrones de secuencia corta a partir de características temporales. En [4], se generan reglas sencillas usando 4ft-miner (es decir, tablas estadísticas de dos filas y dos columnas) para caracterizar las diferencias temporales existentes entre las hepatitis B y C. Los autores de [5] tratan de descubrir reglas de atributos binarios sencillos que sean capaces de predecir el nivel de fibrosis del hígado. El mismo objetivo se persigue en [6] pero utilizando patrones que son posteriormente agrupados y asignados a niveles de fibrosis. Esta misma técnica es también aplicada a la detección del riesgo de arterosclerosis en [7]. Otros ejemplos de minería de datos biomédicos se presentan en [8] y [9]. Para los experimentos del trabajo aquí presentado se ha utilizado la colección denominada STULONG (LONGitudinal STUdy) [10], resultado de un estudio durante 20 años de los factores de riesgo de arterosclerosis en hombres de mediana edad. El principal objetivo del trabajo aquí presentado es validar los algoritmos de aprendizaje automático como un método de descubrimiento de asociaciones considerando la eficacia de clasificación como una medida de importancia de las asociaciones extraídas. Además, se trata de comprobar la capacidad de predicción de enfermedades futuras de los algoritmos. En la siguiente sección se presentan los detalles de la colección STULONG. En la sección 3, se describen los algoritmos de aprendizaje automático empleados. En la sección 4 se presentan las medidas de evaluación del comportamiento de los algoritmos y en la sección 5 se muestran los experimentos y sus resultados. Finalmente, algunas conclusiones y trabajo futuro se exponen en la sección 6. 2. Descripción del estudio y de la colección de datos El corpus STULONG [10] [11] fue recopilado por el 2nd Departamento de Medicina Interna, y la 1st Facultad de Medicina y el Hospital General Facultativo de Praga, y transformado a formato electrónico, así como analizado estadísticamente por el Centro Europeo de Informática Médica, Estadística y Epidemiología (EuroMISE) de la Universidad Charles y la Academia de Ciencias de la República Checa. Las principales pretensiones del estudio fueron: - Identificar la presencia de factores de riesgo (RF) de arterosclerosis en una población generalmente considerada como la más afectada por posibles complicaciones de la enfermedad en hombres de mediana edad.
-
Seguir el desarrollo de estos factores de riesgo y su impacto en la salud de los sujetos examinados, especialmente respecto a las enfermedades cardiovasculares. - Estudiar el impacto de la intervención compleja de los factores de riesgo en el desarrollo de enfermedades cardiovasculares y en la mortalidad por dichas causas.
Los hombres nacidos entre 1926 y 1937 que vivían en le distrito 2 de Praga fueron seleccionados para el estudio en 1975. Para el primer reconocimiento, 1419 de los 2370 sujetos invitados se prestaron al estudio. La invitación incluía una pequeña explicación de los objetivos del mismo. A los sujetos que declinaron la participación se les envió otras dos invitaciones para reconocimientos posteriores. Los factores de riesgo fueron definidos en términos de niveles de la siguiente manera: -
hipertensión – presión sanguínea BP ≥ 160/95 mm Hg u hombres bajo medicación hipertensiva, -
hipercolesterolemia - colesterol ≥ 260mg% (6,7 mmol/l), -
hipertrigliceridemia – triglicéridos ≥ 200mg% (2,2 mmol/l), -
fumador: ≥ 15 cig./día actualmente o la misma cantidad hasta un año previo al estudio (los fumadores de puros o pipas no fueron considerados como fumadores), -
sobrepeso: índice de Brocka > 115 % (índice Brocka: altura en cm menos 100 = 100 %), -
historia médica familiar no favorable: muerte del padre o la madre por enfermedad arterial coronaria o ataque cardíaco anterior a los 65 años de edad. De acuerdo a la presencia de los factores de riesgos anteriores, estado de salud general y resultados de ECG, los sujetos fueron divididos en los siguientes grupos: -
NG = grupo de sujetos sin factores de riesgo, sin manifestación de enfermedades arteriales u otras enfermedades severas que hicieran imposible su observación durante los 10 años siguientes, y sin cambios ECG. -
RG = grupo de sujetos con al menos un factor de riesgo, sin manifestación de enfermedades arteriales u otras enfermedades severas que hicieran imposible su observación durante los 10 años siguientes, y sin cambios ECG. -
PG = grupo de sujetos con una enfermedad cardiovascular manifiesta u otro tipo de disfunción severa que hace imposible su observación en los siguientes 10 años. Este grupo patológico (PG) incluye también a sujetos con diabetes tratada con fármacos o insulina y a sujetos con ECG patológico, de acuerdo al código ECG de Minnesota. Las observaciones a largo plazo de los pacientes se realizaron de acuerdo a los grupos descritos anteriormente: -
El grupo de riesgo RG fue dividido aleatoriamente en dos subgrupos designados como RGI (grupo de riesgo intervenido) y RGC (grupo de riesgo de control). Los pacientes en el grupo RGI fueron invitados al reconocimiento un mínimo de dos veces al año. Siguiendo la administración farmacológica fueron reconocidos cuando fue necesario. Los pacientes en el grupo RGC recibieron un pequeño informe escrito que contenía sus resultados de laboratorio y su descripción ECG, además de una recomendación de presentar estos resultados a sus doctores. La intervención con respecto a estos resultados fue puesta en manos de sus doctores. En un primer estudio, no se encontró ninguna diferencia significativa en edad, factores socioeconómicos o factores de riesgo entre ambos grupos. -
El 10 % de los sujetos en el grupo NG fue examinado un mínimo de una vez al año. – (se les denomina NGS); En este grupo, análogamente al grupo de riesgo, la intervención fue iniciada en cuanto se identificó y se confirmó alguno de los factores de riesgo (hiperlipidemia, hipertensión arterial, etc.). El resto de sujetos del grupo NG fueron invitados a realizar un control entre 10 y 12 años después. -
Los sujetos del grupo PG fueron excluidos de cualquier observación posterior. La intervención fue un problema clave en el estudio y se basó en la influencia no farmacológica. Se trataron de modificar y optimizar los factores de riesgo: -
Intervención No Farmacológica: recomendaciones sobre estilo de vida, dieta, actividad física, hábito de fumar, disminución de peso, etc. Las recomendaciones fueron realizadas en cada observación centradas en un factor de riesgo específico en cada sujeto, exceptuando algunas instrucciones de carácter general. -
Intervención Farmacológica: tratamiento de la hipertensión arterial y de la hiperlipoproteinemia. Fue muy leve en las etapas tempranas del estudio y más severa en los últimos años del mismo. La terapia farmacológica fue impuesta con respecto al conjunto general de factores de riesgo. Después de todo el proceso de adquisición de los datos, cuatro conjuntos de los mismos fueron usados para el análisis: -
El conjunto ENTRY contiene valores de 244 atributos obtenidos de la primera observación de cada sujeto. Estos atributos son códigos o medidas y transformaciones de medidas de diferentes variables (identificador, familia e historial personal, factores sociales – educación, actividad física, tabaco, hábitos de dieta, alcohol, medidas antropométricas – altura, peso, presión sanguínea, pulso, pruebas de laboratorio y código ECG). -
El conjunto CONTROL contiene resultados de exámenes de control con 66 atributos. Estos atributos corresponden al identificador, cambios en los hábitos, historial personal, valores físicos y bioquímicos, y datos sobre hipertensión, hipercolesterolemia, hipertrigliceridemia y otras enfermedades coronarias y oncológicas. Este conjunto se compone de un total de 10,572 registros. -
Información adicional sobre el estado de salud de 403 sujetos que declinaron la primera invitación fue recogida mediante cuestionarios por correo. Los valores de los 62 atributos recogidos en los cuestionarios se almacenaron en el conjunto LETTER. -
El conjunto DEATH contiene información sobre las causas de la muerte de 389 pacientes, descritas mediante 5 atributos, además del identificador de los sujetos y la fecha de su muerte. 3. Descripción de las técnicas de aprendizaje automático empleadas Todos los algoritmos empleados pertenecen al paradigma de aprendizaje supervisado, es decir, necesitan una etapa de aprendizaje para construir un modelo a partir de los datos de entrenamiento para después usar ese modelo en la predicción o inferencia de la categoría de ejemplos desconocidos. Se han empleado varios algoritmos tratando de representar a todas las clases de algoritmos dentro del paradigma. Cada uno de estos algoritmos se describe brevemente a continuación: 3.1 Naive Bayes Naïve Bayes [12] calcula, para cada par atributo-valor, por ejemplo (educación, universitaria), la probabilidad de pertenecer a cada categoría, dividiendo el número de ejemplos de cada categoría donde el par aparece entre el número total de ejemplos donde el par aparece. De esta forma, cada par tendrá asociado una probabilidad para cada posible categoría. Naive Bayes está basado en la suposición de que cada par atributo-valor de un ejemplo es independiente del resto. Así, cuando un ejemplo nuevo se clasifica, la probabilidad asociada a cada categoría es la multiplicación de la probabilidad para la correspondiente categoría de cada uno de los pares que conforman el ejemplo. La categoría final asignada es la que más alta probabilidad asociada tiene. 3.2 Perceptrón Multicapa El modelo de clasificación de la Red Neuronal Perceptrón Multicapa [12] está compuesto de un cierto número de capas de neuronas interconectadas entre sí. La arquitectura usada en este trabajo se muestra en la Figura 1. Figura 1. Arquitectura empleada de la Red Neuronal Perceptrón Multicapa. Cada conexión tiene un peso asociado. La entrada a cada neurona es la suma ponderada, usando los pesos de asociación, de todos los valores entrantes. La salida de cada neurona es el resultado de aplicar una función. En este caso, se implementó una función sigmoide típica en todas las neuronas. La Figura 2 muestra la representación y expresión de la función. Figura 2. Expresión y representación de la función sigmoide. Así, cada valor de cada atributo de un ejemplo se introduce en la neurona correspondiente de la capa de entrada y los valores se propagan por la red hasta la capa de salida, donde el valor resultante de la neurona de salida corresponde a la categoría inferida. La etapa de entrenamiento consiste en, dado un conjunto de pesos iniciales, introducir cada uno de los ejemplos de entrenamiento en el modelo y comparar el valor de salida con la categoría real esperada. Dependiendo del error de la clase inferida, el algoritmo backpropagation modifica los pesos desde la capa de salida a la de entrada para hacer que la salida inferida sea igual a la esperada. Este proceso se lleva a cabo un número determinado de épocas o iteraciones. En este caso, se emplean 500 iteraciones en la fase de entrenamiento. La cantidad en la que los pesos son modificados, llamada tasa de aprendizaje, es igual a 0.3 y el momento aplicado a los pesos durante su actualización es de 0.2. Si el algoritmo de aprendizaje no alcanza una buena aproximación a la salida esperada después de una iteración completa, se inicializa y provoca un decremento en la tasa de aprendizaje. 3.3 Máquinas de Vectores de Soporte (SVM) Las Máquinas de Vectores de Soporte [14] intentan separar los ejemplos, basándose en su categoría, en el espacio de n dimensiones siendo n el número total de atributos o características, mediante hiperplanos de la forma w + b, tal que x w + b ≥ +1 → categoría = sí x w + b ≥ -1 → categoría = no siendo x el ejemplo representado como un vector de n componentes. Aquí, w es el vector de soporte perpendicular al hiperplano, y corresponde a los ejemplos que se sitúan más allá o en los límites de la categoría a la que pertenecen (ver Figura 3). Figura 3. Esquema de los Vectores de Soporte. Los vectores de soporte definen también, mediante su módulo, un margen unitario entre el hiperplano y los ejemplos positivos y negativos más cercanos (esa es la razón de los umbrales +1 y -1). Para cada categoría el algoritmo trata de encontrar w maximizando el margen. Para clasificar un ejemplo nuevo simplemente se aplica la expresión anterior. Esta simple implementación del método es la que se emplea en los experimentos, aunque existe una gran abanico de variaciones mucho más sofisticadas. 3.4 K-Vecinos Más Cercanos (KNN) KNN es un algoritmo basado en memoria [15], con la idea subyacente de que las experiencias pasadas pueden ayudar a resolver las presentes mediante analogía. Considera a cada ejemplo como un vector de n componentes, siendo nuevamente n el número de atributos o características. No necesita una etapa de aprendizaje. Para inferir la clase de un ejemplo desconocido hasta el momento, el algoritmo compara ese ejemplo con todos los ejemplos de entrenamiento o memoria calculando la distancia entre ellos. A continuación, la clase mayoritaria de entre los K ejemplos más similares al de entrada es la categoría inferida para el mismo. La medida de distancia empleada es la distancia Euclídea entre dos vectores. Sin embargo, existen más posibilidades recogidas en la literatura. 3.5 Árboles de Decisión ID3 y C4.5 El modelo producido por este algoritmo es un árbol [16], donde cada nodo corresponde a un atributo y cada arco del nodo corresponde a un posible valor del atributo nodo. El algoritmo de aprendizaje construye el árbol a partir de los datos de entrenamiento. La selección del atributo que formará un nodo en cada momento es llevada a cado mediante el cálculo de la entropía de los datos después la selección. Esto es, para cada atributo se calcula la entropía de los datos restantes agrupados por los posibles valores del atributo evaluado. El atributo cuyos valores produzcan una entropía menor es el seleccionado para formar el siguiente nodo. El proceso continua hasta que no hay más atributos que seleccionar o bien hasta que el número de ejemplos agrupados bajo un nodo es menor que un umbral. En este último caso, se forma un nodo hoja correspondiente a la categoría mayoritaria de los nodos agrupados bajo ese nodo. En la Figura 4 se muestra un ejemplo sencillo: Figura 4. Ejemplo de árbol de decisión. En el ejemplo se identifican 4 atributos: vuela, recubrimiento del cuerpo, hábitat y respira aire, y cuatro posibles categorías: m, b, f y r. En este caso, el primer atributo es vuela porque es el que produce la división de los datos con entropía mínima en ese nivel, y análogamente con el resto. Para clasificar un ejemplo nuevo sólo hay que seguir el árbol de arriba abajo y la hoja final es la categoría inferida. Los caminos desde la raíz hasta los nodos hoja se pueden ver como reglas, donde el antecedente está formado por la intersección de los pares atributo-valor de los caminos. C4.5 es una ampliación de ID3 que permite el uso de atributos numéricos continuos, tiene en cuenta los valores ausentes y realiza un proceso de poda inteligente del árbol para reducir su tamaño y permitir así tratar con un gran número de ejemplos. El árbol J48 usado en los experimentos de este trabajo es una implementación de C4.5. 3.6 Extracción de Reglas Ridor Ridor abrevia a RIpple-DOwn Rule [17]. Este algoritmo genera una regla por defecto que se ajuste a la mayoría de los ejemplos de entrenamiento y luego busca excepciones con la menor tasa de error al clasificar los propios ejemplos de entrenamiento. A continuación genera las excepciones a las excepciones con menos error, de manera recursiva. Así, lleva a cabo una expansión de excepciones en forma de árbol donde la raíz está formada por la regla por defecto. Las excepciones son un conjunto de reglas que predicen las clases que no contempla la regla por defecto. IREP una implementación de Ridor y es el algoritmo empleado para encontrar excepciones. Éste construye las reglas añadiendo un término al antecedente en cada iteración de tal forma que el error se minimice. Los términos del antecedente son de la forma (atributo {=,≠,≤,≥} valor). 4. Evaluación Los procesos y medidas de evaluación son los mismos para todos los experimentos: dada la colección de datos, una parte de la misma es considerada como conjunto de entrenamiento y el resto como conjunto de test. Así, los modelos aprenden del conjunto de entrenamiento y tratan de inferir las categorías de los ejemplos del conjunto de test. Puesto que las categorías de éstos últimos son conocidas se pueden validar las inferencias de los modelos. Así pues, esta validación se realiza para cada categoría mediante tres medidas típicas: precisión, cobertura y medida-F [18]. La precisión es el porcentaje de predicciones de una categoría que son correctas. La Ecuación 1 muestra la expresión analítica de la precisión. (1) La cobertura es el porcentaje de todos los ejemplos de test pertenecientes a una categoría y que son correctamente inferidos. Su expresión analítica se muestra en la Ecuación 2. (2) La medida-F es una combinación de las medidas anteriores. Representa, en cierto modo, la intersección entre los ejemplos implicados en la precisión y la cobertura, normalizada mediante la suma de ambas. La Ecuación 3 presenta su expresión analítica. (3) Así pues, estas tres medidas se calculan para cada categoría del conjunto de test. Como se ha comentado antes, dada la colección es necesario dividirla en conjuntos de entrenamiento y de test. Un proceso común de evaluación es la validación cruzada. La colección se divide en n partes iguales. A continuación, cada combinación de n-1 partes se emplea como conjunto de entrenamiento y la parte restante como test, de tal forma que el algoritmo se ejecuta n veces y las medidas finales son la media de las n ejecuciones. Para todos los experimentos descritos a continuación el valor de n es igual a 3, de tal forma que el entrenamiento siempre es un 66% del conjunto total, ejecutando cada algoritmo 3 veces. Habitualmente, el valor de n es mayor que 3 (típicamente igual a 10), pero en este caso se tienen pocos ejemplos en algunas de las categorías y un valor mayor de n podría generar conjuntos de test sin representación en las categorías mencionadas, lo que no es en absoluto deseable. 5. Experimentos Se han llevado a cabo dos tipos de experimentos. En el primero de ellos se tratan de descubrir asociaciones entre atributos considerando las medidas de la eficacia de la clasificación como un indicador de la importancia de las asociaciones. El resto de experimentos están encaminados a la validación de los algoritmos en la predicción de enfermedades futuras. Es necesario indicar que las observaciones en los datos que presentan valores ausentes no fueron eliminadas ni sustituidas, ya que las implementaciones de los algoritmos empleados son capaces de tratar con dichos valores. Dichas implementaciones son las incluidas en el entorno de descubrimiento de conocimiento WEKA [19], usadas con los parámetros por defecto en los experimentos descritos a continuación. 5.1 Encontrando respuestas Los primeros experimentos están relacionados con las cuestiones analíticas propuestas por el Discovery Challenge de la conferencia ECML/PKDD 2004, y más concretamente con las relacionadas con el conjunto ENTRY. Estas tareas consisten en el descubrimiento de relaciones en tres grupos diferentes de sujetos: grupo Normal (NG), grupo de Riesgo (RG) y grupo Patológico (PG). Estos grupos corresponden a los niveles de riesgo de arterosclerosis descritos en la Sección 2 y serán denominados como grupos de nivel de ahora en adelante. Las relaciones objetivo son las que asocian los atributos referentes a factores sociales con el resto, los referentes a actividad física con el resto y así sucesivamente. De esta manera, los algoritmos de aprendizaje automático son aplicados de manera independiente a los datos correspondientes a cada grupo de nivel, intentando predecir el valor de cada uno de los atributos como categorías. Así, por ejemplo, dados los cuatro atributos correspondientes a factores sociales como atributos de entrenamiento, los algoritmos se ejecutan de manera independiente para predecir el valor de cada uno de los cuatro atributos de actividad física, y análogamente con el resto de atributos. Para cada relación, se calculan los valores máximos de entre los resultados de todos los algoritmos. Estos valores permitirán la comparación entre grupos de nivel. Si la eficacia de clasificación es buena se puede decir que existe una relación fuerte, con un grado igual al valor de dicha eficacia, entre los atributos empleados para el entrenamiento y el atributo cuyos valores se tratan de inferir. Dicho grado permitirá comparar las relaciones en los distintos grupos de nivel. Debido a las limitaciones de espacio, sólo se presentan algunos de los resultados más representativos. En la Figura 5 se presenta, para cada uno de los grupos de nivel (a) Normal, b) Patológico y c) Riesgo, respectivamente, la precisión, cobertura y medida-F máximas para la predicción del atributo “Fumar” dados los factores sociales, y análogamente dados los factores físicos de d) a e). Como se puede observar, en el grupo Normal, los mejores resultados de predicción se obtienen para los sujetos no fumadores, ya sea a partir de los factores sociales o de la actividad física, siendo el resto de valores no significativos. Es perceptible también que la relación entre factores sociales y “Fumar” es ligeramente más fuerte que entre actividad física y “Fumar”, ya que todas las medidas son algo mejores en el primer caso. Tanto en los grupos Patológico como de Riesgo, la relación entre los atributos de entrenamiento y la categoría de no fumadores es más fuerte con la actividad física, siendo especialmente fuerte en el grupo Patológico. En estos grupos, los sujetos que fuman 15 o más cigarrillos al día son más precisamente detectados que en el grupo Normal, aunque no así los no fumadores. a) b) c) d) e) f) Figura 5. Precisión, cobertura y medida-F máximas de entre todos los algoritmos para la predicción de "Fumar", dados los factores sociales en
a) grupo Normal, b) grupo Patológico y c) grupo de Riesgo, y dada la actividad física en d) grupo Normal, e) grupo Patológico y f) grupo de Riesgo. a) b) c) d) e) f) Figura 6. Media y máximo del error absoluto, error cuadrático medio, error relativo y error cuadrático relativo de todos los algoritmos para la predicción del nivel de colesterol, dados los factores sociales en a) grupo Normal, b) grupo Patológico y c) grupo de Riesgo, y dada la actividad física en d) grupo Normal, e) grupo Patológico y f) grupo de Riesgo. Veamos otro ejemplo representativo. La Figura 6 presenta los resultados de la predicción del nivel de colesterol dado los factores sociales para, a), b) y c), y dada la actividad física, d), e) y f) para cada grupo de nivel respectivamente. En este caso, los resultados de predicción son muy similares para los dos conjuntos de atributos de entrenamiento en todos los grupos de nivel, por lo que podemos concluir que las fuerzas de la relaciones también lo son. Sin embargo, la predicción varía de un grupo de nivel a otro. En el grupo Normal, el error de predicción medio es de alrededor de 24, siendo entorno a 50 y 40 en los grupos Patológico y Normal, respectivamente, concluyendo que es más fácil predecir el nivel de colesterol, ya sea a partir de factores sociales o de actividad física, para los sujetos en el grupo Normal. Este hecho denota una fuerte relación entre los factores de entrenamiento y el nivel de colesterol en este grupo de nivel. Finalmente, la Figura 7 muestra los resultados de predicción de los valores del atributo “Alcohol”, dados los factores sociales y la actividad física por separado para cada uno de los grupos de nivel, análogamente a las figuras anteriores. a) b) c) d) e) f) Figura 7. Precisión, cobertura y medida-F máximas de entre todos los algoritmos para la predicción de "Alcohol", dados los factores sociales en a) grupo Normal, b) grupo Patológico y c) grupo de Riesgo, y dada la actividad física en d) grupo Normal, e) grupo Patológico y f) grupo de Riesgo. Los resultados de la Figura 7 muestran que existe una clara relación en todos los grupos de nivel entre los atributos de entrenamiento y los sujetos que beben alcohol ocasionalmente. Los sujetos que beben de forma regular son más difíciles de ser detectados a partir de los factores de entrenamiento, presentando una leve asociación ligeramente más significativa en el grupo Patológico. Se puede decir lo mismo, con respecto a la actividad física, para los sujetos que nunca beben alcohol. Sin embargo, la precisión de la predicción se incrementa notablemente dados los factores sociales en los grupos Normal y de Riesgo. Los sujetos que nunca beben son identificados de manera precisa a partir de los atributos sociales, lo que denota una relación significativa entre los factores involucrados. Los atributos de entrenamiento se presentan como entrada conjunta a los algoritmos. Desde el punto de vista médico es también interesante separar estos atributos y presentar combinaciones de los mismos. Así, se intentó predecir el valor de actividad física en el trabajo a partir de todas las posibles combinaciones de atributos sociales. Los resultados mostraron que, para los grupos Normal y de Riesgo, el atributo de entrenamiento de nivel educativo por sí solo obtenía resultados mucho mejores que cualquiera del resto de posibles combinaciones de atributos sociales. En el grupo Patológico los resultados son similares, aunque la diferencia no es tan notoria como en los otros grupos, siendo Edad+Nivel Educativo la mejor combinación de atributos para predecir la actividad física en el trabajo. 5.2 Predicción de disfunciones futuras El objetivo principal de los experimentos descritos a continuación es comprobar la eficacia de la predicción de disfunciones futuras. En este caso, además del conjunto Entry, el conjunto Control de la colección también se emplea. Primeramente, se seleccionaron los pacientes con registros posteriores a 10 años desde su entrada en el estudio del subconjunto Control. Después, usando sus atributos correspondientes del conjunto Entry se intentó predecir si padecerían alguna enfermedad en 10 años. Las enfermedades consideradas son hipertensión sistólica, diastólica o sistólica-diastólica, hipercolesterolemia y hipertrigliceridemia. Los valores correspondientes a estos atributos son verdadero o falso, es decir, la padecen o no. La misma tarea de predicción también fue realizada para disfunciones en 20 años. Los resultados muestran que el Perceptrón Multicapa fue el mejor algoritmo, alcanzando valores cercanos al 85% de precisión y 65% de cobertura en la detección de todas las enfermedades. Puesto que el riesgo de hipertensión en el grupo de Riesgo es nulo y algunos de estos pacientes padecían hipertensión desde el principio del estudio, es más interesante desde el punto de vista médico la predicción de enfermedades en el grupo Normal. Así pues, el mismo proceso se ha realizado sólo en el grupo mencionado para la predicción a 10 y a 20 años. Los resultados para las diferentes disfunciones se presentan en la Figura 8, a) a e), respectivamente para 10 años y f) a j), respectivamente para 20 años. Para cada disfunción, se muestran los valores máximos de entre todos los algoritmos. En este caso no existe ningún algoritmo que destaque con respecto a los demás. Dependiendo de la disfunción algunos algoritmos funcionan mejor que otros, por lo que es interesante usar todos los métodos y tomar decisiones a partir de sus resultados conjuntos. Es interesante comentar que la predicción es mucho más eficaz cuando se consideran todos los grupos de nivel conjuntamente, confirmando el interés previo en el grupo Normal. Los valores de la Figura 8 muestran que es más precisa la predicción a 20 años que a 10 años. De hecho, la detección de la presencia (y no la ausencia) de disfunciones se infiere de manera más precisa a 20 años. La ausencia de disfunciones es igualmente bien inferida para cualquier intervalo de tiempo. Entre todas las disfunciones la mejor detectada en la hipertensión diastólica, obteniendo valores entorno al 100% de precisión tanto para la ausencia como para la presencia de la disfunción. La más difícil de detectar es la hipertensión diastólica, imposible de detectar en 10 años. a) b) c) d) e) f) g) h) i) j) Figura 8. Máxima precisión, cobertura y medida-F para la predicción de a) hipertensión sistólica-diastólica, b) hipertensión sistólica, c) hipertensión diastólica, d) hipercolesterolemia y e) hipertrigliceridemia en 10 años, y f) hipertensión sistólica-diastólica, g) hipertensión sistólica, h) hipertensión diastólica, i) hipercolesterolemia y j) hipertrigliceridemia en 20 años. También se intentaron predecir otras disfunciones como la angina de pecho, el infarto de miocardio, infarto cerebro-vascular, etc., pero dado el escaso número de ejemplos correspondiente no se puede extraer ninguna conclusión de los resultados. 5.3 Predicción de la causa de muerte Este experimento es análogo al anterior, pero ahora se trata de predecir la causa de muerte, por lo que se emplea el conjunto Death de la colección. Los algoritmos fueron entrenados con los datos del conjunto Entry de los pacientes presentes en el conjunto Death. Los experimentos se realizaron para cada grupo de nivel por separado y para los tres juntos. Los resultados se presentan en la Figura 9. En el grupo Normal, Figura 9 b), la causa de muerte más detectada fue la enfermedad tumoral. En el grupo de Riesgo, Figura 9 d), otras causas desconocidas, además del infarto de miocardio y enfermedad coronaria fueron las causas mejor inferidas, en absoluto detectadas en el grupo Normal. En el grupo Patológico, Figura 9 c), las causas mejor inferidas fueron la enfermedad tumoral y el infarto de miocardio. Aunque el paro cardíaco y la arterosclerosis general fueron levemente detectadas en el grupo Patológico, en los anteriores grupos no pudieron ser inferidas. De manera general con todos los grupos unidos, Figura 9 a), los resultados de predicción son muy pobres, concluyendo que los datos del conjunto Entry no poseen suficiente información para poder predecir la causa de muerte, o quizás se necesiten más registros de muertes de pacientes. 6. Conclusiones Se han aplicado diferentes algoritmos de aprendizaje automático al descubrimiento de conocimiento en datos biomédicos de dos maneras distintas: primero, los métodos se han usado para predecir el valor de un atributo de la colección dado un subconjunto de otros atributos como entrenamiento, proponiendo la máxima eficacia entre todos los algoritmos como medida de la fuerza de la asociación entre los atributos de entrenamiento y el atributo objetivo. Esta medida ha resultado útil también para la comparación de las asociaciones en diferentes grupos de pacientes. a) b) c) d) Figura 9. Máximos valores de precisión, cobertura y medida-F en la predicción de causa de muerte para a) todos los grupos de nivel juntos, b) grupo Normal, c) grupo Patológico y d) grupo de Riesgo. En segundo lugar, las técnicas de aprendizaje se han aplicado a la predicción de disfunciones futuras. Los resultados muestran que algunos métodos predicen ciertos desórdenes mejor que otros, por lo que es interesante usar todos los algoritmos y considerar sus resultados en base a la tendencia conocida de cada método. Todos los algoritmos empleados predicen mejor a 20 años que a 10, alcanzando excelentes resultados para algunas de las disfunciones, lo que les hace adecuados para la ayuda a la toma de decisiones. Los algoritmos también han sido evaluados en la predicción de causas de muerte, obteniendo resultados poco significativos debido quizás a la escasa información de este tipo presente en la colección. En un futuro cercano se pretende ajustar y optimizar los parámetros de los algoritmos y evaluar más métodos. Se pretende también integrar todos los algoritmos con los grados de significación y utilidad hallados en este trabajo para construir un sistema experto. Se investigará también la derivación de reglas a partir de los resultados de los algoritmos que sean interpretables por los médicos y especialistas. Agradecimientos Esta investigación ha sido conjuntamente financiada por el Plan de Investigación de ICS AS CR AV0Z10300504 y por el Plan de Estancias Breves en el Extranjero “María Bueno” del Consejo Superior de Investigaciones Científicas junto con el Instituto de Automática Industrial del CSIC. References | [1] | Mitchell, T.: Machine Learning. McGraw Hill, 1997. | | [2] | Lavraĉ, N.: Selected Techniques for Data Mining in Medicine. Artificial Intelligence in Medicine, vol. 16 (1), pp. 3-23, 1999. | | [3] | Aseervatham, S. and Osmani A.: Mining Short Sequential Patterns for Hepatitis Type Detection. ECML/PKDD Discovery Challenge, 2005. | | [4] | Aubrecht, P., Kejkula, M., Kremen, P., Novakova, L., Rauch, J., Simunek, M., Stepankova, O.: Mining in Hepatitis Data by LISp-Miner and SumatraTT. ECML/PKDD Discovery Challenge, 2005. | | [5] | Pizzi, L.C., Ribeiro, M.X., Vieira, M.T.P.: Analysis of Hepatitis Dataset using Multirelational Association Rules. ECML/PKDD Discovery Challenge, 2005. | | [6] | Durand, N., Soulet, A.: Emerging Overlapping Clusters for Characterizing the Stage of Liver Fibrosis. ECML/PKDD Discovery Challenge, 2005. | | [7] | Durand, N., Cleuziou, G., Soulet, A.: Discovery of Overlapping Clusters to Detect Atherosclerosis Risk Factors. ECML/PKDD Discovery Challenge, 2004. | | [8] | Cios, K. J.: Medical data mining and Knowledge Discovery. Physica – Verlag, 2001. | | [9] | Chen, H., Fuller, S. S., Friedman, C. and Hersh, W.: Medical Informatics: Knowledge Management and Data Mining in Biomedicine. Integrated Series in Information Systems (2), Springer Science and Business Media Inc., 2005. | | [10] | Boudik F., Reissigova J., Hrach K., Tomeckova M., Bultas J., Anger Z., Aschermann M., Zvarova J.: Primary Prevention of Coronary Artery Disease Among Middle Aged Men in Prague: Twenty-year Follow-up Results. Atherosclerosis. 2006 Jan;184(1):86-93. | | [11] | Tomeckova, M.: The Challenge on Atherosclerosis Data Viewed by the Experts. ECML/PKDD Discovery Challenge, 2004. | | [12] | Rish, I.: An Empirical Study of the Naive Bayes Classifier. IJCAI-01 Workshop on Empirical Methods in AI, 2001. | | [13] | Haykin, S.: Neural Networks: A comprehensive Foundation (2nd edition). Pearson Education, 1998. | | [14] | Scholkopf, B., Smola, A. J., Mtiller, K.-R., Burges, C. J. C., and Vapnik, V.: Support Vector Methods in Learning and Feature Extraction. In Down, T., Frean, M., and Gallagher, M., editors. Proceedings of the Ninth Australian Congress on Neural Networks, Brisbane, Australia. University of Queensland, 1998. | | [15] | Teknomo, K.: K-Nearest Neighbors Tutorial. http:people.revoledu.comkardi tutorialKNN, 2004. | | [16] | Quinlan, J. R.: C4.5: Programs for Machine Learning. Morgan Kauffman, 1993. | | [17] | Compton, P., Edwards, G., Kang, B., Malor, R., Menzies, T., Preston, P., Srinivasan, A. and Sammut, S.: Ripple Down Rules: Possibilities and Limitations. Boose, J.H. & Gaines, B.R., Ed. Proceedings of the Sixth AAAI Knowledge Acquisition for Knowledge-Based Systems Workshop. pp.6-1-6-20. Calgary, Canada, University of Calgary, 1991. | | [18] | Van Rijsbergen, C. J.: Information Retrieval. Butterworths, London, 1979. | | [19] | Witten, I. H. and Frank, E.: Data Mining: Practical Machine Learning Tools and Techniques. 2nd Edition, Morgan Kaufmann, San Francisco, 2005. | |