Supervised machine learninga theoretical study with applications

  1. NUÑEZ GONZALEZ, JOSE DAVID
Dirigida por:
  1. Rosario Delgado de la Torre Director/a

Universidad de defensa: Universitat Autònoma de Barcelona

Fecha de defensa: 09 de noviembre de 2022

Tribunal:
  1. Xavier Bardina Simorra Presidente/a
  2. David Moriña Soler Secretario/a
  3. Raquel Iniesta Benedicto Vocal

Tipo: Tesis

Teseo: 822751 DIALNET lock_openTDX editor

Resumen

Esta Tesis se enmarca en el ámbito del Aprendizaje Automático Supervisado, en el que presentamos un estudio teórico con aplicaciones. En concreto, hemos realizado aportaciones a los distintos momentos del ciclo de vida del Aprendizaje Automático desde un punto de vista integral, centrando nuestra atención en las tres etapas fundamentales del ciclo: preprocesamiento del conjunto de datos, construcción del modelo predictivo (clasificador), y validación del modelo utilizando métricas de comportamiento. El primer trabajo se centra en la fase de preprocesamiento. Hemos propuesto un nuevo método de sobremuestreo que utiliza una red Bayesiana construida como el modelo probabilístico para las relaciones de dependencia entre las características en el contexto de la clase minoritaria, para generar instancias artificiales de la clase minoritaria en un conjunto de datos con variables categóricas y/o continuas. Se basa en que la verosimilitud es una medida de la bondad de ajuste de un modelo a un conjunto de casos, lo que es un paradigma diferente a aquél en el que se basan los métodos de sobremuestreo existentes: la idea de distancia entre las características, que resulta ser incoherente cuando se aplica a conjuntos de datos con variables no continuas. El segundo trabajo está relacionado con la construcción de un modelo predictivo, específicamente, un clasificador. Hemos implementado un sistema experto basado en un conjunto de clasificadores Bayesianos para ayudar en la toma de decisiones en la Unidad de Cuidados Intensivos del Hospital de Mataró. El sistema predice el desenlace vital del paciente ingresado en la UCI (vivo/muerto) así como el destino al alta de la UCI, si la predicción es “vivo’’, o la causa de la muerte si es “muerto’’. La regla de combinación para decidir la predicción proporcionada por el conjunto, a partir de las predicciones dadas por los clasificadores base, es un promedio ponderado con pesos específicos basados en el área bajo la curva de precisión-recuperación (AUPR), adecuado para tratar con conjuntos de datos desequilibrados, compatible con el criterio MAP. La última contribución atiende a la fase de validación. Hemos introducido una mejora en la definición original de la métrica Confusion ENtropy (CEN), que se basa en la entropía de Shannon del campo de la Teoría de la Información, como medida de la incertidumbre que conlleva el resultado de un proceso de clasificación. Esta modificación permite evitar el comportamiento indeseable que muestra CEN, que en algunos casos está “fuera de rango”, y en otros muestra falta de monotonicidad cuando la situación pasa monótonamente de una clasificación perfecta a una completamente errónea.