Supervised machine learning: a theoretical study with applications

NUÑEZ GONZALEZ, JOSE DAVID

Supervised machine learninga theoretical study with applications

NUÑEZ GONZALEZ, JOSE DAVID

Dirigida per:

Rosario Delgado de la Torre Director/a

Universitat de defensa: Universitat Autònoma de Barcelona

Fecha de defensa: 09 de de novembre de 2022

Tribunal:

Xavier Bardina Simorra President/a
David Moriña Soler Secretari/ària
Raquel Iniesta Benedicto Vocal

Tipus: Tesi

Teseo: 822751 DIALNET TDX editor

Resum

Aquesta Tesi s’emmarca en l’àmbit de l’Aprenentatge Automàtic Supervisat, en el qual presentem un estudi teòric amb aplicacions. En concret, hem realitzat aportacions als diferents moments del cicle de vida de l’Aprenentatge Automàtic des d’un punt de vista integral, centrant la nostra atenció a les tres etapes fonamentals del cicle: preprocessament del conjunt de dades, construcció del model predictiu (classificador), i validació del model utilitzant mètriques de comportament). El primer treball es centra en la fase de preprocessament. Hem proposat un nou mètode de sobremostreig que utilitza una xarxa Bayesiana construïda com a model probabilístic per a les relacions de dependència entre les característiques al contextde la classe minoritària, per a generar instàncies artificials de la classe minoritària a un conjunt de dades amb variables categòriques i/ o contínues. Es basa en el fet que la versemblança és una mesura de la bondat d’ajustament d’un model a un conjunt de casos, la qual cosa és un paradigma diferent d’aquell en què es basen els mètodes de sobremostreig existents: la idea de distància entre les característiques, que resulta ser incoherent quan s’aplica a conjunts de dades amb variables no contínues. El segon treball està relacionat amb la construcció d’un model predictiu, específicament, un classificador. Hem implementat un sistema expert basat en un conjunt de classificadors Bayesians per a ajudar en la presa de decisions a la Unitat de Cures Intensives de l’Hospital de Mataró. El sistema prediu el desenllaç vital del pacient ingressat a la UCI (viu/mort) així com el destí a l’alta de l’UCI, si la predicció és “viu”, o la causa de la mort si és “mort”. La regla de combinació per a decidir la predicció proporcionada pel conjunt, a partir de les prediccions donades pels classificadors base, és una mitjana ponderada amb pesos específics basats a l’àrea sota la corba de precisió-recuperació (AUPR), adient per a tractar amb conjunts de dades desequilibrades, compatible amb el criteri MAP. La darrera contribució atén la fase de validació. Hem introduït una millora a la definició original de la mètrica Confusion ENtropy (CEN), que es basa en l’entropia de Shannon del camp de la Teoria de la Informació, com a mesura de la incertesa que comporta el resultat d’un procés de classificació. Aquesta modificació permet evitar el comportament indesitjable que mostra CEN, que en alguns casos és “fora de rang”, i en d’altres mostra manca de monotonicitat quan la situació passa monòtonament d’una classificació perfecta a una completament errònia.