Molecular identification based on atomic force microscopy images and machine learning
- Carracedo Cosme, Jaime
- Rubén Pérez Pérez Director/a
Universidad de defensa: Universidad Autónoma de Madrid
Fecha de defensa: 08 de octubre de 2021
- Ricardo García García Presidente/a
- Jorge Bravo Abad Secretario/a
- Gonzalo Martínez-Muñoz Vocal
- Manuela Garnica Alonso Vocal
- Martina Corso Vocal
Tipo: Tesis
Resumen
La microscopía de fuerzas atómicas (AFM) con puntas metálicas funcionalizadas con una molécula de CO ha surgido como una potente herramienta para estudiar las propiedades de los materiales a escala nanométrica. La capacidad para abordar moléculas individuales, unida a la mejora del contraste que proporcionan estas puntas, ha desempeñado un papel fundamental en la resolución de más de cien tipos diferentes de moléculas en una mezcla, así como en la identificación de los productos intermedios y finales generados en reacciones químicas en superficie, o en la discriminación de órdenes de enlace y especies químicas. Se han desarrollado varios modelos de simulación de imágenes AFM teóricas, desde enfoques semiempíricos hasta simulaciones de primeros principios, que han contribuido a la interpretación de las características clave observadas en las imágenes AFM. A pesar de la riqueza de información proporcionada por los experimentos en la AFM y de los avances logrados en la interpretación del contraste observado, la identificación inequívoca de los sistemas moleculares basada únicamente en las imágenes AFM, sin ninguna información previa, continúa siendo un problema abierto. Del mismo modo en que los avances tenológicos han supuesto una mejora en los montajes del microscopio AFM, también han impulsado la investigación en otros campos como la inteligencia artificial (AI). La potencia de cálculo de las modernas unidades de procesamiento gráfico (GPUs) ha permitido retomar el objetivo de dotar a las máquinas con capacidades hasta ahora exclusivas del ser humano. La capacidad de analizar enormes cantidades de datos ha llevado a esta técnica a superar la capacidad humana en varios ámbitos, alcanzando los resultados más asombrosos en el análisis de imágenes. Aunque se han abordado algunos retos de la AFM mediante el desarrollo de algoritmos de AI para mejorar o automatizar los procesos experimentales, la identificación molecular basada en la combinación de ambos campos continúa prácticamente sin referencias en la literatura. El objetivo de esta tesis es llenar este vacío explorando diferentes técnicas y estrategias que permitan combinar las imágenes de alta resolución AFM (HR--AFM) y la AI para lograr una identificación completa de los sistemas moleculares complejos. Investigaciones recientes indican que las imágenes AFM contienen suficiente información para determinar tanto la estructura como la naturaleza química de cada uno de los átomos de una molécula. Una sola imagen es, en muchos casos, suficiente para revelar la estructura atómica, sin embargo, no lo es para identificar las especies químicas. Por otra parte, las distorsiones de las imágenes asociadas a las diferentes especies químicas varían de forma específica en función de la distancia punta muestra, lo que sugiere que es posible lograr la identificación con una pila de imágenes a varias distancias. Basándonos en estas consideraciones, aquí proponemos diferentes enfoques basados en AI para la identificación molecular a partir de pilas de imágenes AFM de altura constante que cubren el rango de distancias donde la interacción cambia significativamente. La tesis está organizada del siguiente modo: El primer capítulo motiva el objetivo de esta tesis introduciendo los componentes básicos para obtener HR--AFM, mostrando un énfasis particular en los detalles que permiten la discriminación de especies químicas y estructuras moleculares. Los modelos basados en AI requieren una gran cantidad de datos para ajustar sus parámetros y dado que no hay un conjunto de imágenes AFM experimentales disponible, nos vemos obligados a entrenar nuestros modelos con simulaciones teóricas. La segunda parte del capítulo se centra en la descripción de la evolución de los modelos de simulación, terminando con una descripción del modelo utilizado para realizar las simulaciones AFM en esta tesis. El segundo capítulo introduce tanto la idea general de la AI como los conceptos de este campo utilizados a lo largo de la tesis. En primer lugar, se detallan las componentes de las neuronas más primitivas para, a partir de éstas, construir los diferentes tipos de operadores, las redes neuronales y los algoritmos de optimización. En el capítulo 3 nos centramos en una prueba de concepto de la idea principal que sustenta toda la tesis: La clasificación automática de imágenes experimentales AFM utilizando modelos de AI entrenados esencialmente con un conjunto de datos generados computacionalmente. A partir de un pequeño conjunto de moléculas generamos un conjunto de datos de simulaciones teóricas que cubren un amplio rango de condiciones experimentales AFM. Analizamos las limitaciones de dos modelos estándar de reconocimiento cuando se aplican a la clasificación de imágenes AFM y desarrollamos un modelo con la arquitectura óptima para proporcionar resultados precisos y conservar la capacidad de generalización. La precisión alcanzada con imágenes simuladas teóricamente es casi perfecta, sin embargo cuando enfrentamos el modelo a imágenes experimentales la precisión disminuye. Demostramos que un autoencoder variacional (VAE) proporciona una forma muy eficiente de incorporar, a partir de muy pocas imágenes experimentales, rasgos característicos de éstas en el conjunto de entrenamiento que aseguran una alta precisión en la clasificación tanto de imágenes teóricas como experimentales. Sin embargo, el planteamiento de la clasificación únicamente es válido para el conjunto de moléculas pertenecientes al conjunto de datos. Dado que el número de estructuras resultantes de las combinaciones de especies químicas es infinito, no es posible generar un conjunto de datos que cubra todos los casos posibles y por consiguiente tampoco lo es el generalizar la identificación planteando el problema como una clasificación en el sentido habitual. El desarrollo de modelos que generalicen la identificación molecular requiere un esfuerzo adicional, que se aborda en los capítulos 4, 5 y 6. El primer paso en la dirección correcta hacia la identificación molecular sin restricciones es obtener un conjunto de datos suficientemente grande. Lograr un equilibrio entre la precisión de los datos de aprendizaje y la capacidad de generalización es el principal reto de la AI, por lo que se necesita un conjunto de datos suficientemente extenso y variado. El capítulo 4 presenta el conjunto de datos de simulaciones AFM más grande en el momento en de escritura de esta tesis. Con cientos de miles de estructuras moleculares y millones de imágenes AFM, este conjunto de datos no sólo proporciona una colección extremadamente rica de imágenes para entrenar modelos de AI, sino que también representa un poderoso repositorio de simulaciones AFM donde los investigadores del campo pueden buscar imágenes de una gran variedad de compuestos moleculares. Este repositorio está incluido en SPMimages, una iniciativa para proporcionar a la comunidad del microscopio de sonda de barrido (SPM) un lugar para almacenar, compartir y buscar imágenes SPM, con un enfoque particular en los sistemas moleculares estudiados con puntas funcionalizadas. Esta herramienta web, descrita en la última sección del capítulo, utiliza el código WSxM como interfaz de carga y, por lo tanto, admite casi cualquier formato proporcionado por los microscopios comerciales y las simulaciones teóricas. En el capítulo 5 se aborda la generalización completa de la clasificación molecular. La existencia de infinitas estructuras moleculares hace inviable la clasificación en el sentido estándar con Redes Neuronales Convolucionales (CNNs), por lo que convertimos la clasificación en un problema de subtitulación de imágenes, dotando al modelo con la capacidad de formular químicamente. Para ello, proponemos una arquitectura de red basada en Redes Neuronales Recurrentes Multimodales (M--RNNs), combinando CNNs y RNNs en un único modelo. Así, mientras que la componente CNN procesa la información gráfica, la RNN aborda la formulación como una serie temporal. Dado que la identificación química y estructural mediante imágenes AFM combinada con el aprendizaje de la formulación es extremadamente exigente para una sola red, dividimos el objetivo en dos tareas, cada una de ellas asignada a una M--RNN. La primera de ellas realiza una identificación química de los atributos, que son combinaciones de letras que describen principalmente los componentes moleculares. La segunda red combina los atributos con las imágenes AFM proporcionando como salida del modelo la formulación IUPAC de la molécula. Para evaluar la precisión del modelo aplicamos el algoritmo de evaluación bilingüe (BLEU), la métrica más comúnmente utilizada para puntuar la precisión de los modelos de procesamiento del lenguaje. En el capítulo 6 desarrollamos una metodología alternativa a la formulación para generalizar la clasificación. Dotar a un modelo con la capacidad de formular es un enfoque ingenioso, sin embargo, al introducir las series temporales obtenemos un modelo que no es tan consistente como los compuestos únicamente por CNNs. En este caso, aplicamos una Red Condicional Adversarial Generativa (CGAN) que, basada en redes convolucionales, predice una representación gráfica de la molécula en lugar de realizar una clasificación o formular su nomenclatura. La precisión del modelo en la identificación nos lleva a considerar la opción de utilizar un modelo similar para parametrizar el desplazamiento de la frecuencia, proporcionando de este modo simulaciones AFM a partir de representaciones bola--palo. Los resultados de este segundo objetivo muestran que la simulación de imágenes AFM con AI es posible. Sin embargo, dado que la representación bola--palo es un descriptor molecular bidimensional, no proporciona información sobre la componente vertical (coordenada z) de las posiciones atómicas, por lo que las estructuras que pueden simularse a partir de este tipo de representación se limitan a moléculas más bien planas. Por último, el capítulo 7 presenta las conclusiones generales y una perspectiva de trabajo posterior que se deriva de un modo natural de los resultados de los capítulos anteriores.