Análisis estadístico de corpus cronológicosaplicación al estudio de bases bibliográficas y textos retóricos

  1. HERNÁNDEZ RAMÍREZ, DARÍA MICAELA
Supervised by:
  1. Mónica Bécue-Bertaut Director

Defence university: Universitat Politècnica de Catalunya (UPC)

Fecha de defensa: 19 December 2016

Committee:
  1. Catalina Bolancé Losilla Chair
  2. Ignacio García Lautre Secretary
  3. Juan Ignacio Modroño Herrán Committee member

Type: Thesis

Abstract

Debido a la gran cantidad de datos textuales que se generan constantemente, los investigadores se enfrentan con la necesidad de clasificarlos y analizarlos, aunque existen diferentes técnicas y herramientas computacionales para facilitar su estudio. En esta tesis se proporciona un procedimiento metodológico, así como su herramienta computacional para el análisis de corpus cronológicos. Nuestro interés se centra en modelizar la estructura del corpus y clarificar el flujo de su vocabulario. La metodología propuesta continúa con la linea metodológica desarrollada por Bécue- Bertaut (2014) la cual combina los métodos multidimensionales clásicos para el análisis de datos con los métodos para el estudio de la estructura y la evolución de los corpus. Para modelizar la estructura del corpus y clarificar el flujo de su vocabulario, el corpus se segmenta en tres partes, de acuerdo a las funciones que desempeñan las palabras: vocabulario especializado o local, que es inducido por el tema tratado, pero que también marca la estrategia evolutiva del corpus; vocabulario estable, conformado por las palabras utilizadas de forma regular a lo largo del corpus y, vocabulario aleatorio, formado por las palabras herramientas en general, como preposiciones y determinantes. En la descomposición del vocabulario según las funciones de las palabras, proponemos una metodología que combina el índice de reparto del vocabulario, las palabras características cronológicas y una prueba de bondad de ajuste para la distribución de Poisson. Después se analiza el vocabulario especializado y la metodología propuesta sigue la idea desarrollada por Benzécri (1973, 1981), implementada en el método de Análisis de una Matriz de Datos (AMADO), e incorpora un nuevo procedimiento que consiste en: primero, ordenar todas las palabras especializadas: a) por sus coordenadas sobre la primera dimensión de un Análisis de Correspondencias (AC) y b) de acuerdo con el documento o segmento de documentos caracterizados por las palabras características cronológicas; segundo, visualizar el vocabulario que determina la evolución a través de los gráficos de Bertin y, tercero, mostrar la estructura del modelo o esquema de evolución cronológica mediante AC. Los resultados que se obtienen muestran las ventajas que ofrece el análisis de los datos a través de un enfoque cronológico al responder a preguntas como: ¿Cuáles son los temas más relevantes? ¿Existe evolución en el vocabulario? ¿Qué es lo que determina su evolución? ¿El corpus está bien organizado? ¿Existe diversidad temática? ¿Qué papel desempeña cada una de las palabras según su función? ¿Cuáles son las palabras que permiten evolucionar al corpus? Los resultados se muestran mediante el análisis de una base bibliográfica y de un texto retórico. La metodología fue implementada en un conjunto de funciones programadas en R y puede ser aplicada a cualquier tipo de corpus.