Speech and text translation involving basque language: an application of stochastic finite-state transducers

Pérez Ramírez, Alicia

Speech and text translation involving basque languagean application of stochastic finite-state transducers

Pérez Ramírez, Alicia

Dirixida por:

Francisco Casacuberta Nolla Director
María Inés Torres Barañano Director

Universidade de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 07 de abril de 2010

Tribunal:

Enrique Vidal Ruiz Presidente/a
Ismael García Varea Secretario/a
Phil Blunsom Vogal
José Bernardo Mariño Acebal Vogal
Isabel Trancoso Vogal

Tipo: Tese

Teseo: 291838 DIALNET TESEO editor

Resumo

El objeto de este trabajo es la traducción automática de texto y de voz tomando el euskera bien como lengua origen, bien como lengua destino, No nos restringimos a la traducción de texto, sino que consideramos también la voz. Abordamos la traducción automática dentro del marco probabilístico, que durante los últimos años ha despertado un gran interés en la comunidad científica principalmente debido a los algoritmos que permiten inferir automáticamente modelos de traducción a partir de muestras bilingües. En este contexto, hacemos uso del algoritmo giati (definido previamente en la literatura), que da lugar a un transductor estocástico de estados finitos (TEEF). Como contribución principal de este trabajo se destaca la definición e implementación de una extensión del algoritmo giati que explota secuencias de palabras, o phrases, en lugar de palabras aisladas. Los modelos basados en phrases, sean de naturaleza estadística o lingüística, tienen la ventaja de hacer un mejor uso del contexto dando lugar a traducciones más precisas. Como contrapartida, requieren de tratamientos específicos de suavizado a fin de alcanzar un nivel de generalidad similar al de los modelos basados en palabras. En lo que a modelado de transductores se refiere, también hemos explorado el uso de técnicas de categorización. Se han estudiado dos aproximaciones: la primera utiliza categorías como lenguaje intermedio entre la lengua origen y la destino a fin de obtener dos traductores más precisos que el traductor directo; la segunda, engasta transductores específicos en un modelo de categorías que será el responsable de guiar la traducción. En lo que a la traducción de voz respecta, la aproximación clásica implica a un sistema de reconocimiento automático del habla seguido de un sistema de traducción de texto. Esta arquitectura desacoplada ha sido criticada debido a que el sistema de traducción obvia la contribución de la fuente de conocimiento acústico. A este respecto, los modelos de estados finitos ofrecen gran versatilidad. La integración del modelo de traducción con modelos acústicos da lugar a una nueva red de estados finitos que aborda la traducción en un sólo paso explotando conjuntamente conocimiento acústico y de traducción. Los modelos y las arquitecturas propuestas han sido evaluados en una tarea de dominio restringido en castellano y euskera, las dos lenguas oficiales de la comunidad autónoma vasca. El éxito de los sistemas de traducción depende en gran medida de la calidad de las muestras de entrenamiento, pero también de las propias lenguas involucradas, y como es sabido, el castellano y el euskera difieren notablemente tanto en la sintaxis como en la morfología. A pesar de que los modelos propuestos superan al modelo de referencia, la necesidad de seguir investigando en este campo es manifiesta, particularmente, en lo que a modelado de reordenamiento se refiere.