Euskarazko hizketa jarraituaren ezagutza automatikoa eredu estokastikoen bidez
- Manuel Graña Romay Zuzendaria
Defentsa unibertsitatea: Universidad del País Vasco - Euskal Herriko Unibertsitatea
Fecha de defensa: 2003(e)ko ekaina-(a)k 25
- José Bernardo Mariño Acebal Presidentea
- Carmen Hernández Gómez Idazkaria
- Nerea Ezeiza Ramos Kidea
- Francisco Javier Torrealdea Folgado Kidea
- Itziar Aduriz Kidea
Mota: Tesia
Laburpena
La presente memoria culmina un proces de 10 años dedicados al desarrollo de recursos y sistemas de reconocimiento del habla continua (CSR) en euskera, que constituyen un trabajo pionero en esta lengua. En este trabajo hemos tenido que reproducir esfuerzos, trabajos y resultados que ya existían para otras lenguas, y también nos hemos beneficiado del estado del arte actual en muchos aspectos del desarrollo de los sistemas de reconocimiento automático del habla (ASR). Una parte fundamental del trabajo es el desarrollo de recursos para el análisis estadístico de la lengua y para la construcción de los sistemas de reconocimiento. Estos recursos abarcan textos de diversas fuentes, en un intento de realizar un muestreo exhaustivo de la lengua, así como una base de datos fonética de voz en la que se ha tratado de obtener una representación adecuada para las diversas variedades dialectales. También se incluyen tareas de complejidad controlada para la evaluación de sistemas de reconocimiento. Este trabajo, que normalmente se realiza con grandes equipos humanos y fuertes financiaciones, ha sido realizado por un grupo escaso de voluntarios que colaboraron de modo desinteresado en las diversas fases de la tesis, y con limitados recursos teóricos. Los trabajos se inician con la construcción de un decodificador acústico fonético para el euskera. El conjunto base de unidades subléxicas de tipo fonético independientes del contexto se escogieron de acuerdo a criterios lingüísticos y estadísticas fonéticas y fonológicas de la lengua. Posteriormente se realizo una selección de las unidades de mínima confusión para todas las variedades dialectales de la zona sur. Este sistema es la base y piedra angular de los posteriores desarrollados. Los trabajo se orientan a continuación a la selección de unidades léxicas para CSR. En muchas lenguas (ingles, francés o español) las unidades léxicas se identifican habitualmente co