Dependentzia-ereduan oinarritutako baliabide sintaktikoakzuhaitz-bankua eta gramatika konputazionala
- José María Arriola Egurrola Director
- Arantza Díaz de Ilarraza Sánchez Codirectora
Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea
Fecha de defensa: 30 de octubre de 2008
- Miren Karmele Azkarate Villar Presidenta
- Koldo Gojenola Galletebeitia Secretario/a
- Lauren Etxepare Igiñiz Vocal
- Andoni Sagarna Izaguirre Vocal
- Itziar Aduriz Vocal
Tipo: Tesis
Resumen
La construcción y obtención de un Treebank o banco de árboles sintácticos es un paso muy importante dentro de las aplicaciones en el área del Procesamiento del Lenguaje Natural, ya que constituye un recurso indispensable para el desarrollo de herramientas. Así, en esta tesis se han descrito los criterios de anotación seguidos en la construcción del banco de árboles sintácticos del euskera Eus3LB (Palomar et al. 2004). Después de examinar los dos principales formalismos de anotación sintáctica de corpus, por una parte la anotación basada en constituyentes (o parentización) y por otra, la basada en dependencias, se ha optado por el formalismo de la Gramática de Dependencia (Tesnière, 1959), por ser el más adecuado para una lengua como el euskera de orden libre en la oración. Las dependencias representan las relaciones de núcleo-modificador entre los elementos terminales de las oraciones; es decir, entre las hojas de los árboles o palabras de las oraciones. El desarrollo de este Treebank ha permitido la elaboración de una gramática computacional de dependencias que lleva a cabo un análisis sintáctico total del euskera. Esta gramática se incluye en el mismo marco que la gramática de restricciones, Constraint Grammar (Karlsson et al.;Tapanainen, 1996), ya que muchas de sus características se derivan de esta última. El trabajo realizado supone la primera formalización de las estructuras sintácticas representativas del euskera basada en la Gramática de Dependencia, y el paso de un análisis sintáctico parcial a un análisis sintáctico total en el tratamiento automático de textos reales, realizado mediante el analizador sintáctico o parser.