Errores ortográficos y de competencia en textos de la web en euskera

  1. Alegría Loinaz, Iñaki
  2. Etxeberria Uztarroz, Izaskun
  3. Leturia Azkarate, Igor
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2010

Número: 45

Páginas: 137-144

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

En este trabajo se estima la calidad de los corpus en euskera obtenidos de la Web siguiendo una metodología similar a la propuesta por Ringlstetter et al. (2006) para el inglés y el alemán. Sin embargo nuestro trabajo difiere del mencionado en que al tratar un idioma de gran riqueza morfológica hemos optado por reutilizar verificadores ortográficos para reconocer los errores. Esto trae consigo, en nuestra opinión, una cobertura mayor de los errores que se estudian, además de la reutilización de recursos previamente desarrollados, lo que hace el método interesante para aplicarlo, sin prácticamente trabajo manual, a lenguas que tienen disponibles estos recursos. Los resultados van a ser de gran interés para detectar los distintos tipos de textos obtenidos de la Web en euskera según su corrección, y filtrar aquellos que pueden generar problemas o no tienen una calidad mínima.

Referencias bibliográficas

  • Alegria I., Aranzabe M., Ezeiza A., Ezeiza N., Urizar R. 2002. Using Finite State Technology in Natural Language Processing of Basque. LNCS: Implementation and Application of Automata. 2002. Springer.
  • Alegria I., Etxeberria I., Hulden H., Maritxalar M. 2009. Porting Basque Morphological Grammars to foma, an Open-Source Tool. FSMNLP2009. Pretoria. South Africa.
  • Beesley K. R. and Karttunen L. 2003. Finite State Morphology. CSLI Publications, Palo Alto, CA. Hulden M. 2009. Foma: a Finite-State Compiler and Library. EACL 2009. Demo session. pp 29-32.
  • Kilgarriff, A. and Grefenstette, G. 2003. Introduction to the special issue on the web as corpus. Computational linguistics, 29(3): 333- 347. MIT Press.
  • Kukich K. 1992. Techniques for Automatically Correc-ting Words in Text. ACM Comput. Surv. 24(4): 377-439.
  • Leturia I., San Vicente I., Saralegi X. and Lopez de Lacalle M. 2008. Collecting Basque specialized corpora from the web: language-specific performance tweaks and improving topic precision. Proc. of the 4th. Web as Corpus Workshop. LREC 2008.
  • Ringlstetter, C. and Schulz, K.U. and Mihov, S. 2006. Orthographic errors in web pages: Toward cleaner web corpora. Computational Linguistics, 32(3): 295-340. MIT Press.
  • Sharoff, S. 2006. Creating General-Purpose Corpora Using Automated Search Engine Queries. WaCky! Working Papers on the Web as Corpus, 63-98. Ed. Marco Baroni and Silvia Bernardini. Bologna.
  • Whitelaw C., Hutchinson B., Chung, G.Y. and Ellis G. 2009. Using the web for language independent spellchecking and autocorrection. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 2, 890-899.