Integrazioa hizkuntzaren prozesamenduan. Anotazio-eskemak eta elkarreragingarritasuna.Testuen prozesatze masiboa, datu handien teknikak erabiliz
- BELOKI LEIZA, ZUHAITZ
- Aitor Soroa Etxabe Zuzendaria
- Xabier Artola Zubillaga Zuzendaria
Defentsa unibertsitatea: Universidad del País Vasco - Euskal Herriko Unibertsitatea
Fecha de defensa: 2017(e)ko uztaila-(a)k 10
- Kepa Sarasola Gabiola Presidentea
- Arkaitz Zubiaga Idazkaria
- David Martínez Iraola Kidea
Mota: Tesia
Laburpena
Tesi-lan honetan hizkuntzaren prozesamenduko tresnen integrazioa landudugu, datu handien teknikei arreta berezia eskainiz. Tresnenintegrazioa, izatez, bi mailatan landu dugu: anotazio-eskemen mailaneta prozesuen mailan.Anotazio-eskemen mailako integrazioan tresnen artekoelkarreragingarritasuna lortzeko lehenbiziko pausoak aurkeztea izandugu helburu. Horrekin lotuta, bi anotazio-eskema aurkeztu ditugu:Anotazio-Amaraunen Arkitektura (AWA, Annotation Web Architecture) etaNLP Annotation Format (NAF). AWA tesi-lan honekin hasi aurretik sortuaizan zen, eta orain formalizazio-lan bat egin dugu berarekin,elkarreragingarritasunari arreta berezia jarriz. NAF, bere aldetik,eskema praktikoa eta sinplea izateko helburuekin sortu dugu. Bianotazio-eskema horietatik abiatuz, eskemarekiko independentea deneredu abstraktu bat diseinatu dugu. Abstrakzio horri esker,elkarreragingarritasunerantz jotzeko bidea zabaldu nahi izan dugu,eredu abstraktua edozein eskemarekin bateragarria dela argudiatuz.Bestalde, tresnen prozesu mailako integrazioa ere landudugu. Horretarako, analisi-kateak modu malguan eta deklaratiboaneraikitzeko azpiegitura bat diseinatu eta inplementatu dugu. Gainera,azpiegitura horretan oinarrituz eta datu handien teknikak aplikatuz,testu-dokumentuen bilduma erraldoiak modu banatuan eta eskalagarrianprozesatzeko arkitektura bat diseinatu eta inplementatu dugu. Sistemahori hainbat nodoz osatutako terminal talde batean ezarriz, baianalisi-kateko tresnak eta bai prozesatu beharreko dokumentuak,automatikoki, eskura dauden nodoetan zehar banatuko dira, sistemaosoaren ahalmenari ahalik eta etekin handiena ateraz.