Automatic scansion of poetry

  1. AGUIRREZABAL ZABALETA, MANEX
Dirigida por:
  1. Iñaki Alegría Loinaz Director
  2. Mans Hulden Director/a

Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 19 de junio de 2017

Tribunal:
  1. Arantza Díaz de Ilarraza Sánchez Presidenta
  2. Hugo Oliveira Lisboa Secretario/a
  3. Elena González-Blanco García Vocal

Tipo: Tesis

Teseo: 142695 DIALNET lock_openADDI editor

Resumen

AUTOMATIC SCANSION OF POETRYPOESIAREN ESKANTSIO AUTOMATIKOATesigilea: Manex Aguirrezabal ZabaletaZuzendariak: Iñaki Alegria eta Mans HuldenLan honetan poesiaren eskantsioa, hau da, poemetako egitura erritmikoaren erauztea, burutzen duguautomatikoki. Horretarako hizkuntzaren prozesamenduko ohiko teknikak erabili ditugu. Metodo batzukerregeletan oinarritutakoak dira, beste batzuk berriz, datuetan oinarritutakoak. Emaitzek iradokitzendute emaitzarik onenak datuetan oinarritutako sistemekin lortutakoak direla.1.- SarreraLehen zutabean dagoen poema osorik irakurrita, erritmo gorabeheratsu (TA-TAN-TA-TAN) konstantebat hauteman daiteke. Bigarren zutabeko lehen adibidea ahoz irakurriko bagenu, TA-RA-TAN modukosoinu bat hautemango genuke. Bigarren adibidea, aldiz, gaztelerazko hendekasilabo bat da, beraz,hamaika soinu unitateko lerroa dugu hura, azken aurreko silaba azentudunarekin. Baina, posible allitzateke horrelako egiturak antzematea hizkuntzaren erabateko ezagutza izan gabe? edo, are gehiago,hizkuntzari buruzko inolako informaziorik gabe, topa al daitezke halako patroiak? HizkuntzarenProzesamenduaren arloko erronkatzat har dezakegu poemetako patroi prosodikoen hautemate hau.Uneko hizkuntzari buruzko informaziorik izan gabe egitura prosodiko hau erauzteko, tradizio poetikoezberdinen azterketa tipologiko bat egitea beharrezkoa dela uste dugu. Bide horretan lehen pausuakemateko ikerlan hau aurkezten dugu, non poesiaren egitura prosodikoa automatikoki aztertzen dugunhizkuntzaren prozesamenduko algoritmo batzuk erabilita. Metodo hauek ingelesezko poemetanaplikatu ditugu emaitza onak lortuaz, eta eredu hoberenak gaztelerazko eta euskarazko corpus banatanaplikatu ditugu.Honako egitura jarraitzen du testu honek: Bigarren atalean eskantsioa definitzen dugu eta tradiziopoetiko ezberdinak aurkezten. Horretaz aparte, poesiaren analisi automatikoaren inguruan egin direnlan batzuk zerrendatzen ditugu. Hirugarren atala lanaren muina dela esan dezakegu, hor aurkeztenbaititugu lan honetarako erabili ditugun corpusak, metodoak eta egindako esperimentuak. Bukaeran,laugarren atalean, esperimentuen ondorioak jartzen ditugu.2.- EskantsioaPoema lerro batean eskantsioa egitea poema horren egitura erritmikoa erauztea da, azentuak, oinaketa errimak adierazita (Baldick, 2015). Lan honetan, ordea, lerro bakoitzaren azentu sekuentzia soilikinferitzen dugu.2.1 Poesia ingelesezHainbat liburu idatzi dira ingelesezko poesiaren prosodiaren inguruan, Halle eta Keyser (1971); Corn(1997); Fabb (1997) eta Steele (1999), adibidez. Ingelesezko poesian silabak oin izeneko multzoetanelkartzen dira. Multzo hauek hainbat silabez osatuta daude, baina ohikoenak bi edo hiru silabakomultzoak dira. Oin hauetako bakoitzak gutxienez gailentzen den silaba bat izango du, azentuatuakontsideratuko duguna. Egitura ohikoenak ianbikoa (bal-loon), trokaikoa (jun-gle), daktilikoa (ac-cident)eta anapestikoa (but I¿m tel-ling you Liz ) dira (Baldick, 2015).Metrika tradizionalaren arabera (Fussell, 1965; Steele, 1999), honelako oinez osatua egongo da lerrometriko oro. Lerroon luzera oin kopuruaren araberakoa izango da, beraz, trimetro batek hiru oin izangoditu, tetrametro batek lau, pentametro batek bost, etab. (hexametro, heptametro, . . . ). Ingelesezkopoesian metrika arruntena pentametro ianbikoa da, adibidez,oh change thy thought, that I may change my mind.non bost azentu argi nabaritzen diren eta TA-TAN multzo bakoitzak oin bat osatzen duen. Poemokorokorrean erregularrak diren arren, ohikoa da aldaketa txiki batzuk egitea egiturotan, helburu estetikoedota artistikoekin.Grant if thou wilt, thou art beloved of manyAurreko adibidearekin alderatuta, honetan hasieran TAN-TA-TA-TAN moduko soinu bat antzematenda. Aldaketa honi, literaturan bariazio trokaiko deitzen zaio. Gainera, lerroa ianbikoa izanda, bukaeraktonikoa behar luke izan, baina aldaketa ohikoa da silaba azentudun baten ostean silaba ez-azentudunbat gehitzea lerroaren bukaeran.2.2 Poesia gaztelaniazGaztelerazko poesian hainbat egitura metriko erabili izan dira (Quilis, 1984; Toma¿s, 1995; Caparro¿s,1999). Lan honetan, corpusaren eskuragarritasuna medio, garai espezifiko batean soilik egin duguenfasia, Espainiako Urrezko Aroan, alegia. Garai honetan gehien erabilitako metrika hendekasilaboaizan zen, lerro bakoitza hamaika silabez osaturik. Lerroetako azentu sekuentzia nahiko erregularra daeta normalean hamargarren silabak azentua darama. Beste silabek ere azentua izan dezakete, etanabarmendutako posizio horien arabera, hendekasilabo hauek hainbat motatakoak izan daitezke.Gaztelerazko poesiaren erronka handienetako bat silaba laburketen erabilera da, sinalefa gisa ezagutzendena, non hamaika silaba baino gehiago dituzten lerroak hamaika silabetan ahokatzen diren. Lan honenhelburua silaba bakoitzari azentu bat automatikoki esleitzea da, ondorioz, metodo erdi-automatiko baterabili dugu sinalefak dauden kasuetan lerroko silaba bakoitzari azentu balio bat esleitzeko.2.3 Poesia euskarazGaur egungo poesian, eta bereziki bertsolaritzan, neurri ezagunik bada, neurri txikiak eta handiak dira.Neurri txikiek lerro bakoitietan zazpi silaba izaten dituzte eta bikoitietan sei. Handiek, ordea, hamarsilaba eta zortzi silaba izaten dituzte lerro bikoiti eta bakoitietan, hurrenez hurren. Ez dira hauek, ordea,poesian erabiltzen diren neurri bakarrak. Idatzizko poesian ohikoa da zortziko ertainaren erabilera, nonlerro bakoitiek zortzi silaba dituzten eta bikoitiek zazpi. Neurri gehienetan lerro bikoitiek elkarrekinerrimatu behar dute.Ikerlan honetan azentuei erreparatzen diegu eta oraindik ez dago argi ea euskarazko poesian azentuekeragin nabarmena duten ala ez. Hainbat adituk idatzi izan dute euskal poesia eta haren neurkerariburuz, XVII. mendetik hasita. Hauek irakurtzean ikuspegi kontrajarriak topa daitezke. Batzuen arabera¿Oihenart eta aita Onaindia, kasu¿ euskal poesian erritmoak garrantzia du, eta poema oroknolabaiteko erritmoa izan behar du.¿Literatur guztiak dabez euren lege ta arauak, olerkigintzan bereziki; euskeran be naitaez izan bear.Lau gauza oneik beintzat gogotan artu bearrak doguz: 1) Igikera (ritmu); 2) etena (cesura); 3)neurria, ta 4) oskide edo azken amaitze bardin¿a (rima).¿Onaindia (1961)Beste batzuk, berriz, euskaraz azentuak eraginik ez duela dio. Nikolas Ormaetxea ¿Orixe¿ da horiesaten duen poeta bat.¿Para probar lo poco sensible que es el acento vasco, inte¿ntese colocar acentos gra¿ficos en las silabasque uno crea acentuadas, enca¿rguese el trabajo a cien personas de buen oido y en una pa¿gina que sesometa al ana¿lisis, se puede asegurar sin temor, que no habra¿ dos que coincidan.¿Ormaechea (1920)2.4 Eskantsio automatikoaAzken urteotan eskantsio automatikoaren inguruan lan ezberdinak egin dira. Lan hauetan, hitzsekuentzia bat sarrera gisa jasota, hauek jarraitzen duten azentu sekuentzia itzultzea izan ohi da burutubeharreko ataza. Itzulpen edo transdukzio prozesu hau hainbat modutara egin daiteke:¿ Erregeletan oinarrituta: Adituek ezarritako arauak jarraituta, hainbat ezaugarri linguistikokontutan izanda.¿ Datuetan oinarrituta: Etiketatutako informazioan oinarrituta, testutik azentuetarako patroiakautomatikoki ikasita. Ildo honi jarraitu diogu aurkezten dugun lan honetan.Urteotan aurkeztu diren lanen artean, arauetan oinarritutakoak Logan (1988); Gervas (2000); Hartman(2005); Plamondon (2006); McAleese (2007); Navarro-Colorado (2015) eta Agirrezabal et al. (2016b)ditugu. Geroz eta entzute handiagoa dute datuetan oinarritutako metodoek, etiketatutakoinformazioaren eskuragarritasuna dela eta. Hauen artean Hayward (1996); Greene et al. (2010); Hayeset al. (2012); Agirrezabal et al. (2016a) eta Estes eta Hench (2016) azpimarratu ditzakegu.3 Corpusak, metodoak eta esperimentuak3.1 CorpusakDatuetan oinarritutako sistemen garapenerako edo erregeletan oinarritutako sistemen ebaluaziorakodatu etiketatuak izatea ezinbestekoa da. Horretarako hiru corpus erabiltzen ditugu, ingelesezko bat,gaztelerazko bat eta euskarazko beste bat. Ingelesezko lanetarako Virginiako unibertsitatean garatutako¿For Better For Verse¿ proiektuaren (Tucker, 2011) emaitza izan den poesia corpusa erabili dugu.Corpus honetan 78 poema daude eta guztira 1.100 poema lerro. Eskantsioa egiterako orduan, lerrobatzuk hainbat analisi izan ditzakete, eta hauek corpusean horrela daude (hainbat aukerarekin).Gaztelerazko esperimentuetarako, lehenago aipatu gisa, Espainiako Urrezko Aroko corpus bat erabilidugu (Navarro-Colorado et al., 2016). Etiketatutako corpusa 135 sonetoz osatuta dago eta gutxigorabehera 2.000 lerro ditu. Euskarazko esperimentuetarako, Patri Urkizuren ¿Poesía vasca: Antologíabilingüe¿ bilduma oinarri hartuta, corpus bat bildu eta eskuz etiketatu dugu. Corpus honek 38 poemaditu eta 2000 lerro inguru.3.2 MetodoakLehen esperimentuak ingelesez egin ditugu eta horiek oinarritzat hartuta, metodo hoberenak gazteleraraeta euskarara estrapolatu ditugu. Lehenik eta behin, erregeletan oinarritutako sistema bat garatu duguinglesezko poesia analizatzeko. Horren ondoren, datuetan oinarritutako tekniketara egin dugu jauzi.Hizkuntzaren prozesamenduan ohikoak diren teknikak aplikatu ditugu datuotatik patroiak ikasi etaaurretik ikusi gabeko poemetan aplikatu ahal izateko. Erabili ditugun teknikak hiru multzotan sailkaditzakegu. Batetik sailkapen arrunta egiten dutenak, sailkapen egituratua egiten dutenak eta sareneuronaletan oinarritutako teknikak.Erabilitako tekniketatik hoberenak perzeptroia (Perceptron) (Freund eta Schapire, 1999), Markoveneredu ezkutuak (Hidden Markov Models) (Rabiner, 1989), ausazko eremu baldintzatuak (ConditionalRandom Fields) (Lafferty et al., 2001) edota epe laburreko memoria luzedun sare neuronalerrekurrenteak (Recurrent Neural Networks with Long Short-Term Memory) (Lample et al., 2016) dira.Teknika eta konfigurazio ezberdinak ebaluatzeko, metodo ezberdinak erabil daitezke. Datu kopuruaoso handia ez denean, gure kasuan bezala, balidazio gurutzatua (K-fold Cross-Validation) erabiltzea daohikoena. Balidazio gurutzatuan datu multzoa k zatitan banatzen da. Behin zati horiek eginda, k ¿ 1zati erabiltzen dira eredu bat ikasteko eta ebaluaziorako bat gordetzen da. Hau k aldiz egiten da, etaasmatze-tasaren batazbestekoa itzultzen da. Gure kasuan, 10 zatitan banatu dugu gure datu-multzoa.3.3 EbaluazioaOndorengo taulan, datuetan oinarritutako metodo hoberenen asmatze-tasak ageri dira. Asmatze-tasahauek silaba mailan kalkulatzen dira.Ondorengo taulan, metodoek lerro mailan lortutako emaitzak agertzen dira.Emaitzen taulan ikus daitekeen moduan, sare neuronaletan oinarritutako sistemek ematen dituzteemaitza onenak, bai ingelesez eta baita gazteleraz ere. Taula horretatik hainbat ondorio plazaraditzakegu.4. OndorioakAgirrezabal et al. (2016a) lanean adierazi genuen Perzeptroiean eta CRFetan erabiltzen ditugun 10atributuak poesiaren analisi prosodikorako egokiak ziren atributuak zirela, bereziki interesgarriakhizkuntzarekiko agnostikoak ziruditelako. Esperimentuotan, gazteleraz probak egin ostean, ikusi duguingelesez nahiko emaitza onak ematen dituztela haien sinpletasuna kontutan hartuta. Gaztelerazkodatuetan, ordea, emaitzak ez dira horren onak izan eta horrek iradokitzen digu atributuok ez direlanahikoak hizkuntzarekiko independenteak diren sistemak eraikitzeko. Dena den, hau baieztatzekohizkuntza gehiagorekin egin beharko genituzke esperimentuok.Emaitzak aztertuta, hitz mugak poemetako egitura prosodikoaren inferentzian garrantzi handia duelaondorioztatzen dugu, bereziki gazteleraz. Horren justifikazioa izan daiteke ingelesezko hitzekbatazbestean silaba gutxiago dituztela gazteleraz baino, beheko irudian ikus daitekeen bezalaxe.Gainera, badirudi sare neuronaletan oinarritutako ereduek hitzen egitura fonologikoa ondo modelatzendutela, baina hau enpirikoki frogatzeko esperimentu gehiago beharko lirateke.