Idiomatikotasunaren karakterizazio automatikoa: izena+aditza konbinazioak

GURRUCHAGA HERNAIZ, Antonio

Idiomatikotasunaren karakterizazio automatikoaizena+aditza konbinazioak

GURRUCHAGA HERNAIZ, Antonio

Supervised by:

Xabier Artola Zubillaga Director
Iñaki Alegría Loinaz Co-director

Defence university: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 21 July 2014

Committee:

Eneko Agirre Bengoa Secretary
Basilio Sierra Araujo Secretary
Izaskun Fernandez Gonzalez Committee member
Hulden Mans Committee member
Itziar Aduriz Committee member

Type: Thesis

Teseo: 379560 DIALNET

Abstract

Hizkuntza bat ikasteko esperientziatik igaro den orok sentituko zuen maiz zein garrantzitsua den ikastea ama-hizkuntzatzat delako hizkuntza dutenek hitzak nola konbinatzen dituzten, baldin \jatorrizko" hiztunen pareko komunikazio-gaitasuna lortuko badu. Euskarazko urrats ingelesez step dela ikasita, eta egin esateko do edo make erabil ditzakegula jakinda, gure urratsak egin adierazteko, to do steps edo to make steps konbinazioak sortuko ditugu, modu naturalean, harik eta norbaitek ezetz esan arte, horrela ez dela esaten, ez do ez make, step hitzarekin to take erabiltzen dutela ingelesdun \jatorrek". Gaztelaniaz, dar pasos erabiltzen da, eta frantsesez, faire des difemarches. Edo, frantsesez ikasten ari bagara eta ardo gorri nola den inork esan ez badigu, jatetxe batean vin rouge eskatuko dugu segur aski, baina zerbitzatu orduko jakingo dugu `ardo beltza' eskatu dugula, ardo gorri adierazteko vin rose erabiltzen baita frantsesez. Gaztelaniaz ikasten ari den euskaldun batek ere lasai esango luke sacar ruido, gure zarata atera hitzez hitz itzulita, baina gehiago ikasi ahala ohartuko da gaztelaniaz meter ruido esan ohi dela, aditz antonimoa erabiliz, hain zuzen ere! Horietan behintzat, urrats, ardo eta zarata hitzek beren \ohiko" esanahia dute, hizkuntza batetik bestera \zuzenean" itzul daitezke; konbinazioaren beste osagaia ez, ordea, eta hizkuntza bakoitzean ohikoa den aditza aukeratzea izango da lanak emango dizkiguna. Baina halako batean norbaitek ingelesez don't pull my leg esaten badigu, nekez ulertuko diogu, pull eta leg hitzen esanahia jakin arren, non ez garen ari une horretan haren hankatik tiraka, edo, ingelesdun onak izanik, esapidearen esanahia zein den aurrez ez badakigu. Orduan, lagun errukior batek esplikatuko digu `adarrik ez jotzeko' esan digula. Horrelakoetan, osagaiek ez dute gordetzen beren oinarrizko esanahia, eta konbinazioaren esanahia ikasi ezean, nekez ondoriozta genezake osagaien esanahietatik. Hitzen konbinatoriaren mundua da hori, hitz anitzeko unitateen (HAU) edo unitate fraseologikoen (UF) arloa, fraseologia. Hor espezie desberdinak bizi dira, hala nola atentzioa emanen modukoak, kolokazioak, eta adarra joren estilokoak, esapide idiomatikoak edo lokuzioak. Fenomeno hau hizkuntza orotan gertatzen da, hizkuntzaren beraren \propietate" unibertsal bat dela uste da (Moon, 1998a). Jakina da hizkuntzaren ezaugarri gakoenetako bat konbinazio-sistema diskretua izatea dela (Pinker, 1994), hau da, multzo mugatua osatzen duten elementu bakunak konbinatuz konbinazio berriak, lehendik inoiz sortu gabeak, era ditzakegula, eta horrexetan datzala hizkuntzaren adierazte-ahalmena (Hauser et al., 2002). Baina ikerketek erakutsi dute hiztunok konbinazio \preferentzial" edo \unitate aurrefabrikatu" batzuk erabiltzen ditugula, unean-unean egindako konbinazio \libreen" gisa berean eratzen ez direnak. Gaur egun, onartua dago hizkuntzaren funtzionamendua ezin dela osagai bakunen konbinazio libreaz (sistemaren gramatikaarauen zein semantikaren arabera) soilik azaldu, hiztunek erabiltzen dituzten hizkuntza-elementu batzuk nolabaiteko unitate \aurrez eratuak" baitira, zenbait osagai bakunez osatutako unitateak izan ere (Fillmore, 1979: 92). Zenbait autorek enfasi berezia jarri dute hitz anitzeko unitateek hizkuntzan, eta zehazki lexikoan, duten pisuan. Jackendoek (1995) estimatzen du, telebistako lehiaketa-programa bateko corpusa aztertuta, erabilitako \segida formulaikoen" (formulaic sequences) lexikoa hitz bakunen lexikoa adinakoa dela, handiagoa agian. Erman eta Warrenek (2000), ildo beretik, kalkulatu zuten segida formulaikoen proportzioa % 58,6 zela haiek analizatu zuten ingelesezko diskurtsoan. Antzeko baieztapen gehiago ekar genitzake hona, eta intuizioak ere hala iradokitzen digu, nahiz eta ebidentzia enpirikoak ez diren erabat konkluienteak (Schmitt eta Carter, 2004). Hitz anitzeko unitateek horrenbesteko pisua izaki, zentzuzkoa da uste izatea hizkuntza batean komunikatzen jakiteak, hau da, komunikaziogaitasunak, lotua egon behar duela horiek ezagutzearekin eta erabiltzen jakitearekin. Hizkuntza bat ikasten ari denarentzat, aski zaila da jakitea zein diren, posible liratekeen konbinazioetatik, normalean erabiltzen direnak (Wray, 2000; Warren, 2005). Zenbait ikerketak agerian utzi dute (Howarth, 1998; Wiktorsson, 2003), hizkuntza baten jatorrizko hiztunen eta hizkuntza hori bigarren hizkuntzatzat dutenen jarduerak konparatuta, alde handienetako bat dela bigarrenen fraseologia urriagoa izatea; eta bigarren hizkuntza baten maila desberdineko ikasleen artean ere, maila hobetu ahala handiagoa dela unitate fraseologikoen erabilera. Zehazki, Howarthek (1998) kolokazioen arloan kokatu du gabezia nagusia. Horrek guztiak agerian uzten du hitz anitzeko unitateek edo unitate fraseologikoek leku nabaria merezi dutela hizkuntzaren fenomenoa esplikatu nahi duten teorietan, hizkuntzari buruzko informazioa bildu nahi duen edozein hizkuntza-baliabidetan, hala nola hiztegietan eta hizkuntza ikasteko materialetan, eta, azken urteotan argi ikusi denez, hizkuntzaren prozesamendu automatikoan (HP). UFen eskuratze eta prozesatze automatikoa egiteko garrantzitsua da hizkuntzaren teknologiaren hainbat esparrutan: itzulpen automatikoan, IE-IR sistemetan, entitate-erauzketan, terminologia-erauzketan, testu-sorkuntza automatikoan. . . Fraseologia konputazionalaren arloak interes handia sortu du hizkuntzaren prozesamendu automatikoaren ikerkuntzan ari den komunitate zientifikoan, baita oinarrizko tresnen zein aplikazioen garapenean ari diren ikertzaileen artean ere (Heid, 2008: 341; Krcmar et al., 2013). Nabarmentzekoa da \MWE community" delakoak1 arlo honetan egiten duena lana, 2003az gero urteroko nazioarteko jardunaldiak antolatu dituena. Bestetik, UFen erauzketa, ezagutza eta prozesatzearen zailtasuna ere aitortua du komunitate zientifikoak (Sag et al., 2002). Bada, halako garrantzia izaki, bistan da behar behinenetako bat UFak biltzea dela. Unitate horiek datu-base lexikalean edo hiztegi konbinatorioan zehaztu behar dira, eta, aplikazioaren arabera, behar den informazioa gehitu (esanahia, itzulpena, murrizketa lexikalak, propietate morfosintaktikoak. . . ). Urte askoan, introspekzioa edo eskuzko bilketa izan da hori egiteko modu tradizionala, hiztegigintzan eta baliabide lexikalak eratzeko beste egiteko askotan bezala; azken hamarkadetan, corpusgintzari eta HP arloko teknologia- garapenari esker, prozesu horren automatizazioan urrats handiak egin