Larramendiren Hiztegi Hirukoitzaren digitalizazioa: Karaktereen ezagutze optikoa eta Wikitekara igotzea

Mikel Alonso; David Lindemann

doi:10.26876/UZTARO.120.2022.5

Larramendiren Hiztegi Hirukoitzaren digitalizazioaKaraktereen ezagutze optikoa eta Wikitekara igotzea

Mikel Alonso ¹
David Lindemann

1 Universidad del País Vasco/Euskal Herriko Unibertsitatea

Universidad del País Vasco/Euskal Herriko Unibertsitatea

Lejona, España

ROR https://ror.org/000xsnr85

Aldizkaria:

Uztaro: giza eta gizarte-zientzien aldizkaria

ISSN: 1130-5738

Argitalpen urtea: 2022

Zenbakia: 120

Orrialdeak: 83-93

Mota: Artikulua

DOI: 10.26876/UZTARO.120.2022.5 DIALNET GOOGLE SCHOLAR

Beste argitalpen batzuk: Uztaro: giza eta gizarte-zientzien aldizkaria

Garapen Iraunkorreko Helburuak

Laburpena

Artikulu honetan Larramendiren Hiztegi Hirukoitzaren digitalizazioko OCR prozesua deskribatzen da, adimen artifizialaren adarra den ikasketa automatikoa baliatuz. Horretarako, eskaneatutako irudien aurreprozesamendua deskribatzen da, eta ondoren, Kraken erreminta baliatuz, eskuz transkribatutako laginetik abiatuta hiztegiko testua ezagutuko duen ereduaren trebakuntza azaltzen da. Doitasun handiko testuaz gain, letra etzana eta testuaren posizioa gordetzen dituzten fitxategiak sortu dira, hiztegiaren egitura irudikatzeko balioko dutenak. Emaitzak prozesatu eta Wikiteka plataforman eskuragarri jarri direnez, auzolanez transkripzio osoa zuzendu daiteke. Zuzendutako transkripzio hori informazio-erauzketa prozesutik pasako da, hiztegiaren egitura lexikografikoa ikasketa automatikoz erauzteko. Informazio horrekin RDF estandarrarekin bat datorren moldaketa-eredu baten lehen proposamena landuko da, Wikidatan integratzeko.

Datuen iturria: Dialnet

Larramendiren Hiztegi Hirukoitzaren digitalizazioaKaraktereen ezagutze optikoa eta Wikitekara igotzea

Universidad del País Vasco/Euskal Herriko Unibertsitatea

Garapen Iraunkorreko Helburuak

Laburpena