Iramuteq euskaraz erabilteko ohar batzuk – Urliaren webgune pertsonala

Aurreko sarreraren batzuetan erakutsi nituen Iramuteq bera, analisiren bat, eta euskarazko hiztegiarekin beste nalisiren bat. Gaurkoan ohar tekniko batzuk ekarri ditut blogera, besteren batek Iramuteq euskaraz erabiltzeko ahaleginean aurrera egin nahi badu, aurkitu eta idatzi ditudan kontu batzuk ordenatuta izateko.

Oinarrian: Iramuteq bera erabiltzeko euskarazko lexikoa / hiztegia:

Abasolo, J., & Eguskiza, N. (2022/). Euskarazko lexikoa Iramuteqerako. Open Science Framework. https://doi.org/10.17605/OSF.IO/T8JEV

Mezu honetan azaltzen dira Iramuteqeri beste hiztegi bat gehitzeko nik ezagutzen ditudan prozesu bi eta amaieran hiztegi/lexiko fitxategi horiek zelan egituratu behar diren, eskua horretara inork sartu nahi badio (ni ari naiz).

Gutxieneko prozesua:

Deskargatu hiztegi/lexikoaren azken bertsioa : lexikoa-eu-V1_0_2-2022-03-26.txt. Horretarako esteka horretan lexikoa bera > files ibilbidea egin eta download aukerari eman.
Analizatzeko konfigurazioa eman Iramuteq abiarazita.
Normalean egiten direnez gain aukeratu behar da hizkuntza eta hizkuntzako hiztegia.

Gaur gaurkoz Iramuteqek ez du ematen aukeran euskara, horregatik gure aukerak izango dira (1) Langue: Autre, (2) Dictinnaire: Autre eta (3) hiztegia bera aukeratu.
Analizatu
Normalean egiten den moduan.
Aztertu estatistikak eta sortu hiztegia.
Dagokion botoiarekin, normalean egiten den moduan.
Begiratu corpuseko analisiko hiztegia.
Horretarako sortutako analisiaren gainean ezarri kurtsorea eta saguaren “beste” botoiarekin klik eginda aukeratu Exporter le dictionnaire

Horrek analisiaren karpetan bertan sortuko du dictionary.csv izeneko fitxategia.
Fitxategi horixe egokitu behar da orain analisia egokiro berregiteko.
Aztertu hutsak (horretako askok izango dute nr etiketa, baina hobe da dena aztertzea).
Horretarako lerrorik lerro begiratu eta formak.
Fitxategia zabaldu behar da LibreOffice erabilita eta gorde behar da dagoen formatuarekin.
Egokia eta praktikoa izan daiteke zutabeak erabiltzeko komenigarrien den eran aztertu eta egokitzeko.

Aurreko irudian ikus daiteke GIHak kontuan hartu direla lanean. Lau eratara daude aipatuta.

Goiko taulan ikusten dira analisiko hiztegiari egindako zenbait egokitzapen. Egokitzapenok balioko dute analisi zehatzagoa sortzen.
Analizatu corpuserako hiztegi berriaz
Analisi bera egin, baina orain bigarren puntuko dictionnaire atalean aukeratu behar da egokitutako dictionary.csv fitxategia.

Irudian ikuste da goragoko egokitzapenaren emaitza, GIH kontzeptua 15 bider aurkitua.

Arazoak:

Ez du lokuziorik detektatzen: hitz egin, besteak beste…
Neurri baxuagoan, bakoitzean aukeratu beharra

Beste bide bat, integratzea:

Bigarren bidea zailxeagoa da. Bide honek eskatzen ditu lexique (hiztegia) eta expressions (lokuzioak-eta) fitxategiak, Iramuteq-ek horiekin lan egiteko.

Horretarako Iramuteqek bilatzen duen tokian egon behar dute fitxategiok, ondo egituratuta eta izendatuta egoteaz gain.

Jaitsi hiztegia eta expressions-eu.txt
Berrizendatu lexique-eu.txt eta gehitu karpeta egokian
Karpeta hori erabiltzailearen erro karpetaren barruan dago eta izena du .iramuteq-xxx, xxx horiek adierazten dute bertsioa. Orain Iramuteq 0.8alpha7 daukat instalatua; karpetaren izena, beraz, honakoa da: .home/juan/.iramuteq-0.8.a7/dictionnaires/. Antzeko izena izango du Apple-ko edo Microsoft-eko sistemetan ere.

Berridatzi scriptetako datuak.
Iramuteq-eko interfaceak euskara aukeratzen uzteko, jakinarazi behar zaio Iramuteqi aukera hori.
Horretarako, dialog.py et chemins.py fitxategiak egokitu behar dira.

Konfigurazio fitxategien egokitzapena

chemins.py fitxategiko 178. lerroaren inguruko atala honela geratu behar da, Iramuteq-ek euskara non aurkituko duen jakiteko

def ConstructDicoPath(AppliPath):
    BasePath = os.path.join(AppliPath, 'dictionnaires')
    DictPath = {
        'french': os.path.join(BasePath, 'lexique_fr.txt'),
        'french_exp': os.path.join(BasePath, 'expression_fr.txt'),
        'english': os.path.join(BasePath, 'lexique_en.txt'),
        'english_exp': os.path.join(BasePath, 'expression_en.txt'),
        'german' :  os.path.join(BasePath, 'lexique_de.txt'),
        'german_exp' : os.path.join(BasePath, 'expression_de.txt'),
        'italian' : os.path.join(BasePath, 'lexique_it.txt'),
        'italian_exp' : os.path.join(BasePath, 'expression_it.txt'),
        'swedish' :  os.path.join(BasePath, 'lexique_sw.txt'),
        'swedish_exp' :  os.path.join(BasePath, 'expression_sw.txt'),
        'portuguese' : os.path.join(BasePath, 'lexique_pt.txt'),
        'portuguese_exp': os.path.join(BasePath, 'expression_pt.txt'),
        'greek' : os.path.join(BasePath, 'lexique_gr.txt'),
        'greek_exp' : os.path.join(BasePath, 'expression_gr.txt'),
        'spanish' :  os.path.join(BasePath, 'lexique_sp.txt'),
        'spanish_exp' :  os.path.join(BasePath, 'expression_sp.txt'),
        'galician' : os.path.join(BasePath, 'lexique_gl.txt'),
        'galician_exp' : os.path.join(BasePath, 'expression_gl.txt'),
        'dutch' : os.path.join(BasePath, 'lexique_nl.txt'),
        'norwegian' :  os.path.join(BasePath, 'lexique_nn.txt'),
        'basque' :  os.path.join(BasePath, 'lexique_eu.txt'),
        'basque_exp' : os.path.join(BasePath, 'expression_eu.txt'),
    }
    return DictPath

Eta dialog.py fitxategiko 131 eta 132. lerroak honela utzi behar dira, euskara (basque eredu honetan) aukeragarri lagatzeko

langues_n = ['french', 'english', 'german', 'italian', 'swedish', 'portuguese', 'spanish', 'greek', 'galician', 'dutch', 'norwegian', 'basque', 'autre...']
langues = ['french', 'english', 'german', 'italian', 'swedish', 'portuguese', 'spanish', 'greek', 'galician', 'dutch', 'norwegian', 'basque', 'other']

Honela behin eginda, normaltasunez analizatu ahalko da euskarazko hiztegiarekin.

Analizatu horrekin.
Hurrengo pausuak berberak dira, baina lokuzioak, aditz konposatuak eta abar kudeatzeko aukera ematen du

Arazoa

Askoz konplexuagoa da, zaila programako konfigurazio fitxategietan lehenengoz sartu behar duenarentzat

Fitxategien egitura eta analisia

Fitxategiok erabiltzen dira hizkuntzaren berezko forma ugaritasuna kudeatzeko; ALCESTE zein bestelako analisietan egiten da hori. Horretarako, Iramuteq-ek erabiltzen dituen expressions.txt eta lexique.txt fitxategiek logika bati segitzen diote.

Analisiaren lehenengo zatia egiten du lokuzioak-eta aurkituta, hor zutabe bitan daude lokuzioen formak eta horien forma bakarreko ordaina.

`expressions-eu.txt` fitxategiaren lerro posible batzuk.
Formak	Ordainak
europar batasuna	europar_batasuna
hitz egin	hitz_egin
hitz egiten	hitz_egiten
esate baterako	esate_baterako

Aurreko fitxategi hori erabiltzen da “formak” zutabekoak “ordainak” zutabekoekin ordezkatzeko analisia bera egin aurretik.

Beste fitxategi bat erabiltzen da analisia bera egiteko, eta fitxategi hau derrigorrezkoa da testuen forma ugaritasuna adierazpideetara bideratzeko. Horretan hiru lerro egon behar dira, tabulazioz banatuta.

`lexique-eu.txt` fitxategiaren lerro posible batzuk
Forma	Lema	upos
hitz	hitz	nom
hitza	hitz	nom
hitz_egin	hitz_egin	ver
hitz_egiteko	hitz_egin	ver
hitz_egitera	hitz_egin	ver
hitz_egiterakoan	hitz_egin	ver
europar_batasun	europar_batasun	nom
europar_batasunean	europar_batasun	nom
europar_batasuneko	europar_batasun	nom

Gaur gaurkoz, lexique-eu.txt garbitzen ari naiz, upos zutabeko balio guztiak bat etorri daitezen Iramuteqekin, eta lexique-fr.txt-n ikusi dudan aukera bat hartu dut neuk ere; dena letra xehera pasatu. Horri txindurri lan bat ere gehitu behar zaio: txarto sortutako hainbat lema egokitzen, erabileran oinarrituta. Horretarako OpenRefine eta R eta RStudio ari naiz erabiltzen begizta batean.

Lemak udpipek txarto esleituta. Era horretakoak zuzentzen ari naiz.

Horrekin batera, corpus bat sortzen ari naiz bigrametan eta trigrametan oinarrituta expressions-eu.txt fitxategia egokitzeko, horretarako Quanteda (Benoit et al., 2018) ari naiz erabiltzen. Inork interesa izatera.

Erabakitzeko

Eta zer egin behar da sinonimoekin hiztegian? abade lema utzi eta apaiz beste lema bat izango da? Zer desberdintzeko?

Erreferentziak-edo

Abasolo, J., & Eguskiza, N. (2022). Euskarazko lexikoa Iramuteqerako. Open Science Framework. https://doi.org/10.17605/OSF.IO/T8JEV

Abasolo, J., & Eguskiza, N. (2024). ALCESTE euskaraz: Egokitzapena eta ebaluazioa. Uztaro. Giza eta gizarte-zientzien aldizkaria, 130, Article 130. https://doi.org/10.26876/uztaro.130.2024.5073

Benoit, K., Watanabe, K., Wang, H., Nulty, P., Obeng, A., Müller, S., & Matsuo, A. (2018). quanteda: An R package for the quantitative analysis of textual data. Journal of Open Source Software, 3(30), 774. https://doi.org/10.21105/joss.00774

De Wilde, M., & Verborgh, R. (2013). Using OpenRefine: The essential OpenRefine guide that takes you from data analysis and error fixing to linking your dataset to the Web (1st ed). Packt Publishing.

Miller, M., & Vielfaure, N. (2022). OpenRefine: An Approachable Open Tool to Clean Research Data. Bulletin - Association of Canadian Map Libraries and Archives (ACMLA), 170, Article 170. https://doi.org/10.15353/acmla.n170.4873