Iramuteq euskaraz erabilteko ohar batzuk

testuen azterketaz
proiektua
Egilea

Juan Abasolo

Argitaratua

2025-06-25

Aurreko sarreraren batzuetan erakutsi nituen Iramuteq bera, analisiren bat, eta euskarazko hiztegiarekin beste nalisiren bat. Gaurkoan ohar tekniko batzuk ekarri ditut blogera, besteren batek Iramuteq euskaraz erabiltzeko ahaleginean aurrera egin nahi badu, aurkitu eta idatzi ditudan kontu batzuk ordenatuta izateko.

Oinarrian: Iramuteq bera erabiltzeko euskarazko lexikoa / hiztegia:

Abasolo, J., & Eguskiza, N. (2022/). Euskarazko lexikoa Iramuteqerako. Open Science Framework. https://doi.org/10.17605/OSF.IO/T8JEV

Mezu honetan azaltzen dira Iramuteqeri beste hiztegi bat gehitzeko nik ezagutzen ditudan prozesu bi eta amaieran hiztegi/lexiko fitxategi horiek zelan egituratu behar diren, eskua horretara inork sartu nahi badio (ni ari naiz).

Gutxieneko prozesua:

  1. Deskargatu hiztegi/lexikoaren azken bertsioa : lexikoa-eu-V1_0_2-2022-03-26.txt. Horretarako esteka horretan lexikoa bera > files ibilbidea egin eta download aukerari eman.

  2. Analizatzeko konfigurazioa eman Iramuteq abiarazita.
    Normalean egiten direnez gain aukeratu behar da hizkuntza eta hizkuntzako hiztegia.

    Gaur gaurkoz Iramuteqek ez du ematen aukeran euskara, horregatik gure aukerak izango dira (1) Langue: Autre, (2) Dictinnaire: Autre eta (3) hiztegia bera aukeratu.

  3. Analizatu
    Normalean egiten den moduan.

  4. Aztertu estatistikak eta sortu hiztegia.
    Dagokion botoiarekin, normalean egiten den moduan.

  5. Begiratu corpuseko analisiko hiztegia.
    Horretarako sortutako analisiaren gainean ezarri kurtsorea eta saguaren “beste” botoiarekin klik eginda aukeratu Exporter le dictionnaire

    Horrek analisiaren karpetan bertan sortuko du dictionary.csv izeneko fitxategia.
    Fitxategi horixe egokitu behar da orain analisia egokiro berregiteko.

  6. Aztertu hutsak (horretako askok izango dute nr etiketa, baina hobe da dena aztertzea).
    Horretarako lerrorik lerro begiratu eta formak.
    Fitxategia zabaldu behar da LibreOffice erabilita eta gorde behar da dagoen formatuarekin.
    Egokia eta praktikoa izan daiteke zutabeak erabiltzeko komenigarrien den eran aztertu eta egokitzeko.
    1. lerroan formak, 2.ean, lemak; hirugarrenean etiketa gramatikala eta laugarrenean forma horren agerrera kopurua
    Aurreko irudian ikus daiteke GIHak kontuan hartu direla lanean. Lau eratara daude aipatuta.
    Etiketak egokituta: lemak eta gramatika-etiketak
    Goiko taulan ikusten dira analisiko hiztegiari egindako zenbait egokitzapen. Egokitzapenok balioko dute analisi zehatzagoa sortzen.

  7. Analizatu corpuserako hiztegi berriaz
    Analisi bera egin, baina orain bigarren puntuko dictionnaire atalean aukeratu behar da egokitutako dictionary.csv fitxategia.
    Zuzenketak eginda, gih lemak hartzen dituen lau forma
    Irudian ikuste da goragoko egokitzapenaren emaitza, GIH kontzeptua 15 bider aurkitua.

Arazoak:

  • Ez du lokuziorik detektatzen: hitz egin, besteak beste

  • Neurri baxuagoan, bakoitzean aukeratu beharra

Beste bide bat, integratzea:

Bigarren bidea zailxeagoa da. Bide honek eskatzen ditu lexique (hiztegia) eta expressions (lokuzioak-eta) fitxategiak, Iramuteq-ek horiekin lan egiteko.

Horretarako Iramuteqek bilatzen duen tokian egon behar dute fitxategiok, ondo egituratuta eta izendatuta egoteaz gain.

  1. Jaitsi hiztegia eta expressions-eu.txt

  2. Berrizendatu lexique-eu.txt eta gehitu karpeta egokian
    Karpeta hori erabiltzailearen erro karpetaren barruan dago eta izena du .iramuteq-xxx, xxx horiek adierazten dute bertsioa. Orain Iramuteq 0.8alpha7 daukat instalatua; karpetaren izena, beraz, honakoa da: .home/juan/.iramuteq-0.8.a7/dictionnaires/. Antzeko izena izango du Apple-ko edo Microsoft-eko sistemetan ere.

  3. Berridatzi scriptetako datuak.
    Iramuteq-eko interfaceak euskara aukeratzen uzteko, jakinarazi behar zaio Iramuteqi aukera hori.
    Horretarako, dialog.py et chemins.py fitxategiak egokitu behar dira.

    chemins.py fitxategiko 178. lerroaren inguruko atala honela geratu behar da, Iramuteq-ek euskara non aurkituko duen jakiteko

    def ConstructDicoPath(AppliPath):
        BasePath = os.path.join(AppliPath, 'dictionnaires')
        DictPath = {
            'french': os.path.join(BasePath, 'lexique_fr.txt'),
            'french_exp': os.path.join(BasePath, 'expression_fr.txt'),
            'english': os.path.join(BasePath, 'lexique_en.txt'),
            'english_exp': os.path.join(BasePath, 'expression_en.txt'),
            'german' :  os.path.join(BasePath, 'lexique_de.txt'),
            'german_exp' : os.path.join(BasePath, 'expression_de.txt'),
            'italian' : os.path.join(BasePath, 'lexique_it.txt'),
            'italian_exp' : os.path.join(BasePath, 'expression_it.txt'),
            'swedish' :  os.path.join(BasePath, 'lexique_sw.txt'),
            'swedish_exp' :  os.path.join(BasePath, 'expression_sw.txt'),
            'portuguese' : os.path.join(BasePath, 'lexique_pt.txt'),
            'portuguese_exp': os.path.join(BasePath, 'expression_pt.txt'),
            'greek' : os.path.join(BasePath, 'lexique_gr.txt'),
            'greek_exp' : os.path.join(BasePath, 'expression_gr.txt'),
            'spanish' :  os.path.join(BasePath, 'lexique_sp.txt'),
            'spanish_exp' :  os.path.join(BasePath, 'expression_sp.txt'),
            'galician' : os.path.join(BasePath, 'lexique_gl.txt'),
            'galician_exp' : os.path.join(BasePath, 'expression_gl.txt'),
            'dutch' : os.path.join(BasePath, 'lexique_nl.txt'),
            'norwegian' :  os.path.join(BasePath, 'lexique_nn.txt'),
            'basque' :  os.path.join(BasePath, 'lexique_eu.txt'),
            'basque_exp' : os.path.join(BasePath, 'expression_eu.txt'),
        }
        return DictPath

    Eta dialog.py fitxategiko 131 eta 132. lerroak honela utzi behar dira, euskara (basque eredu honetan) aukeragarri lagatzeko

    langues_n = ['french', 'english', 'german', 'italian', 'swedish', 'portuguese', 'spanish', 'greek', 'galician', 'dutch', 'norwegian', 'basque', 'autre...']
    langues = ['french', 'english', 'german', 'italian', 'swedish', 'portuguese', 'spanish', 'greek', 'galician', 'dutch', 'norwegian', 'basque', 'other']

    Honela behin eginda, normaltasunez analizatu ahalko da euskarazko hiztegiarekin.

  4. Analizatu horrekin.

  5. Hurrengo pausuak berberak dira, baina lokuzioak, aditz konposatuak eta abar kudeatzeko aukera ematen du

Arazoa

  • Askoz konplexuagoa da, zaila programako konfigurazio fitxategietan lehenengoz sartu behar duenarentzat

Fitxategien egitura eta analisia

Fitxategiok erabiltzen dira hizkuntzaren berezko forma ugaritasuna kudeatzeko; ALCESTE zein bestelako analisietan egiten da hori. Horretarako, Iramuteq-ek erabiltzen dituen expressions.txt eta lexique.txt fitxategiek logika bati segitzen diote.

Analisiaren lehenengo zatia egiten du lokuzioak-eta aurkituta, hor zutabe bitan daude lokuzioen formak eta horien forma bakarreko ordaina.

expressions-eu.txt fitxategiaren lerro posible batzuk.
Formak Ordainak
europar batasuna europar_batasuna
hitz egin hitz_egin
hitz egiten hitz_egiten
esate baterako esate_baterako

Aurreko fitxategi hori erabiltzen da “formak” zutabekoak “ordainak” zutabekoekin ordezkatzeko analisia bera egin aurretik.

Beste fitxategi bat erabiltzen da analisia bera egiteko, eta fitxategi hau derrigorrezkoa da testuen forma ugaritasuna adierazpideetara bideratzeko. Horretan hiru lerro egon behar dira, tabulazioz banatuta.

lexique-eu.txt fitxategiaren lerro posible batzuk
Forma Lema upos
hitz hitz nom
hitza hitz nom
hitz_egin hitz_egin ver
hitz_egiteko hitz_egin ver
hitz_egitera hitz_egin ver
hitz_egiterakoan hitz_egin ver
europar_batasun europar_batasun nom
europar_batasunean europar_batasun nom
europar_batasuneko europar_batasun nom

Gaur gaurkoz, lexique-eu.txt garbitzen ari naiz, upos zutabeko balio guztiak bat etorri daitezen Iramuteqekin, eta lexique-fr.txt-n ikusi dudan aukera bat hartu dut neuk ere; dena letra xehera pasatu. Horri txindurri lan bat ere gehitu behar zaio: txarto sortutako hainbat lema egokitzen, erabileran oinarrituta. Horretarako OpenRefine eta R eta RStudio ari naiz erabiltzen begizta batean.

Lemak udpipek txarto esleituta. Era horretakoak zuzentzen ari naiz.

Horrekin batera, corpus bat sortzen ari naiz bigrametan eta trigrametan oinarrituta expressions-eu.txt fitxategia egokitzeko, horretarako Quanteda (Benoit et al., 2018) ari naiz erabiltzen. Inork interesa izatera.

Erabakitzeko

  • Eta zer egin behar da sinonimoekin hiztegian? abade lema utzi eta apaiz beste lema bat izango da? Zer desberdintzeko?

Erreferentziak-edo

Abasolo, J., & Eguskiza, N. (2022). Euskarazko lexikoa Iramuteqerako. Open Science Framework. https://doi.org/10.17605/OSF.IO/T8JEV

Abasolo, J., & Eguskiza, N. (2024). ALCESTE euskaraz: Egokitzapena eta ebaluazioa. Uztaro. Giza eta gizarte-zientzien aldizkaria, 130, Article 130. https://doi.org/10.26876/uztaro.130.2024.5073

Benoit, K., Watanabe, K., Wang, H., Nulty, P., Obeng, A., Müller, S., & Matsuo, A. (2018). quanteda: An R package for the quantitative analysis of textual data. Journal of Open Source Software, 3(30), 774. https://doi.org/10.21105/joss.00774

De Wilde, M., & Verborgh, R. (2013). Using OpenRefine: The essential OpenRefine guide that takes you from data analysis and error fixing to linking your dataset to the Web (1st ed). Packt Publishing.

Miller, M., & Vielfaure, N. (2022). OpenRefine: An Approachable Open Tool to Clean Research Data. Bulletin - Association of Canadian Map Libraries and Archives (ACMLA), 170, Article 170. https://doi.org/10.15353/acmla.n170.4873