Aurreko sarreraren batzuetan erakutsi nituen Iramuteq bera, analisiren bat, eta euskarazko hiztegiarekin beste nalisiren bat. Gaurkoan ohar tekniko batzuk ekarri ditut blogera, besteren batek Iramuteq euskaraz erabiltzeko ahaleginean aurrera egin nahi badu, aurkitu eta idatzi ditudan kontu batzuk ordenatuta izateko.
Oinarrian: Iramuteq bera erabiltzeko euskarazko lexikoa / hiztegia:
Abasolo, J., & Eguskiza, N. (2022/). Euskarazko lexikoa Iramuteqerako. Open Science Framework. https://doi.org/10.17605/OSF.IO/T8JEV
Mezu honetan azaltzen dira Iramuteqeri beste hiztegi bat gehitzeko nik ezagutzen ditudan prozesu bi eta amaieran hiztegi/lexiko fitxategi horiek zelan egituratu behar diren, eskua horretara inork sartu nahi badio (ni ari naiz).
Gutxieneko prozesua:
Deskargatu hiztegi/lexikoaren azken bertsioa :
lexikoa-eu-V1_0_2-2022-03-26.txt. Horretarako esteka horretan lexikoa bera > files ibilbidea egin eta download aukerari eman.

Analizatzeko konfigurazioa eman Iramuteq abiarazita.
Normalean egiten direnez gain aukeratu behar da hizkuntza eta hizkuntzako hiztegia.

Gaur gaurkoz Iramuteqek ez du ematen aukeran euskara, horregatik gure aukerak izango dira (1) Langue: Autre, (2) Dictinnaire: Autre eta (3) hiztegia bera aukeratu.Analizatu
Normalean egiten den moduan.Aztertu estatistikak eta sortu hiztegia.
Dagokion botoiarekin, normalean egiten den moduan.
Begiratu corpuseko analisiko hiztegia.
Horretarako sortutako analisiaren gainean ezarri kurtsorea eta saguaren “beste” botoiarekin klik eginda aukeratu Exporter le dictionnaire

Horrek analisiaren karpetan bertan sortuko dudictionary.csvizeneko fitxategia.
Fitxategi horixe egokitu behar da orain analisia egokiro berregiteko.Aztertu hutsak (horretako askok izango dute
nretiketa, baina hobe da dena aztertzea).
Horretarako lerrorik lerro begiratu eta formak.
Fitxategia zabaldu behar da LibreOffice erabilita eta gorde behar da dagoen formatuarekin.
Egokia eta praktikoa izan daiteke zutabeak erabiltzeko komenigarrien den eran aztertu eta egokitzeko.

Aurreko irudian ikus daiteke GIHak kontuan hartu direla lanean. Lau eratara daude aipatuta.

Goiko taulan ikusten dira analisiko hiztegiari egindako zenbait egokitzapen. Egokitzapenok balioko dute analisi zehatzagoa sortzen.Analizatu corpuserako hiztegi berriaz
Analisi bera egin, baina orain bigarren puntuko dictionnaire atalean aukeratu behar da egokitutakodictionary.csvfitxategia.

Irudian ikuste da goragoko egokitzapenaren emaitza, GIH kontzeptua 15 bider aurkitua.
Arazoak:
Ez du lokuziorik detektatzen: hitz egin, besteak beste…
Neurri baxuagoan, bakoitzean aukeratu beharra
Beste bide bat, integratzea:
Bigarren bidea zailxeagoa da. Bide honek eskatzen ditu lexique (hiztegia) eta expressions (lokuzioak-eta) fitxategiak, Iramuteq-ek horiekin lan egiteko.
Horretarako Iramuteqek bilatzen duen tokian egon behar dute fitxategiok, ondo egituratuta eta izendatuta egoteaz gain.
Jaitsi hiztegia eta
expressions-eu.txtBerrizendatu
lexique-eu.txteta gehitu karpeta egokian
Karpeta hori erabiltzailearen erro karpetaren barruan dago eta izena du.iramuteq-xxx,xxxhoriek adierazten dute bertsioa. Orain Iramuteq 0.8alpha7 daukat instalatua; karpetaren izena, beraz, honakoa da:.home/juan/.iramuteq-0.8.a7/dictionnaires/. Antzeko izena izango du Apple-ko edo Microsoft-eko sistemetan ere.Berridatzi scriptetako datuak.
Iramuteq-eko interfaceak euskara aukeratzen uzteko, jakinarazi behar zaio Iramuteqi aukera hori.
Horretarako,dialog.pyetchemins.pyfitxategiak egokitu behar dira.Konfigurazio fitxategien egokitzapenachemins.pyfitxategiko 178. lerroaren inguruko atala honela geratu behar da, Iramuteq-ek euskara non aurkituko duen jakitekodef ConstructDicoPath(AppliPath): BasePath = os.path.join(AppliPath, 'dictionnaires') DictPath = { 'french': os.path.join(BasePath, 'lexique_fr.txt'), 'french_exp': os.path.join(BasePath, 'expression_fr.txt'), 'english': os.path.join(BasePath, 'lexique_en.txt'), 'english_exp': os.path.join(BasePath, 'expression_en.txt'), 'german' : os.path.join(BasePath, 'lexique_de.txt'), 'german_exp' : os.path.join(BasePath, 'expression_de.txt'), 'italian' : os.path.join(BasePath, 'lexique_it.txt'), 'italian_exp' : os.path.join(BasePath, 'expression_it.txt'), 'swedish' : os.path.join(BasePath, 'lexique_sw.txt'), 'swedish_exp' : os.path.join(BasePath, 'expression_sw.txt'), 'portuguese' : os.path.join(BasePath, 'lexique_pt.txt'), 'portuguese_exp': os.path.join(BasePath, 'expression_pt.txt'), 'greek' : os.path.join(BasePath, 'lexique_gr.txt'), 'greek_exp' : os.path.join(BasePath, 'expression_gr.txt'), 'spanish' : os.path.join(BasePath, 'lexique_sp.txt'), 'spanish_exp' : os.path.join(BasePath, 'expression_sp.txt'), 'galician' : os.path.join(BasePath, 'lexique_gl.txt'), 'galician_exp' : os.path.join(BasePath, 'expression_gl.txt'), 'dutch' : os.path.join(BasePath, 'lexique_nl.txt'), 'norwegian' : os.path.join(BasePath, 'lexique_nn.txt'), 'basque' : os.path.join(BasePath, 'lexique_eu.txt'), 'basque_exp' : os.path.join(BasePath, 'expression_eu.txt'), } return DictPathEta
dialog.pyfitxategiko 131 eta 132. lerroak honela utzi behar dira, euskara (basque eredu honetan) aukeragarri lagatzekolangues_n = ['french', 'english', 'german', 'italian', 'swedish', 'portuguese', 'spanish', 'greek', 'galician', 'dutch', 'norwegian', 'basque', 'autre...'] langues = ['french', 'english', 'german', 'italian', 'swedish', 'portuguese', 'spanish', 'greek', 'galician', 'dutch', 'norwegian', 'basque', 'other']Honela behin eginda, normaltasunez analizatu ahalko da euskarazko hiztegiarekin.

Analizatu horrekin.
Hurrengo pausuak berberak dira, baina lokuzioak, aditz konposatuak eta abar kudeatzeko aukera ematen du
Arazoa
- Askoz konplexuagoa da, zaila programako konfigurazio fitxategietan lehenengoz sartu behar duenarentzat
Fitxategien egitura eta analisia
Fitxategiok erabiltzen dira hizkuntzaren berezko forma ugaritasuna kudeatzeko; ALCESTE zein bestelako analisietan egiten da hori. Horretarako, Iramuteq-ek erabiltzen dituen expressions.txt eta lexique.txt fitxategiek logika bati segitzen diote.
Analisiaren lehenengo zatia egiten du lokuzioak-eta aurkituta, hor zutabe bitan daude lokuzioen formak eta horien forma bakarreko ordaina.
| Formak | Ordainak |
|---|---|
| europar batasuna | europar_batasuna |
| hitz egin | hitz_egin |
| hitz egiten | hitz_egiten |
| esate baterako | esate_baterako |
Aurreko fitxategi hori erabiltzen da “formak” zutabekoak “ordainak” zutabekoekin ordezkatzeko analisia bera egin aurretik.
Beste fitxategi bat erabiltzen da analisia bera egiteko, eta fitxategi hau derrigorrezkoa da testuen forma ugaritasuna adierazpideetara bideratzeko. Horretan hiru lerro egon behar dira, tabulazioz banatuta.
| Forma | Lema | upos |
|---|---|---|
| hitz | hitz | nom |
| hitza | hitz | nom |
| hitz_egin | hitz_egin | ver |
| hitz_egiteko | hitz_egin | ver |
| hitz_egitera | hitz_egin | ver |
| hitz_egiterakoan | hitz_egin | ver |
| europar_batasun | europar_batasun | nom |
| europar_batasunean | europar_batasun | nom |
| europar_batasuneko | europar_batasun | nom |
Gaur gaurkoz, lexique-eu.txt garbitzen ari naiz, upos zutabeko balio guztiak bat etorri daitezen Iramuteqekin, eta lexique-fr.txt-n ikusi dudan aukera bat hartu dut neuk ere; dena letra xehera pasatu. Horri txindurri lan bat ere gehitu behar zaio: txarto sortutako hainbat lema egokitzen, erabileran oinarrituta. Horretarako OpenRefine eta R eta RStudio ari naiz erabiltzen begizta batean.

Horrekin batera, corpus bat sortzen ari naiz bigrametan eta trigrametan oinarrituta expressions-eu.txt fitxategia egokitzeko, horretarako Quanteda (Benoit et al., 2018) ari naiz erabiltzen. Inork interesa izatera.
Erabakitzeko
- Eta zer egin behar da sinonimoekin hiztegian? abade lema utzi eta apaiz beste lema bat izango da? Zer desberdintzeko?
Erreferentziak-edo
Abasolo, J., & Eguskiza, N. (2022). Euskarazko lexikoa Iramuteqerako. Open Science Framework. https://doi.org/10.17605/OSF.IO/T8JEV
Abasolo, J., & Eguskiza, N. (2024). ALCESTE euskaraz: Egokitzapena eta ebaluazioa. Uztaro. Giza eta gizarte-zientzien aldizkaria, 130, Article 130. https://doi.org/10.26876/uztaro.130.2024.5073
Benoit, K., Watanabe, K., Wang, H., Nulty, P., Obeng, A., Müller, S., & Matsuo, A. (2018). quanteda: An R package for the quantitative analysis of textual data. Journal of Open Source Software, 3(30), 774. https://doi.org/10.21105/joss.00774
De Wilde, M., & Verborgh, R. (2013). Using OpenRefine: The essential OpenRefine guide that takes you from data analysis and error fixing to linking your dataset to the Web (1st ed). Packt Publishing.
Miller, M., & Vielfaure, N. (2022). OpenRefine: An Approachable Open Tool to Clean Research Data. Bulletin - Association of Canadian Map Libraries and Archives (ACMLA), 170, Article 170. https://doi.org/10.15353/acmla.n170.4873