5 min read

Dialektometria 3D

Jo eta ke. Eta Su ere bai. Hala ekin diot MCA nola ezarri aztertzeari.

Zeri buruz ari naizen, baina, aurretik azaldu behar:

Dimentsio Anitzeko Analisian (Multi Dimentional Analysis) erabiltzen diren tekniketan azterketa egiteko agindu sub/objektiboa izan dut. Tesiaren lanketan, lorpen handirik izan ez banuen ere, horri ekiten hasi nintzen. Horregatik distantzietan oinarritutako clusterrak eta mapak elkarrekin ikusi nituenean barrua ixiotu zitzaidan.

Letretako baten intuiziotik abiatuta azaldu nahirik

  • Principal Component Analysis1 (PCA): Aldagai kuantitatibo askoren irudia sortzen du ahalik eta dimentsio gutxien erabilita; aldagai berri horiek originalak baino gutxiago dira. Baina soilik dira sortutako irudi horretakoak. Hau da, ez dira mundu honetakoak, baizik eta Matematicland batekoak.
    Metodo hori ez denez erabiliko hemen, ez dut gehiago sakondu behar. Aurrekoetxea et al. (2016) lanean PCA erabiltzen da herri hizkeren eta batuaren bitarteko distantziaren neurketaren analisirako.
  • Multiple Correspondence Analysis2 (MCA): Aldagai kualitatiboetarako garapena da, aurrekoaren filosofian oinarritua. Matematikan oinarritua, jakina.
    Eman dezagun errealitatearen dena delako irudia deskribatzeko erabiltzen ditugun datuek n1 aldagai erabiltzen dutela; MCAk n2 dimentsio bitartez irudikatzen du, n1 > n2 araua betetzen dela. Hau da, aldagai gutxiago erabiliaz.
  • Multi Dimentional Scaling3 (MDS): Beste irudikatze mota bat da. Hau bigarren kalkulu bat eginaz sortzen da. Aurretik intereseko elementuen arteko distantziak kalkulatu behar dira, dena delako irizpide eta tekniken bitartez. Distantzi matrizea hartu eta horren proiekzioa egiten da agintzen zaion dimentsio kopuruan.
    Obejktu biren arteko distantzia lerro zuzen batez irudikatu ahal da. Hiruren artekoa plano batez. Lauren artekoa espazioa erabiliaz. Bostetik gorako elementuen arteko distantzia guk interpretatzeko hiru edo bi dimentsiotan irudikatu behar dugu, nahiz eta gehiago behar liratekeen datuak hobeto irudikatzeko. MDSk horixe egiten du, dimentsioak eskalatu gure ulertze neurrira; planisferio batek gure mundu biribila irudikatzen duen antzera.

Lan honetan eta hurrengoan Bourciezen datuei (Aurrekoetxea, Videgain, and Iglesias 2004, 2005) zukua aterako diet, nahikoa zukututa daudelakoan.

Multiple Correspondence Analysis & (eskual) Bourciez

Bourciezen datuak Diatech-en (Aurrekoetxea et al. 2013) egindako proiektutik esportatu eta MCAren premien arabera egokitu behar dira. Data base horren lagintxu bat ikusten da segidan. Lerroetan herriak eta zutabeetan aldagaiak, bistan denez.

Table 1: Datuen hasiera eta amaiera, lehenengo hamar aldagaiak
-e + a -o + a ’Bigarren graduko leku aditzondoa ‘Gainean’ postposizioa “Anitz” zenbatzaile zehaztugabea “arrautza” hitzaren bilakaera “Aski” adberbioa “Bat ere” zenbatzaile zehaztugabea “Car” antolatzailea “Inor” izenordain zehaztugabea
Ahatsa-Altzieta-Bazkazane -ia -uak hara -aren gainean anhitz arroltze aski gehiago NA nehor
Ahetze -ea -oak huna -aren gainean (h)anitz arroltze aski bat ere ezen ba- nihor
Aiherra -ia -oak huna -aren gainean (h)anitz arroltze aski bestelakoak zeren (eta) bait- nihor
Ainharbe -ia -uak horra -an gainean hanitx arraultze aski bestelakoak ezi(k) ba- ihur
Ainhize-Monjolose -ia -oak horra -Ø gainean (h)anitz arraultze aski bat ere zeren (eta) bait- nehor
Ainhoa -ea -oak huna -an gainean (h)anitz arroltze aski bat zeren (eta) bait- nihor
Ürrüstoi-Larrabile -ia -uk hau -an gainean hanitx arrautze aski bat ere ezi(k) ba- ihur
Uztaritze -ea -oak horra -Ø gainean (h)anitz arroltze aski bestelakoak zeren (eta) bait- nehor
Zalgize-Doneztebe -ia -uak huna -aren gainean hanitx arrautze aski bat ere bait- ihur
Zaro -ia -uak horra -aren gainean NA arroltze aski bestelakoak ezi(k) ba- nehor
Ziburu -ea -oak horra mahaian (h)anitz arroltze aski bat ere zeren -n nihor
Zuraide -ia -uak huna -aren gainean (h)anitz arrotze aski bat ere zeren -lakotz nihor

Aztertu diren aldagaiak 248 dira, berez. Herriak, berriz 137.

Goiko taulan ikusten da zenbait aldagaitako aldakiak errepikatzen direla herri batzuetan. Aldagaietako aldakiak eta herrien arteko korrespondentziak zein diren analizatzeko R lengoaian idatzitako FactoMineR (Husson et al. 2018) erabili da.

Hodei gorriek aldagaiak irudikatzen dituzte eta urdinek, antzeman daitekeen moduan, herriak; beti ere lehenengo bi dimentsioetan.

Dimentsioek zenbat azaltzen duten hurrengo bi grafikoeta ikusten da. Lehenengoak MCAk sortutako lehenengo 10 aldagaiek bariazioaren ehuneko zenbat azaltzen duten erakusten dute. Bigarrenak dimentsio guztiak irudikatzen ditu informazio bi nabarmenduta: Gehien azaltzen duten lehenengo hiruak, giza neurrian irudika daitezkeenak, eta zenbat dimentsio behar diren datu horien bariazioaren %50 azaltzeko.

Segidan aurkezten diren grafikoek dimentsio bitan aurkezten dute datuen banaketa, herrien informazioan ardaztuta. Koloreek dimentsioen gaineko informazioa ematen dute.

Eta hor zer ikusten dugu?

Hasteko, azken mapa horretan eta 3D grafikoan oso datu koherenteak. Begiratzeko tokia egokituz gero, MCA teknika erabilita, lehenengo hiru dimentsioek sortzen duten irudian antzeman daiteke mapako informazio geografikoko egitura bera ere, salbuespenak salbuespen:

Lehenengo begirada batean argi ikusten da Zuberoak eremu trinkoagoa osatzen duela. Ezaugarri batzuen ardatza ere somatzen da Gipuzkoa-Lapurdi mugatik Nafarroa Beherea-Zuberoa-Bearne mugara. Mapan edo 3D irudian horiek horitik gorri-more ilunera bidean antzematen dira.


Hau ez da amaitu

Hurrengo baterako lagatzen ditut MCAren azalpen zehatzagoak eta salbuespenak salbuespen hori nabarmentzea. Salbuespenek ere badute-eta zerbait kontatzeko, teknikaren analisia gardenago utzi behar luketenak.

Erreferentziak

Aurrekoetxea, G., K. Fernandez-Aguirre, J. Rubio, B. Ruiz, and J. Sanchez. 2013. “’DiaTech’: A New Tool for Dialectology.” Literary and Linguistic Computing 28 (1): 23–30.

Aurrekoetxea, Gotzon, Karmele Fernandez-Aguirre, Juan Ignacio Modroño, and Jesus Rubio. 2016. “Principal Components and Clustering on Lexical Distances from Standard Basque to Local Varieties.” Journal of Research Design and Statistics in Linguistics and Communication Science 3 (1): 5–22.

Aurrekoetxea, Gotzon, Xarles Videgain, and Aitor Iglesias. 2004. “"Bourciez" bildumako euskal atlasa (BBEA): 1. Lexikoa.” Anuario Del Seminario de Filologı'a Vasca Julio de Urquijo: International Journal of Basque Linguistics and Philology.

———. 2005. “"Bourciez" bildumako euskal atlasa (BBEA): 2. Gramatika.” Anuario Del Seminario de Filologı'a Vasca "Julio de Urquijo" 39 (1): 1–277.

Husson, Francois, Julie Josse, Sebastien Le, and Jeremy Mazet. 2018. “FactoMineR: Multivariate Exploratory Data Analysis and Data Mining.”


  1. Euskaraz Osagai Nagusien Analisia edo Konposatu Nagusien Analisia eman ohi da; kontzeptu bakarrarentzat forma bakartzat ingelesezkoa eman behar dut euskarazko bertsioren bat orokortu arte.

  2. Euskeraz Korrespondentzia Anizkoitzen Analisia ematen duenik aurkitu dut

  3. Euskeraz … ?