6 min read

MDS Vs MCA: 3D aurrez aurre. Eta aurre.

Sarrera hau Baionan nabilela idatzi behar dudan azkena da… momentuz.

Helburu bakarra du: nondik segitu nezakeen (daitekeen?) aztertzen erakustea.

Aurreko sarrera bietan hiru dimentsioko analisia erakutsi dut askotariko konkordantzia analisiaren bitartez (Multiple Correspondence Analysis, MCA). Lehenengoan aurkezpen laburtxua egin nuen eta bigarrenean horren azalpena hurratsik hurrats aztertzeko bidea erakusgai utzi nahirik.

Oraingo honetan, dialektometrian zabalpen handixeagoa duen dimentsio anitzeko eskalatzearekin (MDS) alderatzeko elementu batzuk erakutsi nahi ditut; segitu eta sakondu behar dela bistan dudala.

Datuak aurrekoetan erabilitako berberak dira, Bourciezek batu eta Aurrekoetxeak, Videgainek eta Iglesiasek sailkatu eta antolatutakoak (Aurrekoetxea, Videgain, and Iglesias 2004, 2005)

Dimentsio anitzeko azterketetan MDS (MultiDimensional Scaling) bariazioan erabiltzen dela badira urteak (Embleton 1993). MCA, ba, lar ez dut ikusi, egia esan.

MDS zer den, profanoentzat

Izenak dioen moduan, dimentsio asko eskalatzen ditu gutxiagotara. Baina zer izan daiteke dimentsio asko gutxiagotara eramatearen kontu hori. Ba, oinarri oinarrian distantzia matrize bat behar duela ez da kendu behar begibistatik.

Elementu bakarra adierazteko, konbentsioz, puntu batekin nahikoa dugu. Bi elementu badira adierazi nahi direnak, lerro bat sortuko dugu, toki bakarrean ez badaude; hiruk, lerro bakarrean ez badaude, plano bat irudikatuko dute. Eta plano horretan ez dagoen laugarren puntu bat irudikatzeko espazioa erabili behar dugu. Lau puntuk espazioa definitzen dute. Eta bostek?… seik?… zazpik?… Dimentsioak defini ditzakegu, baina ez dira zehatz irudikatzen errazak.

Uler dezakegu, akaso, puntu berriak irudikatzen baditugu, aurrekoe guztiekin bat ez datozenak, dimentsio berriak sortuko dituela. Ideia hori uler daiteken arren, 15. dimentsiotako irudirik gure buruak ezin du irudikatu (neurozientziari bidea horren esplikazionearentzat). Ideia abstraktu horiek zer forma hartuko luketen benetan da zaila hiru dimentsiotan baino ikusten ez dugunontzat.

Ba, MDSk hurrengo dimentsio horiek eskalatu eta irudikatzen ditu 2D edo 3D irudietan. Elementuen arteko distantziak irudikatzeko behar lituzkeen dimentsioak errepresentatzen ditu, irudi behartu batez.

Oinarrizko datuak

Oinarri-oinarrian lehengo datuen matrize hori dugu, herriak (137) eta aldagaiak (248). segidan beste lagintxu bat

Table 1: Bigarren 10 herriak eta bigarren 5 aldagaiak
“Anitz” zenbatzaile zehaztugabea “arrautza” hitzaren bilakaera “Aski” adberbioa “Bat ere” zenbatzaile zehaztugabea “Car” antolatzailea “Inor” izenordain zehaztugabea
Aloze-Ziboze-Onizegaine hanitx arrautze aski batee zeren (eta) bait- ihur
Altzai-Altzabeheti-Zunharreta hanitx arrautze aski bestelakoak eta ba- ihur
Altzürükü hanitx arrautze aski batee zeren (eta) bait- ihur
Amendüze-Unaso asko arroltze aski bestelakoak zeren (eta) bait- bihi bat
Amorotze-Zokotze anhitz arrotze aski bat ere ezen ba- nehor
Anhauze anhitz arrultze aski bat ere ezi(k) ba- nehor
Arberatze-Zilhekoa biziki arrotze aski bat ere ezi(k) ba- nihor
Arbona (h)anitz arroltze aski bestelakoak ezen ba- nihor
Arboti-Zohota biziki arrotze aski bat ere ezi(k) ba- nihor
Arhantsusi biziki arroltze aski bat ere zeren (eta) bait- nehor
Armendaritze anhitz arroltze aski bat ere zeren (eta) bait- nehor

Datuotan oinarrituta egiten dira hurrengo kalkulu guztiak, distantziak, proiekzioak, analisiak eta abar.

Datu matrizetik distantzia matrizera

Hasierako datuetan oinarrituta RIV distantzia kalkulatu eta herrien arteko distantzia linguistikoaren matrizea lortzen da; segidan lehenengo zazpi herriei dagokien tartea.

  Ahatsa-Altzieta-Bazkazane Ahetze Aiherra Ainharbe Ainhize-Monjolose Ainhoa Aintzila
Ahatsa-Altzieta-Bazkazane 0.00
Ahetze 45.97 0.00
Aiherra 40.73 33.06 0.00
Ainharbe 50.40 51.61 46.77 0.00
Ainhize-Monjolose 39.52 33.87 34.68 47.18 0.00
Ainhoa 43.55 25.81 31.45 50.40 33.87 0.00
Aintzila 35.89 36.29 37.10 46.37 29.44 35.48 0

Aurreko matrizeko herrien artean (Ahatsa-Altzieta-Bazkazane, Ahetze, Aiherra, Ainharbe, Ainhize-Monjolose, Ainhoa, Aintzila) zein distantzia linguistiko dagoen zenbakiz islatzen da; zenbat eta antzekotasun handiagoa herriko ezaugarri linguistikoen artean orduan eta zenbaki baxuagua, zenbat eta handiagoa izan, zenbaki handiagoa.

Herri horien arteko distantziak, 3D errepresentazioan, irudikatzen da segidan bi neurritan: 4, eta 25 herrietako laginak, lehenengoak ez du informaziorik koloreetan, bigarrenak, berriz, laugarren dimentsio baten informazioa koloreetan du islatua1.

Irudiotan distantziak adierazten dira, herrien artean zenbateko distantzia linguistikoa dagoen islatzen du. Irakurle kuxkuxeroak aztertu ahal ditu goiko matrizeko datuak nola adierazten diren irudiotan.

Argi ez da ikusten, aztertuta atzeman badaiteke ere, distantzia guztiak ez daudela berdin adierazita. Zergatik hori? Ba, MDS horixe delako, eskalatze prozesu bat, dimentsioak kendu eta gutxiagotan adierazteko laburpena. Laburpen ona, baina zaila koantifikatzen.

Bourciezen datuen MDSren 3D irudikapena

Bourciezen datuen arabera distantzi lingusitikoaren matrizea kalkultatuta, hiru dimentsiotako hurrengo irudia sortu daiteke2

… eta interaktiboki

Figure 1: MDS 3D interaktiboa

Mapan 3D

Aurreko errepresentazioko dimentsioak koloreetan ere egin dira, horietxek, koloreen araberako irudikapenak maparatu daitezke, dagozkien herrien arabera koloreak emanaz; horixe egiten da hurrengo mapan.

Goiko mapa horrek antz nabarmen handia du blog honetako aurreko postekoarekin, konkordantzia anizkoitzen analisiarenarekin (MCA). Dakardan irudi horixe hona, alderatzeko:

Bourciezen datuen konkordantzia analisi anizkoitza: MCA

Hurrengo irudi biak aurreko postean aztertutakoak dira, MDS proiekzioarekin bat etor daitezen, baina informazio berri gabe.

Bourciezen datuen MCA analisia 3D errepresantazioan

Figure 2: Bourciezen datuen MCA analisia 3D errepresantazioan

Mapan

Aurreko irudikapenen koloreak, honetan ere, mapara eraman dira.

Biak batera

Irudi biak alderatu ahal izateko, seguruenera, biderik egokiena bateratzea izango da. Horrela, segidan aurkezten da GIF formatuan.

Badira hor Arrokiaga, Banka eta Donapaleu aldaketa nabarmenekin. MCAn hirugarren dimentsioan desberdinen irudikatzen zirenak, alegia.

Datu mota biek, MDSk eta MCAk, oso antzerako irudiak sortzen dituzte; are gehiago, maparatuta, aldea kontraste kontua baino ez dela ematen du.

Interesgarria izan liteke dimentsioen arteko korrelazioak ere aztertzea. Datuen ezaugarriengatik pearsonen korrelazio koefizienteak egokia ematen du alderaketak egiteko:

Hipotesia

: Bourciezen corpusen datuen analisi biek korrelazio handia izanen dute, MCAko lehenengo hiru dimentsioek eta distantzia linguistikoetan oinarritutako proiekzioak. MCAko hirugarren dimentsioak eta MDS proiekzioaren hirugarrenak, berriz, korrelazio baxuagoa izango du besteek baino

Froga

MCA eta MDSko lehenengo hiru dimentsioen arteko korrelazioak

Figure 3: MCA eta MDSko lehenengo hiru dimentsioen arteko korrelazioak

Azalpena

Azterketak erakusten duenez, korrelazio oso handia dute lehenengo dimentsio biek. Irudiaren hirugarren atalean islatzen denez, gainera, ematen du egokia izan litekeela muturreko balioen pisua motelduko lukeen beste estatistikoren bat erabiltzea, erregresio lerroan, antza, igartzen da muturreko 6 bat balioen pisua. MCAko Dim-1 eta MDSko mds1 zein MCAko Dim-2 eta mds2 aldagaiek euren arteko korrelazio indizeak asko hurbiltzen zaizkio 1ari, korrelazio perfektua litzatekeena. Azterketon probabilitate balioak, p-value, 0.001 baino baxuagoak dira.

Ondorioak

MDS eskalatze eta proiekzioa egokiak dira Bourciezen corpuseko datuak adierazteko, MCA egokia den neurrian.

Geroko

Beste corpus batzuekin ere alderatu behar lirateke analisi modu biak, ea zein neurritan diren egonkorrak antzematen diren paralelotasunak. Egongokortasuna erakutsiko balute, MCAk duen azalpen gaitasunaren alderdi koantitatiboa oinarri hartuta, MDS irudikapenena ere koantifikatzeko bidea azter liteke.

Kasu honetako analisian, behintzat, interesgarria litzateke aztertzea Dim-3 eta mds3 horien erlazioa; agian, Dim-4 edo hurrengo batzuk ere kontuan hartuta.

Irudikapenok eta cluster analisaren bitartez sortzen direne arteko harremanak aztertzea ere nabari interesekoa dela esateko minik ez dut.

Erreferentziak

Aurrekoetxea, Gotzon, Xarles Videgain, and Aitor Iglesias. 2004. “"Bourciez" bildumako euskal atlasa (BBEA): 1. Lexikoa.” Anuario Del Seminario de Filologı'a Vasca Julio de Urquijo: International Journal of Basque Linguistics and Philology.

———. 2005. “"Bourciez" bildumako euskal atlasa (BBEA): 2. Gramatika.” Anuario Del Seminario de Filologı'a Vasca "Julio de Urquijo" 39 (1): 1–277.

Embleton, Sheila. 1993. “Multidimensional Scaling as a Dialectometrical Technique: Outline of a Research Project.” In Contributions to Quantitative Linguistics, edited by Reinhard Köhler and Burghard B. Rieger, 267–76. Dordrecht: Springer Netherlands. https://doi.org/10.1007/978-94-011-1769-2_19.


  1. Zenbat eta argiagoa, orduan eta puntuazio altuagoa dimentsio horretan

  2. Koloreen erabilera proiekzioarekin erredundantea da, RGB osaketa dute (gorria, berdea eta urdina), kolore bakoitza dimentsio bati datxakiolarik. Koloreen araberako errepresentazioak, baina, mapan dimentsioen presentzia/absentzia irudikatzeko balio du