Sarrera hau Baionan nabilela idatzi behar dudan azkena da… momentuz.
Helburu bakarra du: nondik segitu nezakeen (daitekeen?) aztertzen erakustea.
Aurreko sarrera bietan hiru dimentsioko analisia erakutsi dut askotariko konkordantzia analisiaren bitartez (Multiple Correspondence Analysis, MCA). Lehenengoan aurkezpen laburtxua egin nuen eta bigarrenean horren azalpena hurratsik hurrats aztertzeko bidea erakusgai utzi nahirik.
Oraingo honetan, dialektometrian zabalpen handixeagoa duen dimentsio anitzeko eskalatzearekin (MDS) alderatzeko elementu batzuk erakutsi nahi ditut; segitu eta sakondu behar dela bistan dudala.
Datuak aurrekoetan erabilitako berberak dira, Bourciezek batu eta Aurrekoetxeak, Videgainek eta Iglesiasek sailkatu eta antolatutakoak (Aurrekoetxea et al., 2004, 2005)
Dimentsio anitzeko azterketetan MDS (MultiDimensional Scaling) bariazioan erabiltzen dela badira urteak (Embleton, 1993). MCA, ba, lar ez dut ikusi, egia esan.
MDS zer den, profanoentzat
Izenak dioen moduan, dimentsio asko eskalatzen ditu gutxiagotara. Baina zer izan daiteke dimentsio asko gutxiagotara eramatearen kontu hori. Ba, oinarri oinarrian distantzia matrize bat behar duela ez da kendu behar begibistatik.
Elementu bakarra adierazteko, konbentsioz, puntu batekin nahikoa dugu. Bi elementu badira adierazi nahi direnak, lerro bat sortuko dugu, toki bakarrean ez badaude; hiruk, lerro bakarrean ez badaude, plano bat irudikatuko dute. Eta plano horretan ez dagoen laugarren puntu bat irudikatzeko espazioa erabili behar dugu. Lau puntuk espazioa definitzen dute. Eta bostek?… seik?… zazpik?… Dimentsioak defini ditzakegu, baina ez dira zehatz irudikatzen errazak.
Uler dezakegu, akaso, puntu berriak irudikatzen baditugu, aurrekoe guztiekin bat ez datozenak, dimentsio berriak sortuko dituela. Ideia hori uler daiteken arren, 15. dimentsiotako irudirik gure buruak ezin du irudikatu (neurozientziari bidea horren esplikazionearentzat). Ideia abstraktu horiek zer forma hartuko luketen benetan da zaila hiru dimentsiotan baino ikusten ez dugunontzat.
Ba, MDSk hurrengo dimentsio horiek eskalatu eta irudikatzen ditu 2D edo 3D irudietan. Elementuen arteko distantziak irudikatzeko behar lituzkeen dimentsioak errepresentatzen ditu, irudi behartu batez.
Warning in readOGR("../../eu_EU/EH_Udalerriak-Barri/udalerriak_EH_berriaB.shp",
: OGR support is provided by the sf and terra packages among others
Warning in ogrListLayers(dsn = dsn): OGR support is provided by the sf and
terra packages among others
Warning in ogrInfo(dsn = dsn, layer = layer, encoding = encoding, use_iconv =
use_iconv, : OGR support is provided by the sf and terra packages among others
Warning in ogrFIDs(dsn = dsn, layer = layer): OGR support is provided by the sf
and terra packages among others
Warning in OGRSpatialRef(dsn, layer, morphFromESRI = morphFromESRI, dumpSRS =
dumpSRS, : OGR support is provided by the sf and terra packages among others
Warning in ogrListLayers(dsn): OGR support is provided by the sf and terra
packages among others
Warning in ogrFIDs(dsn = dsn, layer = layer): OGR support is provided by the sf
and terra packages among others
Oinarrizko datuak
Oinarri-oinarrian lehengo datuen matrize hori dugu, herriak (137) eta aldagaiak (248). segidan beste lagintxu bat
“Anitz” zenbatzaile zehaztugabea | “arrautza” hitzaren bilakaera | “Aski” adberbioa | “Bat ere” zenbatzaile zehaztugabea | “Car” antolatzailea | “Inor” izenordain zehaztugabea | |
---|---|---|---|---|---|---|
Aloze-Ziboze-Onizegaine | hanitx | arrautze | aski | batee | zeren (eta) bait- | ihur |
Altzai-Altzabeheti-Zunharreta | hanitx | arrautze | aski | bestelakoak | eta ba- | ihur |
Altzürükü | hanitx | arrautze | aski | batee | zeren (eta) bait- | ihur |
Amendüze-Unaso | asko | arroltze | aski | bestelakoak | zeren (eta) bait- | bihi bat |
Amorotze-Zokotze | anhitz | arrotze | aski | bat ere | ezen ba- | nehor |
Anhauze | anhitz | arrultze | aski | bat ere | ezi(k) ba- | nehor |
Arberatze-Zilhekoa | biziki | arrotze | aski | bat ere | ezi(k) ba- | nihor |
Arbona | (h)anitz | arroltze | aski | bestelakoak | ezen ba- | nihor |
Arboti-Zohota | biziki | arrotze | aski | bat ere | ezi(k) ba- | nihor |
Arhantsusi | biziki | arroltze | aski | bat ere | zeren (eta) bait- | nehor |
Armendaritze | anhitz | arroltze | aski | bat ere | zeren (eta) bait- | nehor |
Datuotan oinarrituta egiten dira hurrengo kalkulu guztiak, distantziak, proiekzioak, analisiak eta abar.
Datu matrizetik distantzia matrizera
Hasierako datuetan oinarrituta RIV distantzia kalkulatu eta herrien arteko distantzia linguistikoaren matrizea lortzen da; segidan lehenengo zazpi herriei dagokien tartea.
Ahatsa-Altzieta-Bazkazane | Ahetze | Aiherra | Ainharbe | Ainhize-Monjolose | Ainhoa | Aintzila | |
---|---|---|---|---|---|---|---|
Ahatsa-Altzieta-Bazkazane | 0.00 | ||||||
Ahetze | 45.97 | 0.00 | |||||
Aiherra | 40.73 | 33.06 | 0.00 | ||||
Ainharbe | 50.40 | 51.61 | 46.77 | 0.00 | |||
Ainhize-Monjolose | 39.52 | 33.87 | 34.68 | 47.18 | 0.00 | ||
Ainhoa | 43.55 | 25.81 | 31.45 | 50.40 | 33.87 | 0.00 | |
Aintzila | 35.89 | 36.29 | 37.10 | 46.37 | 29.44 | 35.48 | 0 |
Aurreko matrizeko herrien artean (Ahatsa-Altzieta-Bazkazane, Ahetze, Aiherra, Ainharbe, Ainhize-Monjolose, Ainhoa, Aintzila) zein distantzia linguistiko dagoen zenbakiz islatzen da; zenbat eta antzekotasun handiagoa herriko ezaugarri linguistikoen artean orduan eta zenbaki baxuagua, zenbat eta handiagoa izan, zenbaki handiagoa.
Herri horien arteko distantziak, 3D errepresentazioan, irudikatzen da segidan bi neurritan: 4, eta 25 herrietako laginak, lehenengoak ez du informaziorik koloreetan, bigarrenak, berriz, laugarren dimentsio baten informazioa koloreetan du islatua1.
Irudiotan distantziak adierazten dira, herrien artean zenbateko distantzia linguistikoa dagoen islatzen du. Irakurle kuxkuxeroak aztertu ahal ditu goiko matrizeko datuak nola adierazten diren irudiotan.
Argi ez da ikusten, aztertuta atzeman badaiteke ere, distantzia guztiak ez daudela berdin adierazita. Zergatik hori? Ba, MDS horixe delako, eskalatze prozesu bat, dimentsioak kendu eta gutxiagotan adierazteko laburpena. Laburpen ona, baina zaila koantifikatzen.
Bourciezen datuen MDSren 3D irudikapena
Bourciezen datuen arabera distantzi lingusitikoaren matrizea kalkultatuta, hiru dimentsiotako hurrengo irudia sortu daiteke2
… eta interaktiboki
Warning in rgl.close(): 'rgl.close' is deprecated.
Use 'close3d' instead.
See help("Deprecated")
Warning in rgl.texts(x = x, y = y, z = z, text = row.names(mds.bcrz), col = "grey20", : 'rgl.texts' is deprecated.
Use 'text3d' instead.
See help("Deprecated")
MDS 3D interaktiboa
Mapan 3D
Aurreko errepresentazioko dimentsioak koloreetan ere egin dira, horietxek, koloreen araberako irudikapenak maparatu daitezke, dagozkien herrien arabera koloreak emanaz; horixe egiten da hurrengo mapan.
Goiko mapa horrek antz nabarmen handia du blog honetako aurreko postekoarekin, konkordantzia anizkoitzen analisiarenarekin (MCA). Dakardan irudi horixe hona, alderatzeko:
Bourciezen datuen konkordantzia analisi anizkoitza: MCA
Hurrengo irudi biak aurreko postean aztertutakoak dira, MDS proiekzioarekin bat etor daitezen, baina informazio berri gabe.
Mapan
Aurreko irudikapenen koloreak, honetan ere, mapara eraman dira.
Biak batera
Irudi biak alderatu ahal izateko, seguruenera, biderik egokiena bateratzea izango da. Horrela, segidan aurkezten da GIF formatuan.
Badira hor Arrokiaga, Banka eta Donapaleu aldaketa nabarmenekin. MCAn hirugarren dimentsioan desberdinen irudikatzen zirenak, alegia.
Datu mota biek, MDSk eta MCAk, oso antzerako irudiak sortzen dituzte; are gehiago, maparatuta, aldea kontraste kontua baino ez dela ematen du.
Interesgarria izan liteke dimentsioen arteko korrelazioak ere aztertzea. Datuen ezaugarriengatik pearsonen korrelazio koefizienteak egokia ematen du alderaketak egiteko:
Hipotesia
Hº: Bourciezen corpusen datuen analisi biek korrelazio handia izanen dute, MCAko lehenengo hiru dimentsioek eta distantzia linguistikoetan oinarritutako proiekzioak. MCAko hirugarren dimentsioak eta MDS proiekzioaren hirugarrenak, berriz, korrelazio baxuagoa izango du besteek baino
Froga
Azalpena
Azterketak erakusten duenez, korrelazio oso handia dute lehenengo dimentsio biek. Irudiaren hirugarren atalean islatzen denez, gainera, ematen du egokia izan litekeela muturreko balioen pisua motelduko lukeen beste estatistikoren bat erabiltzea, erregresio lerroan, antza, igartzen da muturreko 6 bat balioen pisua. MCAko Dim-1 eta MDSko mds1 zein MCAko Dim-2 eta mds2 aldagaiek euren arteko korrelazio indizeak asko hurbiltzen zaizkio 1ari, korrelazio perfektua litzatekeena. Azterketon probabilitate balioak, p-value, 0.001 baino baxuagoak dira.
Ondorioak
MDS eskalatze eta proiekzioa egokiak dira Bourciezen corpuseko datuak adierazteko, MCA egokia den neurrian.
Geroko
Beste corpus batzuekin ere alderatu behar lirateke analisi modu biak, ea zein neurritan diren egonkorrak antzematen diren paralelotasunak. Egongokortasuna erakutsiko balute, MCAk duen azalpen gaitasunaren alderdi koantitatiboa oinarri hartuta, MDS irudikapenena ere koantifikatzeko bidea azter liteke.
Kasu honetako analisian, behintzat, interesgarria litzateke aztertzea Dim-3 eta mds3 horien erlazioa; agian, Dim-4 edo hurrengo batzuk ere kontuan hartuta.
Irudikapenok eta cluster analisaren bitartez sortzen direne arteko harremanak aztertzea ere nabari interesekoa dela esateko minik ez dut.
Erreferentziak
Oin oharrak
Zenbat eta argiagoa, orduan eta puntuazio altuagoa dimentsio horretan↩︎
Koloreen erabilera proiekzioarekin erredundantea da, RGB osaketa dute (gorria, berdea eta urdina), kolore bakoitza dimentsio bati datxakiolarik. Koloreen araberako errepresentazioak, baina, mapan dimentsioen presentzia/absentzia irudikatzeko balio du↩︎