Text | Types | Tokens | Sentences | Key | Name | ISO | Direction | |
---|---|---|---|---|---|---|---|---|
95 | cos | 591 | 2171 | 61 | cos | Corsican | cos | ltr |
96 | cot | 747 | 1823 | 160 | cot | Caquinte | cot | ltr |
97 | cpu | 935 | 2852 | 185 | cpu | Ashéninka, Pichis | cpu | ltr |
98 | crh | 716 | 1579 | 32 | crh | Crimean Tatar | crh | ltr |
99 | crs | 518 | 1981 | 63 | crs | Seselwa Creole French | crs | ltr |
100 | csa | 452 | 2270 | 100 | csa | Chinantec, Chiltepec | csa | ltr |
Eman dezagun orain modan dauden erreminta batzuk erabili nahi ditugula, esate baterako ChatGPT. Gaztelaniaz elegante:
/ask ¿Qué fueron las invasiones inglesas de Buenos Aires?
Telegrameko https://t.me/OpenAiChat_bot -ek hau erantzun dit:
Las invasiones inglesas de Buenos Aires fueron dos importantes asedios llevados a cabo por las fuerzas británicas durante el siglo XIX para apoderarse de la ciudad argentina. Estos hechos tuvieron lugar en 1806 y 1807, respectivamente, con el objetivo de capturar la plaza principal y lograr una notoria influencia comercial. Las invasiones terminaron con un fracaso para los británicos pero tuvieron un gran impacto para los habitantes de Buenos Aires al provocar la destrucción del casco urbano y generar graves problemas sociales y económicos.
Baina euskaraz zerbait galdetuta… erantzunak ez du pareko kalitaterik:
/ask Zergatik da garrantzitsua Gernikako aritz hura?
Haren euskarazko erantzuna:
Gernika aritza garrantzitsuak izan daiteke historikoki, eta Gernikan bizi diren kanpainan aurrera ateratzen duen helburua dago. Oso garrantzitsu asko diren itxuska egiturak dituzte hainbat sorkuntza local eta kulturalek uste izanez. Markoanto-reen jauregi bera, Donibane Lohize antzinako fueloakoak eta San Pedro Antiguo gazteluak barne, beste batzuen lana emititu behar dute Gernikarak bere tradizioak teklatu. Gainera, beste erabilera historikoak ditu, emango apurtze esanguratsu ofizialea conciertuetara eta evenimentuetara gonbidatuta egunez egun. Baina horretaz gain, hainbat kultura geografiko barrualdean sortutako tradizioei buruzko informazio garbiagotzeko aldaketa esanguratsua sortzeko elementua da Gernika Arritzatik.
Nik ingelesez ganoraz jakin ez arren, hizkuntza horretan galdetu diot hurrengoa:
/ask Why is not good the ChatGPT performance in Basque language?
Although the ChatGPT system has seen success with some natural language processing tasks, it is not well-suited to Basque. One of the primary causes is due to the fact that Basque is a more complicated language than those with which ChatGPT was designed to work; its unique grammar and syntax are unlike those used for languages such as English or Spanish, making it difficult for the system to comprehend. Additionally, Basque does not have corpus data available in abundance like other languages - meaning there are fewer resources available from which ChatGPT can learn from and draw on for successful conversation.
Argi dago. e-uskaraz zereginik badaukagu. Nik, motibazio handia eta jakintza urri, euskarazko jarduna aztertu nahi dut ea zeregin interesgarririk aurkitzen diodan nire grina aztertzaileari:
Euskaraz idatzizko testuak aztertzeko beste hizkuntza batzuetan erabiltzen diren tresna berberak erabili ditut. Zehazki honetan Quanteda.
Testuaren azterketa automatikoa gaiari antzemateko
Corpus eleanitz bat ezagutzen dut euskararekin batera beste hamaika hizkuntza dituena, horixe berori erabili dut azterketan.
Testu osoa hartu dut bost hizkuntzatan eta aztertu: euskara, ingelesa, gaztelania, frantsesa eta italiera. Testu horren klabea hau da: UDHR. Ea zer ikus daitekeen testu horretaz:
Hemen aurkezten dudan ariketa seguruenera oinarrizkoena izango da, berbak kontatzea eta kontaketa horretan oinarrituta nondik norakoa antzematea:
Text | Types | Tokens | Sentences | Key | Name | ISO | Direction |
---|---|---|---|---|---|---|---|
eus | 726 | 1602 | 62 | eus | Basque | eus | ltr |
eng | 555 | 1901 | 61 | eng | English | eng | ltr |
spa | 615 | 2098 | 58 | spa | Spanish | spa | ltr |
fra | 670 | 2120 | 61 | fra | French | fra | ltr |
ita | 651 | 1980 | 61 | ita | Italian | ita | ltr |
Ingelesa ez dut-eta ondoegi ulertzen, esanahiaren araberako alderaketetarako, italiera hobetsiko dut batean edo bestean.
Itzulpenen alderaketa
Bost hizkuntzetako itzulpenei maila kuantitatiboan begiratzen zaio hurrengo irudian; zenbat forma erabiltzen diren testu horretan. Alderaketa bat egiten da, ea zenbat forma desberdin erabiltzen diren versus zenbat forma behar diren denera.
Bistan da, euskara nahikoa desberdina da. Denera forma gutxiago behar dira UDHR izeneko testu hori emateko beste laurek baino. Bestalde, formak euren artean anitzagoak dira beste hizkuntzen aldean.
Lexikoari so
Corpus osoari begiratu nahirik, berbarik (formarik) errepikatuenak zein diren kontuan izanda grafiko bat egiten da hurrengoan, berbaren tamainak corpusean duen presentziaren pisua adierazten du:
Lehenengo begirada batean, aurreko irudi horretatik antzeman daitezke kontu bi:
- Berba asko sobran daudela ganoraz aztertzeko: a, de, la, and, eta, y, to, à, et, di….
- Nonbait, eskubidea, derecho, right, droit, diritto ardatz bat izan daitekeela. Eta pertsona, persona, perssonne ere beste ardatz bat izan daiteke.
Lehenengo arazo horri oratzeko stopwordak erabiltzen dira1. Hizkuntza bakoitzerako sortuak diren esannahi gabeko hitzen zerrendak dira, honelako azterketetan informazioa gehitu baino oztopatzen duten berbak, alegia.
Lexikoari, hizkuntzaka so
Segidan, hizkuntzarik hizkuntza aurkezten dira hogei formarik erabilienak, ezkerrean stopword horiek kendu gabe eta eskuinean horiek kenduta.
Horrek lagundu behar luke testuaren nondik norakoaz konturatzen.
Euskara
Azterketa honetan argi dago ezkerreko irudiko berbek informazio sakonagoa eskaintzen dutela. Baliteke, gainera, argi xamar irudikatzea zertaz diharduen testuak.
Baina begiratu dezagun beste hizkuntzetan ere ea zer ikus dezakegun.
Ingelesez
Lehenengo begirada batean, askoz mamitsuago ikusten da eskumaldeko irudiko informazioa.
Eta besteetan?
Gaztelaniaz
Frantsesez
Italieraz
Euskara ez diren beste hizkuntza guztietan, argiago interpreta daiteke informazioa euskaraz baino.
Hori ikusi izanak eta hizkuntza indoeuropear preposizio askodunak aukeratu izanak lehenengo hipotesi batera eraman nau:
H1: Hizkuntzen ezaugarri morfologikoek baldintzatzen dute.
Ah! Badaezpada, testua hau da: https://www.un.org/en/about-us/universal-declaration-of-human-rights . Gorago aipatutako quanteda
paketetako batek hainbat hizkuntzatan dakar hau erabilita: quanteda.corpora::data_corpus_udhr()
Ezaugarri morfologikoek baldintzatzen ote duten
Gorago bost hizkuntzarekin sortutako antzerako alderaketa da hurrengoa: Zenbat forma guztira eta zenbat forma bakar behar diren testu horretarako hizkuntza bakoitzean. Honetan, baina, alderatzen diren hizkuntzak dira stopwordak ematen dituzten guztiak.
Azterketa honetan ezaugarrien arteko korrelazioa dagoela antzematen da: zenbat eta forma desberdin gehiago izan, orduan eta forma gutxiago behar direla, alegia. Matematikoki honela aipa daiteke:
\[r_s = -0.552*** \] p-balioa = 0.0001023
Aldagaien artean, beraz, korrelazio ertain eta handien artekoa dago, efektuaren tamaina zeren arabera kalkulatzen den.
Stopword kopurua eta forma kopuruen artean korrelaziorik ote dago?
Korrelazioak aldagaien azalpen linguistikoak eta stopword kopuruen artean kalkulatuta, ez dugu aurkitu emaitza esanguratsurik (rs = 0.053, p-balioa = 0.77 eta rs = 0.0179, p-balioa = 0.92).
Eta irudian, bestelako sailkapenen bat egon litekeela ere ematen du:
Hungariera ere, euskararen antzera, hizkuntza eranskaria da, ingelesa ez. Horiek dira forma gehien dituztenak. Hirugarren postuan finlandiera, euskararen antzera eranskaria hori ere. Bestalde, euskara zulu, sotho, afrikaans eta beste hizkuntza batzuekin batera dago.
Azalpenak bestelako aldagaia behar du:
Morfologiak ez du azaltzen, politikak?
Politikak errazago. Multzo bi egin dira, estatua duten hizkuntzak eta estaturik gabekoak.
Aurreko konparaketan katalana, nahiz eta Andorrako hizkuntza ofiziala izan, ez dut jaso estatuko hizkuntzatzat. Hindia, nahiz eta Indiako hegoaldean ez izan ohiko hizkuntza, estatuduntzat hartu da. Tagalo/filipino hizkuntzaren inguruko gatazkak kontuan izanda, hori ere ez dut hala jaso. Amaitzeko, Irlandako galesa ere ez dut estatuduntzat jaso, han ere ingelesa lehenesten delakoan.
Estatistikoki esanguratsua da aurkitutako aldea. Wilcoxon-Mann-Withney testa erabilita, W = 31*** ematen du p-balioa = 0.00038 dela.
Agerian dago banaketa bitar hori baino sakonago azter litekeela. Baina, hainbat egiteko dagoenez, akaso, interesgarriagoa da euskarazko stopword eraginkorragoak sortzea.
Urte barri g on!
Oin oharrak
stopword hori bat edo batean aurkitu dut “hitz hutsak” forman. Gaztelaniaz ere palabras vacias. Berez, ez nago seguru argi dagoen, berba hutsak esanda, hutsik dauden berbak ulertzen den. Gainera, ez dakit hutsik dauden benetan. stopword inperialistarekin geratu naiz artikulutxu honetan.↩︎