Program automatického posuzování podobnosti - Automated Similarity Judgment Program - Wikipedia
Výrobce | Max Planck Institute for the Science of Human History (Německo) |
---|---|
Jazyky | Angličtina |
Přístup | |
Náklady | Volný, uvolnit |
Dosah | |
Disciplíny | Kvantitativní srovnávací lingvistika |
Odkazy | |
webová stránka | http://asjp.clld.org |
The Program automatického posuzování podobnosti (ASJP) je projekt spolupráce využívající výpočetní přístupy k srovnávací lingvistika pomocí databáze seznamů slov. Databáze má otevřený přístup a skládá se ze 40položkových seznamů základní slovní zásoby pro více než polovinu světových jazyků.[1] Neustále se rozšiřuje. Kromě izolátů a jazyků prokázaných genealogických skupin obsahuje databáze pidginy, kreoli, smíšené jazyky, a konstruované jazyky. Slova databáze jsou přepsána do zjednodušeného standardního pravopisu (ASJPcode).[2] Databáze byla použita k odhadu dat, kdy se jazykové rodiny rozcházely do dceřiných jazyků metodou související, ale stále se lišící od glottochronologie,[3] určit vlast (Urheimat ) a proto-jazyk,[4] vyšetřovat zvuková symbolika,[5] vyhodnotit různé fylogenetické metody,[6] a několik dalších účelů.
ASJP není mezi historickými lingvisty široce přijímán jako adekvátní metoda k navázání nebo vyhodnocení vztahů mezi jazykovými rodinami.[7]
Je součástí Cross-lingvistické propojené údaje projekt pořádaný Max Planck Institute for the Science of Human History.[8]
Dějiny
Originální cíle
ASJP byl původně vyvinut jako prostředek pro objektivní vyhodnocení podobnosti slov se stejným významem z různých jazyků s konečným cílem výpočetní klasifikace jazyků na základě pozorovaných lexikálních podobností. V prvním příspěvku ASJP[2] dva sémanticky shodná slova z porovnávaných jazyků byla hodnocena jako obdobná, pokud vykazovala alespoň dva identické zvukové segmenty. Podobnost mezi těmito dvěma jazyky byla vypočtena jako procento z celkového počtu porovnávaných slov, která byla hodnocena jako podobná. Tato metoda byla použita na seznamy slov se 100 položkami pro 250 jazyků jazykové rodiny počítaje v to Austroasiatic, Indoevropský, Mayové, a Pižmoň.
Konsorcium ASJP
Konsorcium ASJP, založené kolem roku 2008,[když? ] přišel zapojit přibližně 25 profesionálních lingvistů a dalších zúčastněných stran pracujících jako dobrovolní přepisovatelé a / nebo rozšiřujících podporu projektu jinými způsoby. Hlavní hnací silou při založení konsorcia byl Cecil H. Brown. Søren Wichmann je denním kurátorem projektu. Třetím ústředním členem konsorcia je Eric W. Holman, který vytvořil většinu softwaru použitého v projektu.
Kratší seznamy slov
Zatímco použité seznamy slov byly původně založeny na 100 položkách Seznam Swadesh, bylo statisticky stanoveno, že podmnožina 40 ze 100 položek vyprodukovala stejně dobré, ne-li o něco lepší klasifikační výsledky než celý seznam.[9] Takže následně shromážděné seznamy slov obsahují pouze 40 položek (nebo méně, pokud u některých chybí osvědčení).
Levenshteinova vzdálenost
V příspěvcích publikovaných od roku 2008 použila ASJP program posuzování podobnosti založený na Levenshteinova vzdálenost (LD). Bylo zjištěno, že tento přístup přináší lepší klasifikační výsledky měřené proti odbornému názoru než původně použitá metoda. LD je definován jako minimální počet po sobě jdoucích změn nutných k převodu jednoho slova na jiné, přičemž každou změnou je vložení, odstranění nebo nahrazení symbolu. V rámci Levenshteinova přístupu lze rozdíly v délce slova korigovat dělením LD počtem symbolů delšího ze dvou porovnávaných slov. Tím se vytvoří normalizovaný LD (LDN). Hodnota LDN rozdělená (LDND) mezi dva jazyky se vypočítá vydělením průměrné hodnoty LDN pro všechny páry slov zahrnující stejný význam a průměrné hodnoty LDN pro všechny páry slov zahrnující různé významy. Tato druhá normalizace má napravit náhodnou podobnost.[10]
Seznam slov
ASJP používá následující seznam 40 slov.[11] Je to podobné jako u Seznam Swadesh – Yakhontov, ale má určité rozdíly.
- Části těla
- oko
- ucho
- nos
- jazyk
- zub
- ruka
- koleno
- krev
- kost
- prsa (ženská)
- játra
- kůže
- Zvířata a rostliny
- veš
- Pes
- ryba
- roh (zvířecí část)
- strom
- list
- Lidé
- osoba
- name (podstatné jméno)
- Příroda
- slunce
- hvězda
- voda
- oheň
- kámen
- cesta
- hora
- noc (temný čas)
- Slovesa a přídavná jména
- pít (sloveso)
- zemřít
- vidět
- slyšet
- Přijít
- Nový
- úplný
- Číslovky a zájmena
- jeden
- dva
- Já
- vy
- my
ASJPcode
Verze ASJP z roku 2016 používá ke kódování následující symboly fonémy: p b f v m w 8 t d s z c n r l S Z C j T 5 y k g x N q X h 7 L 4 G! i e E 3 a u o
Představují 7 samohlásek a 34 souhlásek, které se nacházejí na standardní klávesnici QWERTY.
ASJPcode | Popis | IPA |
---|---|---|
i | vysoká přední samohláska, zaoblená a nezaoblená | i, ɪ, y, ʏ |
E | střední přední samohláska, zaoblená a nezaoblená | e, ř |
E | nízká přední samohláska, zaoblená a nezaoblená | a, æ, ɛ, ɶ, œ |
3 | vysoká a střední centrální samohláska, zaoblená a nezaoblená | ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ |
A | nízká centrální samohláska, nezaokrouhlená | ɐ |
u | samohláska s vysokým hřbetem, zaoblená a nezaoblená | ɯ, u |
Ó | samohláska se středním a nízkým hřbetem, zaoblená a nezaoblená | ɤ, ʌ, ɑ, o, ɔ, ɒ |
p | neznělé bilabiální zastávky a frikativní | p, ɸ |
b | vyjádřený bilabiální stop a frikativní | b, β |
m | bilabiální nosní | m |
F | neznělé labiodental fricative | F |
proti | vyjádřený labiodental fricative | proti |
8 | neznělá a vyjádřená zubní frikativa | θ, ð |
4 | zubní nosní | n̪ |
t | neznělé alveolární zastávky | t |
d | vyjádřený alveolární stop | d |
s | neznělá alveolární frikativa | s |
z | vyjádřený alveolar fricative | z |
C | neznělé a vyjádřené alveolární afrikáty | ts, dz |
n | neznělé a vyjádřené alveolární nosní | n |
S | neznělá postalveolární frikativa | ʃ |
Z | vyjádřený postalveolární frikativ | ʒ |
C | neznělé palato-alveolární afrikáty | tʃ |
j | vyjádřený palato-alveolární afrikát | dʒ |
T | neznělé a vyjádřené palatální zastávky | c, ɟ |
5 | patrový nosní | ɲ |
k | neznělé velar stop | k |
G | vyjádřený velar stop | ɡ |
X | neznělá a vyjádřená velární frikativa | x, ɣ |
N | velar nosní | ŋ |
q | neznělé uvular stop | q |
G | vyjádřený uvular stop | ɢ |
X | neznělé a vyjádřené uvular fricative, neznělé a vyjádřené faryngální fricative | χ, ʁ, ħ, ʕ |
7 | neznělý ráz | ʔ |
h | neznělé a vyjádřené hlasové frikativy | h, ɦ |
l | vyjádřený alveolární laterální přibližný | l |
L | všechny ostatní bočnice | ʟ, ɭ, ʎ |
w | vyjádřený bilabiálně-velární přibližný | w |
y | patrový přibližný | j |
r | vyjádřený apikoalveolární trylek a všechny druhy „r-zvuků“ | r, ʀ, atd. |
! | všechny varianty „zvuků kliknutí“ | ǃ, ǀ, ǁ, ǂ |
Viz také
Reference
- ^ Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant a Pilar Valenzuela. 2013. Databáze ASJP (verze 16). http://asjp.clld.org/
- ^ A b C Brown, Cecil H., Eric W. Holman, Søren Wichmann a Viveka Velupillai. 2008. Automatizovaná klasifikace světových jazyků: Popis metody a předběžné výsledky. STUF - jazyková typologie a univerzálie 61.4: 285-308.
- ^ Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List a Dmitrij Egorov. 2011. Automatické seznamování světových jazykových rodin na základě lexikální podobnosti. Současná antropologie 52.6: 841-875.
- ^ Wichmann, Søren, André Müller a Viveka Velupillai. 2010. Vlasti světových jazykových rodin: kvantitativní přístup. Diachronica 27.2: 247-276.
- ^ Wichmann, Søren, Holman, Eric W. a Cecil H. Brown. 2010. Zvuková symbolika v základní slovní zásobě. Entropie 12.4: 844-858.
- ^ Pompeje, Simone, Vittorio Loreto a Francesca Tria. 2011. O přesnosti jazykových stromů. PLOS ONE 6: e20109.
- ^ Srov. komentáře Adelaar, Blust a Campbell ve věci Holman, Eric W. a kol. (2011) „Automatizované seznamování světových jazykových rodin na základě lexikální podobnosti.“ Současná antropologie, sv. 52, č. 6, str. 841–875.
- ^ „Cross-Linguistic Linked Data“. Citováno 2020-02-22.
- ^ Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller a Dik Bakker. 2008. Průzkumy v automatizované jazykové klasifikaci. Folia Linguistica 42.2: 331-354.
- ^ Wichmann, Søren, Eric W. Holman, Dik Bakker a Cecil H. Brown. 2010. Hodnocení jazykových měr vzdálenosti. Physica A 389: 3632-3639 (doi: 10,1016 / j.physa.2010.05.011).
- ^ http://asjp.clld.org/static/Guidelines.pdf
Zdroje
- Søren Wichmann, Jeff Good (eds). 2014. Kvantifikace jazykové dynamiky: Na špici areálové a fylogenetické lingvistiky, s. 203. Leiden: Brill.
- Brown, Cecil H. a kol. 2008. Automatizovaná klasifikace světových jazyků: Popis metody a předběžné výsledky. Jazyková typologie a univerzálie 61 (4). Listopadu 2008. doi:10.1524 / stuf.2008.0026
- Wichmann, Søren, Eric W. Holman a Cecil H. Brown (eds.). 2018. Databáze ASJP (verze 18).
externí odkazy
- Databáze ASJP oficiální domovská stránka