Caverphone - Caverphone
tento článek poskytuje nedostatečný kontext pro ty, kteří danému tématu nejsou obeznámeni.Říjen 2009) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
The Caverphone je algoritmus fonetického párování[1][2] vynalezl k identifikaci anglických jmen s jejich zvuky, původně vytvořený pro zpracování vlastní datové sady sloučenin mezi 1893 a 1938 na jihu Dunedin, Nový Zéland.[3] Vycházel z podobného konceptu jako metafon, od té doby byl vyvinut pro přizpůsobení a zpracování obecné angličtiny.[3]
Etymologie
Caverphone vytvořil David Hood v USA Caversham Project na University of Otago v Nový Zéland v roce 2002, revidovaný v roce 2004. Byl vytvořen, aby pomohl při porovnávání údajů mezi volebními funkcemi z konce 19. století a počátku 20. století, kde název potřeboval pouze „běžně rozpoznatelnou formu“. Algoritmus měl sloužit těm jménům, která nebylo možné snadno porovnat mezi volebními seznamy, poté, co byly z fondu potenciálních shod odstraněny přesné zápasy. Algoritmus je optimalizován pro akcenty přítomné ve studované oblasti (jižní část města Dunedin, Nový Zéland).
Postup
Caverphone 1.0
Pravidla algoritmu se postupně použijí na jakýkoli konkrétní název jako řada nahrazení.
Algoritmus je následující:
- Převést na malá písmena
- Odstraňte vše, co ne A-Z
- Pokud název začíná ...
- kašel, nahraďte jej cou2f
- hrubý, nahraďte jej rou2f
- těžké, nahraďte jej tou2f
- dost, nahraďte jej enou2f
- gn, nahraďte jej 2n
- Pokud název končí na
- mb, nahraďte jej m2
- Nahradit
- CQ s 2q
- ci s si
- ce s se
- cy s sy
- tch s 2 kanály
- C s k
- q s k
- X s k
- proti s F
- dg s 2 g
- tio s sio
- tia s sia
- d s t
- ph s fh
- b s str
- sh s s2
- z s s
- jakékoli počáteční samohláska s A
- vše ostatní samohlásky s 3
- 3gh3 s 3kh3
- gh s 22
- G s k
- skupiny dopisu s s S
- skupiny dopisu t s T
- skupiny dopisu str s P
- skupiny dopisu k s K.
- skupiny dopisu F s F
- skupiny dopisu m s M
- skupiny dopisu n s N
- w3 s W3
- wy s Wy
- wh3 s Wh3
- proč s Proč
- w s 2
- jakékoli počáteční h s A
- všechny ostatní výskyty h s 2
- r3 s R3
- ry s Ry
- r s 2
- l3 s L3
- ly s Ly
- l s 2
- j s y
- y3 s Y3
- y s 2
- odebrat všechny
- 2
- 3
- dal šest 1 na konci
- vzít prvních šest znaků jako kód
Caverphone 2.0
- Začněte slovem
- Převést na malá písmena
- Odstraňte vše, co není ve standardní abecedě (obvykle a-z)[poznámka 1]
- Odstranit konečné E
- Pokud název začíná na
- kašel Udělej to cou2f
- hrubý Udělej to rou2f
- těžké Udělej to tou2f
- dost Udělej to enou2f
- koryto Udělej to trou2f
- gn Udělej to 2n
- Pokud název končí na
- mb Udělej to m2
- Nahradit
- CQ s 2q
- ci s si
- ce s se
- cy s sy
- tch s 2 kanály
- C s k
- q s k
- X s k
- proti s F
- dg s 2 g
- tio s sio
- tia s sia
- d s t
- ph s fh
- b s str
- sh s s2
- z s s
- iniciála samohláska[poznámka 2] s A
- vše ostatní samohlásky s 3
- j s y
- iniciála y3 s Y3
- iniciála y s A
- y s 3
- 3gh3 s 3kh3
- gh s 22
- G s k
- skupiny dopisu s s S
- skupiny dopisu t s T
- skupiny dopisu str s P
- skupiny dopisu k s K.
- skupiny dopisu F s F
- skupiny dopisu m s M
- skupiny dopisu n s N
- w3 s W3
- wh3 s Wh3
- pokud název končí na w nahradit finále w s 3
- w s 2
- iniciála h s A
- všechny ostatní výskyty h s 2
- r3 s R3
- pokud název končí na r nahradit finále r s 3
- r s 2
- l3 s L3
- pokud název končí na l nahradit finále l s 3
- l s 2
- odebrat všechny 2s
- pokud jméno končí na 3, nahraďte finále 3 s A
- odebrat všechny 3s
- dát deset 1s na konci
- vzít prvních deset znaků jako kód
Příklady
Caverphone 1.0
Lee -> leelee -> l33l33 -> L33L33 -> LL -> L111111L111111 -> L11111
Thompson -> thompsonthompson -> th3mps3nth3mps3n -> th3mpS3nth3mpS3n -> Th3mpS3nTh3mpS3n -> Th3mPS3nTh3mPS3n -> Th3MPS3nTh3MPS3n -> Th3MPS3NTh3MPS3N -> T23MPS3NTh3MPS3N -> T3MPS3NTh3MPS3N ->
Caverphone 2.0
Lee -> leelee -> lele -> l3l3 -> L3L3 -> LALA -> LA1111111111LA1111111111 -> LA11111111
Thompson -> thompsonthompson -> th3mps3nth3mps3n -> th3mpS3nth3mpS3n -> Th3mpS3nTh3mpS3n -> Th3mPS3nTh3mPS3n -> Th3MPS3nTh3MPS3n -> Th3MPS3NTh3MPS3N -> T3MPS3NTh3MPS3N -> T11
Viz také
- Soundex
- New York State Identification and Intelligence System
- Přístup k hodnocení shody
- Metafon
- Kolínská fonetika
Reference
- ^ Milette, Greg; Stroud, Adam (18.05.2012). Profesionální programování senzorů Android. John Wiley & Sons. str. 421–. ISBN 9781118240458. Citováno 19. února 2013.
- ^ Phua, Clifton; Lee, Vincent; Smith, Kate (2006). „Problém s osobním jménem a doporučené řešení dolování dat“. Encyklopedie datových skladů a těžby. CiteSeerX 10.1.1.127.5111.
- ^ A b „Caverphone“. Národní institut pro standardy a technologie. Citováno 2018-08-20.
externí odkazy
- Caversham Project - Cavershamský datový soubor jmen a akcentů v jižní části ostrova Dunedin, Nový Zéland v letech 1893-1938.
- Původní (2002) algoritmus Caverphone
- Revidovaný (2004) algoritmus Caverphone
- Implementace:
- C # revidovaná implementace
- Implementace Java v Kodek Apache Commons projekt
- Implementace PHP
- Implementace Pythonu algoritmus kaverfonu (verze 2.0) - AdvaS Advanced Search project