Caverphone - Caverphone

The Caverphone je algoritmus fonetického párování[1][2] vynalezl k identifikaci anglických jmen s jejich zvuky, původně vytvořený pro zpracování vlastní datové sady sloučenin mezi 1893 a 1938 na jihu Dunedin, Nový Zéland.[3] Vycházel z podobného konceptu jako metafon, od té doby byl vyvinut pro přizpůsobení a zpracování obecné angličtiny.[3]

Etymologie

Caverphone vytvořil David Hood v USA Caversham Project na University of Otago v Nový Zéland v roce 2002, revidovaný v roce 2004. Byl vytvořen, aby pomohl při porovnávání údajů mezi volebními funkcemi z konce 19. století a počátku 20. století, kde název potřeboval pouze „běžně rozpoznatelnou formu“. Algoritmus měl sloužit těm jménům, která nebylo možné snadno porovnat mezi volebními seznamy, poté, co byly z fondu potenciálních shod odstraněny přesné zápasy. Algoritmus je optimalizován pro akcenty přítomné ve studované oblasti (jižní část města Dunedin, Nový Zéland).

Postup

Caverphone 1.0

Pravidla algoritmu se postupně použijí na jakýkoli konkrétní název jako řada nahrazení.

Algoritmus je následující:

  1. Převést na malá písmena
  2. Odstraňte vše, co ne A-Z
  3. Pokud název začíná ...
    1. kašel, nahraďte jej cou2f
    2. hrubý, nahraďte jej rou2f
    3. těžké, nahraďte jej tou2f
    4. dost, nahraďte jej enou2f
    5. gn, nahraďte jej 2n
  4. Pokud název končí na
    1. mb, nahraďte jej m2
  5. Nahradit
    1. CQ s 2q
    2. ci s si
    3. ce s se
    4. cy s sy
    5. tch s 2 kanály
    6. C s k
    7. q s k
    8. X s k
    9. proti s F
    10. dg s 2 g
    11. tio s sio
    12. tia s sia
    13. d s t
    14. ph s fh
    15. b s str
    16. sh s s2
    17. z s s
    18. jakékoli počáteční samohláska s A
    19. vše ostatní samohlásky s 3
    20. 3gh3 s 3kh3
    21. gh s 22
    22. G s k
    23. skupiny dopisu s s S
    24. skupiny dopisu t s T
    25. skupiny dopisu str s P
    26. skupiny dopisu k s K.
    27. skupiny dopisu F s F
    28. skupiny dopisu m s M
    29. skupiny dopisu n s N
    30. w3 s W3
    31. wy s Wy
    32. wh3 s Wh3
    33. proč s Proč
    34. w s 2
    35. jakékoli počáteční h s A
    36. všechny ostatní výskyty h s 2
    37. r3 s R3
    38. ry s Ry
    39. r s 2
    40. l3 s L3
    41. ly s Ly
    42. l s 2
    43. j s y
    44. y3 s Y3
    45. y s 2
  6. odebrat všechny
    1. 2
    2. 3
  7. dal šest 1 na konci
  8. vzít prvních šest znaků jako kód

Caverphone 2.0

  1. Začněte slovem
  2. Převést na malá písmena
  3. Odstraňte vše, co není ve standardní abecedě (obvykle a-z)[poznámka 1]
  4. Odstranit konečné E
  5. Pokud název začíná na
    1. kašel Udělej to cou2f
    2. hrubý Udělej to rou2f
    3. těžké Udělej to tou2f
    4. dost Udělej to enou2f
    5. koryto Udělej to trou2f
    6. gn Udělej to 2n
  6. Pokud název končí na
    1. mb Udělej to m2
  7. Nahradit
    1. CQ s 2q
    2. ci s si
    3. ce s se
    4. cy s sy
    5. tch s 2 kanály
    6. C s k
    7. q s k
    8. X s k
    9. proti s F
    10. dg s 2 g
    11. tio s sio
    12. tia s sia
    13. d s t
    14. ph s fh
    15. b s str
    16. sh s s2
    17. z s s
    18. iniciála samohláska[poznámka 2] s A
    19. vše ostatní samohlásky s 3
    20. j s y
    21. iniciála y3 s Y3
    22. iniciála y s A
    23. y s 3
    24. 3gh3 s 3kh3
    25. gh s 22
    26. G s k
    27. skupiny dopisu s s S
    28. skupiny dopisu t s T
    29. skupiny dopisu str s P
    30. skupiny dopisu k s K.
    31. skupiny dopisu F s F
    32. skupiny dopisu m s M
    33. skupiny dopisu n s N
    34. w3 s W3
    35. wh3 s Wh3
    36. pokud název končí na w nahradit finále w s 3
    37. w s 2
    38. iniciála h s A
    39. všechny ostatní výskyty h s 2
    40. r3 s R3
    41. pokud název končí na r nahradit finále r s 3
    42. r s 2
    43. l3 s L3
    44. pokud název končí na l nahradit finále l s 3
    45. l s 2
  8. odebrat všechny 2s
  9. pokud jméno končí na 3, nahraďte finále 3 s A
  10. odebrat všechny 3s
  11. dát deset 1s na konci
  12. vzít prvních deset znaků jako kód

  1. ^ To se může lišit, pokud sada písmen obsahuje znaky jako , Anebo Ó
  2. ^ Samohlásky jsou obvykle a, e, i, o, u, ale v závislosti na datech mohou zahrnovat znaky jako æ, ā nebo ø

Příklady

Caverphone 1.0

Lee -> leelee -> l33l33 -> L33L33 -> LL -> L111111L111111 -> L11111
Thompson -> thompsonthompson -> th3mps3nth3mps3n -> th3mpS3nth3mpS3n -> Th3mpS3nTh3mpS3n -> Th3mPS3nTh3mPS3n -> Th3MPS3nTh3MPS3n -> Th3MPS3NTh3MPS3N -> T23MPS3NTh3MPS3N -> T3MPS3NTh3MPS3N ->

Caverphone 2.0

Lee -> leelee -> lele -> l3l3 -> L3L3 -> LALA -> LA1111111111LA1111111111 -> LA11111111
Thompson -> thompsonthompson -> th3mps3nth3mps3n -> th3mpS3nth3mpS3n -> Th3mpS3nTh3mpS3n -> Th3mPS3nTh3mPS3n -> Th3MPS3nTh3MPS3n -> Th3MPS3NTh3MPS3N -> T3MPS3NTh3MPS3N -> T11

Viz také

Reference

  1. ^ Milette, Greg; Stroud, Adam (18.05.2012). Profesionální programování senzorů Android. John Wiley & Sons. str. 421–. ISBN  9781118240458. Citováno 19. února 2013.
  2. ^ Phua, Clifton; Lee, Vincent; Smith, Kate (2006). „Problém s osobním jménem a doporučené řešení dolování dat“. Encyklopedie datových skladů a těžby. CiteSeerX  10.1.1.127.5111.
  3. ^ A b „Caverphone“. Národní institut pro standardy a technologie. Citováno 2018-08-20.

externí odkazy