Moby Project - Moby Project
Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
The Moby Project je sbírka lexikálních zdrojů pro veřejné domény. Vytvořil Grady Ward. Zdroje byly vyhrazeny pro veřejnou doménu a nyní jsou zrcadleny na Projekt Gutenberg. Od roku 2007[Aktualizace], obsahuje největší bezplatnou fonetickou databázi se 177 267 slovy a odpovídajícími výslovnostmi.[Citace je zapotřebí ]
Rozdělovač
The Moby Hyphenator II obsahuje dělení slov z 187 175 slov a frází (včetně 9 752 položek, kde nejsou uvedena žádná dělení slov, například přes a vyhýbat se). Zdá se, že kódování znaků je MacRoman, a dělení slov je označeno odrážkou (hodnota znaku 165 desetinná nebo A5 šestnáctková). Některé položky však mají kombinaci skutečných pomlček a znaků 165, například „bar • ber-sur • geon“.
O provedených volbách dělení není téměř žádná dokumentace; následující příklady mohou poskytnout určitou příchuť použitého stylu dělení slov: at • mos • phere; at • tendence • mravenec; kapacita; un • col • or • a • ble.
Jazyk
Moby jazyk II obsahuje seznamy slov pěti jazyků: francouzština, Němec, italština, japonský, a španělština:
Jazyk | Slova | Velikost (v palcích) bajtů ) |
---|---|---|
francouzština | 138,257 | 1,524,757 |
Němec | 159,809 | 2,055,986 |
italština | 60,453 | 561,981 |
japonský | 115,523 | 934,783 |
španělština | 86,059 | 850,523 |
Celkový | 560,101 | 5,928,030 |
Některé ze seznamů jsou však kontaminované, například japonský seznam obsahuje anglická slova jako abnormální a ne-slova jako abcdefgh a m,. /. Při třídění těchto seznamů existují také neobvyklé zvláštnosti, protože francouzský seznam obsahuje přímý abecední seznam, zatímco německý seznam obsahuje abecední seznam slov s tradičním velkým písmenem a poté abecední seznam slov s tradičně malými písmeny. Seznam italských slov však neobsahuje žádná velká písmena.
Seznam cizích jazyků nepoužívá znaky s diakritikou, takže „e ^ tre“ je způsob, jakým by uživatel vyhledal francouzské slovo être ("být").
Část mluvy
Moby, část řeči obsahuje 233 356 slov plně popsaných uživatelem část (části) řeči, uvedené v pořadí priority. Formát souboru je slovo části řeči, přičemž jsou identifikovány následující slovní druhy:
Část mluvy | Kód |
---|---|
Podstatné jméno | N |
Množný | str |
Jmenná fráze | h |
Sloveso (obvykle participium ) | PROTI |
Tranzitivní sloveso | t |
Nepřechodné sloveso | i |
Přídavné jméno | A |
Příslovce | proti |
Spojení | C |
Předložka | P |
Citoslovce | ! |
Zájmeno | r |
Určitý člen | D |
Neurčitý článek | Já |
Jmenovaný | Ó |
Pronunciator
The Moby Pronunciator II obsahuje 177 267 záznamů s odpovídajícími výslovnostmi. Většina položek popisuje jedno slovo, ale přibližně 79 000[1] obsahovat pomlčky nebo víceslovné fráze, jména nebo lexémy. Distribuce Project Gutenberg také obsahuje kopii cmudikt v0.3. Soubor obsahuje řádky formátu výslovnost slova [/ part-of-speech]. Každý řádek je ukončen ASCII Návrat vozíku znak (CR, ' r', 0x0D, 13 v desítkové soustavě).
The slovo pole může zahrnovat apostrofy (např. není), pomlčky (např. zdatný) a více slov oddělených podtržítky (např. monkey_wrench). Neanglická slova se obvykle vykreslují, jak je uvedeno v dokumentaci, bez diakritických znamének nebo jiných diakritických znamének. V 36 položkách (např. São_Miguel), některé znaky bez ASCII s diakritikou zůstanou, reprezentovány pomocí Mac OS Roman kódování.
Pole části řeči se používá k disambiguaci 770 slov, která mají různé výslovnosti v závislosti na jejich řeči. Například pro slova hláskovaná zavřít, sloveso má výslovnost /ˈkloʊz/, zatímco přídavné jméno je /ˈkloʊs/. Části řeči byly přiřazeny následující kódy:
Část mluvy | Kód |
---|---|
Podstatné jméno | n |
Sloveso | proti |
Přídavné jméno | aj |
Příslovce | av |
Citoslovce | interj |
Následuje tato výslovnost. Existuje několik speciálních symbolů:
Symbol | Význam |
---|---|
_ | Slouží k oddělení slov |
' | Primární stres na následující slabice |
, | Sekundární stres na následující slabice |
Zbytek symbolů slouží k reprezentaci IPA postavy. Výslovnosti jsou obecně v souladu s a Obecný Američan dialekt angličtiny, který vykazuje sloučení otec-obtěžující, spěchá-chlupatá fúze a rozdělit hodně látky, ale nevystavuje fúze chycená dětskou postýlkou nebo fúze víno-kňučení. Každý foném je reprezentován posloupností jednoho nebo více znaků. Některé ze sekvencí jsou odděleny lomítkem „/“, jak je uvedeno v následující tabulce, ale mějte na paměti, že sekvence pro /ɔɪ/ je ohraničen dva lomítka na obou koncích:
Symbol | IPA |
---|---|
/&/ | … |
/-/ | ə |
/@/ | ʌ, ə |
/ [@] / r | ,r, .r |
/A/ | ɑ, ɑː |
/ aI / | aɪ |
/ AU / | aʊ |
b | b |
d | d |
/ D / | ð |
/ dZ / | dʒ |
/E/ | ɛ |
/ eI / | eɪ |
F | F |
G | ɡ |
h | h |
hw | hw |
/ i / | iː |
/ Já / | ɪ |
/ j / | j |
/ ju / | juː |
k | k |
l | l |
m | m |
n | n |
/ N / | ŋ |
/Ó/ | ɔ, ɔː |
// Oi // | ɔɪ |
/ oU / | oʊ |
str | str |
r | r |
s | s |
/ S / | ʃ |
t | t |
/ T / | θ |
/ tS / | tʃ |
/ u / | uː |
/ U / | ʊ |
proti | proti |
w | w |
z | z |
/ Z / | ʒ |
Do této sbírky je přidána řada dalších sekvencí představujících fonémy nalezené v několika dalších jazycích. Používají se k zakódování neanglických slov, frází a jmen, která jsou obsažena v databázi. Následující tabulka obsahuje tyto další fonémy, ale všimněte si, že není jasné, do jaké míry mohou některé z nich existovat kvůli chybám kódování.
Symbol | IPA |
---|---|
A | A |
E | e, ɛ |
i | já, ɪ |
N | Nasalizace předchozí samohlásky |
Ó | Ó |
Ó | [záměr není jasný] |
R | ʁ |
S | s |
u | u |
PROTI | v, β, ʋ |
Ž | w |
/X/ | X |
/ r / | Ó |
Y | y |
/ z / | ts |
Z | z |
Shakespeare
Moby Shakespeare obsahuje kompletní nezkrácená díla z Shakespeare. Tento konkrétní zdroj není k dispozici od Project Gutenberg.
Tezaurus
The Moby Tezaurus II obsahuje 30 260 kořenových slov, s 2 520 264 synonyma a související výrazy - v průměru 83,3 na kořenové slovo. Každý řádek se skládá ze seznamu hodnoty oddělené čárkami, přičemž první výraz je kořenové slovo a všechna následující slova jsou příbuzné výrazy.
Grady Ward umístil tento tezaurus do veřejná doména v roce 1996. Je také k dispozici jako Debian balík.
Slova
Moby slova II je největší seznam slov na světě.[2][jsou zapotřebí další citace ] Distribuce se skládá z následujících 16 souborů:
Název souboru | Slova | Popis |
---|---|---|
ACRONYMS.TXT | 6,213 | Běžný zkratky a zkratky |
COMMON.TXT | 74,550 | Běžná slova přítomná ve dvou nebo více publikovaných slovnících |
COMPOUND.TXT | 256,772 | Fráze, vlastní jména, a zkratky není součástí souboru běžných slov |
CROSSWD.TXT | 113,809 | Slova zahrnutá v prvním vydání Oficiální slovník hráčů Scrabble |
CRSWD-D.TXT | 4,160 | Dodatky k oficiálnímu slovníku hráčů Scrabble ve druhém vydání |
FICTION.TXT | 467 | Seznam nejčastěji se vyskytujících podřetězce v knize Klub štěstí štěstí |
FREQ.TXT | 1,000 | Nejčastěji se vyskytující slova v anglický jazyk, seřazeno sestupně |
FREQ-INT.TXT | 1,000 | Nejčastěji se vyskytující slova Usenet v roce 1992, uvedeny s odpovídajícím procentem v sestupném pořadí |
KJVFREQ.TXT | 1,185 | Nejčastěji se vyskytující podřetězce v Verze Bible krále Jakuba, seřazeno sestupně |
NAMES.TXT | 21,986 | Nejčastější jména používané ve Spojených státech a Velká Británie |
NÁZVY-F.TXT | 4,946 | Běžná angličtina ženský jména |
NÁZVY-M.TXT | 3,897 | Běžná angličtina mužský jména |
OFTENMIS.TXT | 366 | Nejčastěji chybně napsaná anglická slova |
PLACES.TXT | 10,196 | Místní jména ve Spojených státech |
SINGLE.TXT | 354,984 | Jednotlivá slova s výjimkou vlastních podstatných jmen, akronymů, složených slov a frází, ale včetně archaický slova a významné varianty hláskování |
USACONST.TXT | 7,618 | Ústava Spojených států včetně všech změn platných do roku 1993 |
Celkový | 863,149 | Ne celkem jedinečných slov. |
Celkem Uniq | 639,995 | Celkem jednotlivých, vlastních jmen, akronymů a složených slov a frází (všechny soubory, které obsahují jedinečná slova). |
Reference
- ^ Získané spuštěním příkazu UNIX grep '. * [-_]. *. *' mobypron.unc | wc -l po převodu konců řádků a opravě některých chyb v kódování.
- ^ Elektronické slovníky
externí odkazy
- Domovská stránka projektu Moby, University of Sheffield; kopírovat vyrobeno Wayback Machine stránky tak, jak to bylo 30. září 2017. („Poslední změna: 24. října 2000“)
- Stahování projektu Gutenberg
- Hledání rýmů s Perlem; odpovídající kód