PlWordNet - PlWordNet - Wikipedia
plWordNet je lexiko-sémantický databáze z polština. Zahrnuje sady synonymní lexikální jednotky (synsety ) následované krátkými definicemi. plWordNet slouží jako slovník tezauru, kde pojmy (synsety) a jednotlivé významy slov (lexikální jednotky ) jsou definovány jejich umístěním v síti vzájemných vztahů, odrážejícím lexiko-sémantický systém polského jazyka.[1] plWordNet se také používá jako jeden ze základních zdrojů pro stavbu zpracování přirozeného jazyka nástroje pro polštinu.[1]
Dějiny
plWordNet se vyvíjí na Vratislavská technická univerzita. Práce provedl The WrocUT Skupina jazykových technologií G4.19 od roku 2005,[2] financované ministerstvem pro vědu a vysoké školství a EU tezaurus byl postaven od základu lexikografy a inženýry přirozeného jazyka.[3] První verze plWordNet byla zveřejněna v roce 2009 - obsahovala 20 223 lemmat, 26 990 lexikálních jednotek a 17 695 synsetů.[4] Nejnovější verze, plWordNet 2.2, byl zpřístupněn 13. května 2014.
Obsah
![](http://upload.wikimedia.org/wikipedia/commons/thumb/9/98/PlWordNet_and_Princeton_WordNet_-_content_statistics.png/400px-PlWordNet_and_Princeton_WordNet_-_content_statistics.png)
V současné době plWordNet obsahuje 148 tis lemmat, 207k lexikálních jednotek a 151k synsetů.[5] Už to přerostlo Princeton WordNet s ohledem na počet lexikálních jednotek. plWordNet se skládá z podstatná jména (116 tis.), slovesa (18k) a přídavná jména (13k).[5] Každý význam daného slova je samostatnou lexikální jednotkou. Jednotky, které představují stejný koncept a významně se neliší ve stylovém registru, byly sloučeny do synsetů - sad synonym. Každá lexikální jednotka je přiřazena jedné z domén (sémantické kategorie), což naznačuje její obecný význam. Domény plWordNet odpovídají Princeton WordNet soubory lexikografů.
Sémantické kategorie v plWordNet
Domény podstatných jmen[6] | Domény slovesa[7] | Přídavné domény[8] |
---|---|---|
|
|
|
Popis lexikální jednotky
Některé lexikální jednotky obsahují informace o stylistickém registru, krátké definici, příkladech použití a odkazu na příslušný článek na Wikipedii.
podstatné jméno | miasto | město, město | ||
---|---|---|---|---|
doména | miejsce i umiejscowienie | místo a umístění | ||
definice | duży, gęsto zabudowany i zaludniony teren posiadający odrębną administrację; miejsce życia ludzi pracujących w przemyśle lub usługach | velká, hustě zastavěná a obydlená oblast se samostatnou správou; bydlení lidí pracujících v průmyslu nebo službách | ||
příklad | W mieście człowiek ma większą szansę na zrobienie kariery i zarobienie pieniędzy, choć jednocześnie łatwiej tam niż na wsi popaść w ubóstwo. | Je mnohem snazší udělat kariéru ve městě než na vesnici, ale také je mnohem snazší upadnout do chudoby. |
Nejdůležitějším prvkem definujícím význam slov je lexiko-sémantické a derivační vztahy, které platí mezi synchronizacemi a mezi lexikálními jednotkami. Jedna synset seskupuje takové lexikální jednotky, které sdílejí stejnou sadu vztahů.[9] Na základě vztahů přiřazených k synsetům a jednotkám mohou nástroje pro zpracování přirozeného jazyka usuzovat na význam lemmatu, což je důležité například v slovní smysl disambiguation.
Vybrané substantivní vztahy[9]
Vztah | Test | Příklad |
---|---|---|
synonymie |
| {kot2; kot domowy1}, 'kočka, kočka domácí' |
synonymie mezi registracemi |
| {chłopiec1}, {gówniarz1}, 'boy, ~ sprat, squirt' |
hypo- / hypernymy |
| {buk1} jest rodzajem {drzewo liściaste1} , 'buk' je druh ‚Listnatý strom ' |
Mero- / holonymy |
| {poduszka powietrzna1} jest częścią {samochód1}, „Airbag“ je součástí 'auto' |
Polské synsety jsou spojeny s odpovídajícími syncetami Princeton WordNet se sadou interjazyčných lexiko-sémantických vztahů (jako například synonymie, částečná synonymie, hyponymy ). Doposud bylo zmapováno 91 578 synsetů (což představuje asi 2/3 syntezátorů plWordNet, mezi nimiž jsou hlavně podstatná jména).[10] Mapování umožňuje aplikaci plWordNet v strojový překlad, např. ve službě online nabízené společností Google Překladač.
Aplikace
plWordNet je k dispozici na webu otevřený přístup licence, umožňující bezplatné procházení. Uživatelům byla zpřístupněna ve formě online slovník, mobilní aplikace a webové služby. Některé aplikace plWordNet:
- budování a vývoj nástrojů pro automatické zpracování jazyka,
- slovní disambiguace (WSD),
- automatická klasifikace textů,
- strojový překlad,
- afázie léčba,
- Polsko-anglický a anglicko-polský slovník,
- Sémantický slovník polského jazyka,
- slovník synonyma a tezaurus,
- slovník antonyma.
Reference
- ^ A b http://plwordnet.pwr.wroc.pl/wordnet/about
- ^ Maziarz M., Piasecki M., Szpakowicz S., Blížící se plWordNet 2.0, http://nlp.pwr.wroc.pl/ltg/files/publications/paper%2042.pdf
- ^ http://nlp.pwr.wroc.pl/plwordnet/download/?lang=eng
- ^ Piasecki M., Szpakowicz S., Broda B., A Wordnet from the Ground Up, Wrocław 2009, s. 170, http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.pdf
- ^ A b Podrobné srovnávací statistiky plWN a PWN lze nalézt na webové stránce plWN: http://plwordnet.pwr.wroc.pl/wordnet/stats [přístup: 30.06.2014]
- ^ Rabiega-Wiśniewska J., Maziarz M., Piasecki M., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Rzeczownik, s. 4.
- ^ Hojka B., Maziarz M., Piasecki M., Rabiega-Wiśniewska J., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Czasownik, s. 15-16.
- ^ Maziarz M., Szpakowicz S., Piasecki M., Sémantické vztahy mezi adjektivy v polském WordNetu 2.0: Nová sada vztahů, diskuse a hodnocení, kognitivní studia / Études Cognitives, t. 12, s. 149–179, 2012.
- ^ A b Maziarz M., Piasecki M., Szpakowicz S., Rabiega-Wiśniewska J., Semantic Relations Between Nouns in Polish Wordnet Grounded in Lexicographic and Semantic Tradition, Cognitive Studies / Études Cognitives, t, 11, s. 161-181, 2011.
- ^ http://plwordnet.pwr.wroc.pl/wordnet/stats [přístup: 30.05.2014]