ROZŠÍŘENÁ WordNet - EXtended WordNet
![]() | Téma tohoto článku nemusí splňovat požadavky Wikipedie obecný pokyn k notabilitě.Srpna 2010) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
The rozšířený WordNet je projekt v University of Texas v Dallasu (a financováno Národní vědecká nadace ), jehož cílem je zlepšit WordNet sémantickou analýzou souboru lesky, čímž zpřístupní informace obsažené v těchto definicích pro systémy automatického zpracování znalostí. Je volně dostupný pod a Licence typu BSD. Ačkoli nebyl od listopadu 2004 aktualizován (nejnovější verze je založena na WordNet 2.0), stále zůstává užitečným zdrojem.
Formát databáze
Databáze je k dispozici jako sada čtyř XML soubory - každý po jednom slovesa, příslovce, podstatná jména a přídavná jména. Z lesků jsou získány následující informace:
Jako příklad jsou k dispozici následující informace synset vynikající, prvotřídní, fantastický:
Lesk:
té nejvyšší kvality
Slovní disambiguace:
pos ="V" >z</wf> pos =„DT“ >the</wf> pos =„JJS“ lemma ="nejvyšší" kvalita ="normální" wnsn ="1" >nejvyšší</wf> pos =„NN“ lemma ="kvalitní" kvalita ="normální" wnsn ="2" >kvalitní</wf>
Analyzovat strom:
(TOP (S (NP (JJ vynikající)) (VP (VBZ je) (NP (NP (něco NN))) (PP (IN z) (NP (DT the) (nejvyšší JJS) (kvalita NN))))) (..)))
Logická forma:
vynikající: JJ (x1) -> z: IN (x1, x2) nejvyšší: JJ (x2) kvalita: NN (x2)
Kvalita dat
Každý lesk je první označeno použitím Brill's tagger. Lesky se poté analyzují pomocí obou Charniak analyzátor a interní Collins ' analyzátor stylu. Každému analyzovanému lesku je poté přiřazena úroveň kvality:
- Zlato: ty, které byly ručně zkontrolovány
- Stříbro: ty, kde oba analyzátory vyprodukovaly stejný výstup
- Normální: ty, kde byly vytvořeny různé výstupy - v těchto situacích se používá výstup interního analyzátoru
Reference
externí odkazy
Stránka momentálně není k dispozici