Extrakce znalostí - Knowledge extraction
Extrakce znalostí je vytvoření znalost ze strukturovaného (relační databáze, XML ) a nestrukturované (text, dokumenty, snímky ) Zdroje. Výsledné znalosti musí být ve strojově čitelném a strojově interpretovatelném formátu a musí představují znalosti způsobem, který usnadňuje odvozování. I když je metodicky podobný extrakce informací (NLP ) a ETL (datový sklad), hlavním kritériem je, že výsledek extrakce jde nad rámec vytváření strukturovaných informací nebo transformace na relační schéma. Vyžaduje buď opětovné použití stávajících formální znalosti (opětovné použití identifikátorů nebo ontologie ) nebo generování schématu na základě zdrojových dat.
Skupina RDB2RDF W3C [1] v současné době standardizuje jazyk pro extrakci rámce popisu zdrojů (RDF) z relační databáze. Dalším populárním příkladem extrakce znalostí je transformace Wikipedie na strukturovaná data a také mapování na stávající znalost (vidět DBpedia a Freebase ).
Přehled
Po standardizaci jazyků reprezentace znalostí jako např RDF a SOVA, bylo v této oblasti provedeno mnoho výzkumů, zejména pokud jde o transformaci relačních databází do RDF, rozlišení identity, objevování znalostí a učení ontologie. Obecný proces používá tradiční metody z extrakce informací a extrahovat, transformovat a načíst (ETL), které transformují data ze zdrojů do strukturovaných formátů.
K kategorizaci přístupů v tomto tématu lze použít následující kritéria (některá z nich zohledňují pouze extrakci z relačních databází):[2]
Zdroj | Které zdroje dat jsou zahrnuty: Text, Relační databáze, XML, CSV |
---|---|
Expozice | Jak jsou extrahované znalosti explicitní (ontologický soubor, sémantická databáze)? Jak to můžete zjistit? |
Synchronizace | Je proces extrakce znalostí proveden jednou za účelem vytvoření výpisu nebo je výsledek synchronizován se zdrojem? Statické nebo dynamické. Jsou změny výsledku zapsány zpět (obousměrně) |
Opětovné použití slovníků | Tento nástroj je schopen znovu použít stávající slovníky při extrakci. Například sloupec tabulky 'firstName' lze namapovat na foaf: firstName. Některé automatické přístupy nejsou schopné mapovat vocab. |
Automatizace | Míra asistence / automatizace extrakce. Manuální, GUI, poloautomatické, automatické. |
Vyžaduje doménovou ontologii | K mapování je potřeba již existující ontologie. Buď je vytvořeno mapování, nebo se schéma učí ze zdroje (učení ontologie ). |
Příklady
Propojení entit
- DBpedia Spotlight, OpenCalais, Pampeliška dataTXT, Zemanta API, Extrakt a PoolParty Extractor analyzovat volný text přes uznání pojmenované entity a poté disambiguates kandidáty přes rozlišení jmen a propojí nalezené entity s DBpedia úložiště znalostí[3] (Pampeliška dataTXT demo nebo Webová ukázka DBpedia Spotlight nebo Demonstrace PoolParty Extractor ).
Prezident Obama zavolal ve středu Kongres prodloužit daňovou úlevu pro studenty zahrnuté do loňského balíčku ekonomických stimulů s argumentem, že tato politika poskytuje velkorysější pomoc.
- Jako prezident Obama je spojen s DBpedia LinkedData zdroj, lze automaticky získat další informace a Sémantický rozum může například odvodit, že uvedená entita je typu Osoba (použitím FOAF (software) ) a typu Prezidenti Spojených států (použitím YAGO ). Příklady čítačů: Metody, které rozpoznávají pouze entity nebo odkazují na články z Wikipedie a další cíle, které neposkytují další získávání strukturovaných dat a formální znalosti.
Relační databáze k RDF
- Ztrojnásobit, D2R Server, Ultraobal, a Virtuos RDF Views jsou nástroje, které transformují relační databáze na RDF. Během tohoto procesu umožňují opětovné použití existujících slovníků a ontologie během procesu převodu. Při transformaci typické relační tabulky s názvem uživatelů, jeden sloupec (např.název) nebo agregace sloupců (např.jméno a příjmení) musí poskytnout URI vytvořené entity. Obvykle se používá primární klíč. Každý další sloupec lze extrahovat jako vztah s touto entitou.[4] Poté se k interpretaci informací použijí (a znovu použijí) vlastnosti s formálně definovanou sémantikou. Například sloupec v uživatelské tabulce s názvem ženatý lze definovat jako symetrický vztah a sloup domovská stránka lze převést na vlastnost z Slovník FOAF volala foaf: domovská stránka, což jej kvalifikuje jako inverzní funkční vlastnost. Pak každý záznam uživatel tabulka může být vytvořena jako instance třídy foaf: Osoba (Ontologická populace). dodatečně znalost domény (ve formě ontologie) lze vytvořit z status_id, buď ručně vytvořenými pravidly (pokud status_id je 2, záznam patří do třídy Učitel) nebo (částečně) automatizovanými metodami (učení ontologie ). Zde je příklad transformace:
název | ženatý | domovská stránka | status_id |
---|---|---|---|
Petr | Mary | http://example.org/stranka_peters[trvalý mrtvý odkaz ] | 1 |
Claus | Eva | http://example.org/Claus_page[trvalý mrtvý odkaz ] | 2 |
:Petr:ženatý:Mary.:ženatýAsova:SymmetricProperty.:Petrfoaf:domovská stránka<http://example.org/Peters_page>.:PetrAfoaf:Osoba.:PetrA:Student.:ClausA:Učitel.
Extrakce ze strukturovaných zdrojů do RDF
1: 1 Mapování z tabulek / pohledů RDB na entity / atributy / hodnoty RDF
Při vytváření RDB reprezentace problémové domény je výchozím bodem často diagram vztahů mezi entitami (ERD). Každá entita je obvykle reprezentována jako databázová tabulka, každý atribut entity se stává sloupcem v této tabulce a vztahy mezi entitami jsou označeny cizími klíči. Každá tabulka obvykle definuje konkrétní třídu entit, každý sloupec jeden ze svých atributů. Každý řádek v tabulce popisuje instanci entity, jednoznačně identifikovanou primárním klíčem. Řádky tabulky společně popisují sadu entit. V ekvivalentní reprezentaci RDF stejné sady entit:
- Každý sloupec v tabulce je atribut (tj. Predikát)
- Každá hodnota sloupce je hodnota atributu (tj. Objekt)
- Každý klíč řádku představuje ID entity (tj. Předmět)
- Každý řádek představuje instanci entity
- Každý řádek (instance entity) je v RDF reprezentován kolekcí trojic se společným předmětem (ID entity).
Pro vykreslení ekvivalentního pohledu založeného na sémantice RDF by tedy základní algoritmus mapování byl následující:
- pro každou tabulku vytvořte třídu RDFS
- převést všechny primární klíče a cizí klíče na IRI
- přiřadit každému predikátu IRI
- přiřadit každému řádku predikát rdf: type a propojit jej s IRI třídy RDFS odpovídající tabulce
- pro každý sloupec, který není součástí primárního nebo cizího klíče, vytvořte trojici obsahující IRI primárního klíče jako předmět, sloupec IRI jako predikát a hodnotu sloupce jako objekt.
Včasné zmínky o tomto základním nebo přímém mapování lze nalézt v Tim Berners-Lee Srovnání ER model k modelu RDF.[4]
Komplexní mapování relačních databází na RDF
Výše zmíněné mapování 1: 1 odhaluje stará data jako RDF přímým způsobem, lze použít další vylepšení ke zlepšení užitečnosti výstupu RDF v příslušných případech použití. Normálně se informace ztratí během transformace diagramu entitních vztahů (ERD) na relační tabulky (podrobnosti najdete v nesoulad objektově-relační impedance ) a musí být reverzní inženýrství. Z koncepčního hlediska mohou přístupy k extrakci pocházet ze dvou směrů. První směr se pokusí extrahovat nebo se naučit schéma OWL z daného schématu databáze. Dřívější přístupy používaly pevné množství ručně vytvořených pravidel mapování k upřesnění mapování 1: 1.[5][6][7] Propracovanější metody využívají heuristiku nebo učící se algoritmy k vyvolání schematických informací (metody se překrývají s učení ontologie ). Zatímco některé přístupy se snaží extrahovat informace ze struktury vlastní schématu SQL[8] (analýza např. cizích klíčů), ostatní analyzují obsah a hodnoty v tabulkách a vytvářejí koncepční hierarchie[9] (např. sloupce s několika hodnotami jsou kandidáty na zařazení do kategorií). Druhý směr se pokouší mapovat schéma a jeho obsah na již existující doménovou ontologii (viz také: zarovnání ontologie ). Vhodná doménová ontologie však často neexistuje a je třeba ji nejprve vytvořit.
XML
Protože XML je strukturováno jako strom, lze libovolná data snadno reprezentovat v RDF, který je strukturován jako graf. XML2RDF je jedním příkladem přístupu, který používá prázdné uzly RDF a transformuje prvky a atributy XML na vlastnosti RDF. Téma je však složitější jako v případě relačních databází. V relační tabulce je primární klíč ideálním kandidátem na to, aby se stal předmětem extrahovaných trojic. Prvek XML však lze transformovat - v závislosti na kontextu - jako předmět, predikát nebo objekt trojnásobku. XSLT lze použít standardní transformační jazyk k ručnímu převodu XML na RDF.
Přehled metod / nástrojů
název | Zdroj dat | Expozice dat | Synchronizace dat | Mapovací jazyk | Opětovné použití slovní zásoby | Mapování Automat. | Požadavek Ontologie domény | Používá GUI |
---|---|---|---|---|---|---|---|---|
Přímé mapování relačních dat na RDF | Relační data | SPARQL / ETL | dynamický | N / A | Nepravdivé | automatický | Nepravdivé | Nepravdivé |
CSV2RDF4LOD | CSV | ETL | statický | RDF | skutečný | manuál | Nepravdivé | Nepravdivé |
CoNLL-RDF | TSV, CoNLL | Stream SPARQL / RDF | statický | žádný | skutečný | automatické (specifické pro doménu, pro případy použití v jazykové technologii, zachovává vztahy mezi řádky) | Nepravdivé | Nepravdivé |
Convert2RDF | Oddělený textový soubor | ETL | statický | RDF / DAML | skutečný | manuál | Nepravdivé | skutečný |
Server D2R | RDB | SPARQL | obousměrný | Mapa D2R | skutečný | manuál | Nepravdivé | Nepravdivé |
DartGrid | RDB | vlastní dotazovací jazyk | dynamický | Vizuální nástroj | skutečný | manuál | Nepravdivé | skutečný |
DataMaster | RDB | ETL | statický | proprietární | skutečný | manuál | skutečný | skutečný |
Rozšíření RDF Google Refine | CSV, XML | ETL | statický | žádný | poloautomatický | Nepravdivé | skutečný | |
Krextor | XML | ETL | statický | xslt | skutečný | manuál | skutečný | Nepravdivé |
MAPONTO | RDB | ETL | statický | proprietární | skutečný | manuál | skutečný | Nepravdivé |
METAmorphoses | RDB | ETL | statický | proprietární mapovací jazyk založený na XML | skutečný | manuál | Nepravdivé | skutečný |
MappingMaster | CSV | ETL | statický | MappingMaster | skutečný | GUI | Nepravdivé | skutečný |
ODEMapster | RDB | ETL | statický | proprietární | skutečný | manuál | skutečný | skutečný |
Plug-in importér CSV OntoWiki - DataCube & Tabular | CSV | ETL | statický | Slovník datových krychlí RDF | skutečný | poloautomatický | Nepravdivé | skutečný |
Poolparty Extraktor (PPX) | XML, text | LinkedData | dynamický | RDF (SKOS) | skutečný | poloautomatický | skutečný | Nepravdivé |
RDBToOnto | RDB | ETL | statický | žádný | Nepravdivé | automaticky, má uživatel navíc šanci doladit výsledky | Nepravdivé | skutečný |
RDF 123 | CSV | ETL | statický | Nepravdivé | Nepravdivé | manuál | Nepravdivé | skutečný |
RDOTE | RDB | ETL | statický | SQL | skutečný | manuál | skutečný | skutečný |
Relační.OWL | RDB | ETL | statický | žádný | Nepravdivé | automatický | Nepravdivé | Nepravdivé |
T2LD | CSV | ETL | statický | Nepravdivé | Nepravdivé | automatický | Nepravdivé | Nepravdivé |
Slovník datových krychlí RDF | Vícerozměrné statistické údaje v tabulkách | Slovník datových krychlí | skutečný | manuál | Nepravdivé | |||
Skladatel TopBraid | CSV | ETL | statický | SKOS | Nepravdivé | poloautomatický | Nepravdivé | skutečný |
Ztrojnásobit | RDB | LinkedData | dynamický | SQL | skutečný | manuál | Nepravdivé | Nepravdivé |
Ultraobal | RDB | SPARQL / ETL | dynamický | R2RML | skutečný | poloautomatický | Nepravdivé | skutečný |
Virtuózní zobrazení RDF | RDB | SPARQL | dynamický | Jazyk meta schématu | skutečný | poloautomatický | Nepravdivé | skutečný |
Virtuoso Sponger | strukturované a polostrukturované zdroje dat | SPARQL | dynamický | Virtuoso PL & XSLT | skutečný | poloautomatický | Nepravdivé | Nepravdivé |
VisAVis | RDB | RDQL | dynamický | SQL | skutečný | manuál | skutečný | skutečný |
XLWrap: Tabulka do RDF | CSV | ETL | statický | Syntaxe TriG | skutečný | manuál | Nepravdivé | Nepravdivé |
XML do RDF | XML | ETL | statický | Nepravdivé | Nepravdivé | automatický | Nepravdivé | Nepravdivé |
Extrakce ze zdrojů přirozeného jazyka
Největší část informací obsažených v obchodních dokumentech (asi 80%[10]) je zakódován v přirozeném jazyce, a proto nestrukturovaný. Protože nestrukturovaná data je spíše výzvou pro extrakci znalostí, jsou zapotřebí sofistikovanější metody, které mají obecně tendenci poskytovat horší výsledky ve srovnání se strukturovanými daty. Potenciál masivního získávání extrahovaných znalostí by však měl kompenzovat zvýšenou složitost a sníženou kvalitu extrakce. V následujícím textu jsou zdroje v přirozeném jazyce chápány jako zdroje informací, kde jsou data poskytována nestrukturovaným způsobem jako prostý text. Pokud je daný text dodatečně vložen do značkovacího dokumentu (např. Dokument HTML), uvedené systémy obvykle značkovací prvky automaticky odstraní.
Jazyková anotace / zpracování přirozeného jazyka (NLP)
Jako krok předzpracování k extrakci znalostí může být nutné provést jazykovou anotaci jednou nebo více NLP nástroje. Jednotlivé moduly v pracovním postupu NLP obvykle staví na formátech specifických pro nástroj pro vstup a výstup, ale v kontextu extrakce znalostí byly použity strukturované formáty pro reprezentaci jazykových anotací.
Mezi typické úkoly NLP související s extrakcí znalostí patří:
- značení části řeči (POS)
- lemmatizace (LEMMA) nebo pramenící (STEM)
- slovní disambiguace (WSD, související se sémantickou anotací níže)
- rozpoznávání pojmenovaných entit (NER, viz také IE níže)
- syntaktická analýza, často přijímá syntaktické závislosti (DEP)
- mělká syntaktická syntaktická analýza (CHUNK): pokud je problém s výkonem, chunking vede k rychlé extrakci nominálních a jiných frází
- rozlišení anafory (viz rozlišení koreference v IE níže, ale zde je vidět jako úkol vytvořit odkazy mezi textovými zmínkami spíše než mezi zmínkou o entitě a abstraktním vyjádřením entity)
- označení sémantické role (SRL, vztahující se k extrakci relací; nezaměňovat s významovou anotací, jak je popsáno níže)
- analýza diskurzu (vztahy mezi různými větami, zřídka používané v reálných aplikacích)
V NLP jsou taková data obvykle reprezentována ve formátech TSV (formáty CSV s TAB jako oddělovače), často označované jako formáty CoNLL. Pro pracovní postupy extrakce znalostí byly pohledy RDF na tato data vytvořeny v souladu s následujícími standardy komunity:
- Formát výměny NLP (NIF, pro mnoho častých typů anotací)[11][12]
- Webová anotace (WA, často se používá pro propojení entit)[13]
- CoNLL-RDF (pro anotace původně představované ve formátech TSV)[14][15]
Mezi další formáty specifické pro platformu patří
- LAPPS Interchange Format (LIF, použitý v LAPPS Grid)[16][17]
- Formát poznámek NLP (NAF, používaný v systému správy pracovního toku NewsReader)[18][19]
Tradiční extrakce informací (IE)
Tradiční extrakce informací [20] je technologie zpracování přirozeného jazyka, která extrahuje informace z typických textů přirozeného jazyka a vhodným způsobem je strukturuje. Před zahájením procesu musí být v modelu specifikovány druhy informací, které mají být identifikovány, a proto je celý proces tradiční extrakce informací závislý na doméně. IE je rozdělena do následujících pěti dílčích úkolů.
- Rozpoznání pojmenované entity (NE)
- Rozlišení koreference (CO)
- Konstrukce prvku šablony (TE)
- Konstrukce relace šablony (TR)
- Výroba scénáře šablony (ST)
Úkolem uznání pojmenované entity je rozpoznat a kategorizovat všechny pojmenované entity obsažené v textu (přiřazení pojmenované entity k předem definované kategorii). Funguje to pomocí metod založených na gramatice nebo statistických modelů.
Rozlišení koreference identifikuje ekvivalentní entity, které byly rozpoznány NER, v textu. Existují dva relevantní druhy vztahu ekvivalence. První se týká vztahu mezi dvěma různými zastoupenými entitami (např. IBM Europe a IBM) a druhý vztahu mezi entitou a jejich anaforické odkazy (např. to a IBM). Oba druhy lze rozpoznat podle rozlišení koreference.
Během konstrukce prvku šablony systém IE identifikuje popisné vlastnosti entit, které jsou rozpoznávány NER a CO. Tyto vlastnosti odpovídají běžným vlastnostem, jako je červená nebo velká.
Konstrukce relace šablony identifikuje vztahy, které existují mezi prvky šablony. Tyto vztahy mohou být několika druhů, jako jsou Works-For nebo Local-In, s omezením, že doména i rozsah odpovídají entitám.
V scénáři šablony budou výrobní události, které jsou popsány v textu, identifikovány a strukturovány s ohledem na entity, které jsou uznány NER a CO a vztahy, které jsou identifikovány TR.
Extrakce informací na základě ontologie (OBIE)
Extrakce informací na základě ontologie [10] je podpole extrakce informací, s níž alespoň jeden ontologie slouží k vedení procesu extrakce informací z textu v přirozeném jazyce. Systém OBIE používá k identifikaci metody tradiční extrakce informací koncepty, instance a vztahy použitých ontologií v textu, které budou po procesu strukturovány do ontologie. Vstupní ontologie tedy tvoří model informací, které mají být extrahovány.
Ontologické učení (OL)
Učení ontologie je automatické nebo poloautomatické vytváření ontologií, včetně extrakce termínů odpovídající domény z textu přirozeného jazyka. Protože ruční vytváření ontologií je extrémně náročné na pracovní sílu a čas, je zde velká motivace k automatizaci procesu.
Sémantická anotace (SA)
Během sémantické anotace[21] text v přirozeném jazyce je rozšířen o metadata (často zastoupená v RDFa ), díky čemuž by měla být sémantika obsažených výrazů strojově srozumitelná. U tohoto procesu, který je obecně poloautomatický, se získávají znalosti v tom smyslu, že je navázáno spojení mezi lexikálními pojmy a například koncepty z ontologií. Získají se tak znalosti, jaký význam pojmu ve zpracovávaném kontextu byl zamýšlen, a proto je zakotven význam textu strojově čitelná data se schopností vyvodit závěry. Sémantická anotace je obvykle rozdělena do následujících dvou dílčích úkolů.
Na úrovni extrakce terminologie jsou z textu extrahovány lexikální termíny. Za tímto účelem určuje tokenizer nejprve hranice slov a řeší zkratky. Poté jsou termíny z textu, které odpovídají konceptu, extrahovány pomocí lexikonu specifického pro doménu, který je propojuje při propojování entit.
V propojení entit [22] spojení mezi extrahovanými lexikálními pojmy ze zdrojového textu a pojmy z ontologie nebo znalostní báze, jako je DBpedia Je založena. K tomu jsou koncepty kandidátů vhodně detekovány podle několika významů termínu pomocí lexikonu. Nakonec je analyzován kontext pojmů, aby se určila nejvhodnější disambiguace a přiřadil pojem správnému pojmu.
Všimněte si, že „sémantickou anotaci“ v kontextu extrakce znalostí nelze zaměňovat sémantická analýza jak je chápáno při zpracování přirozeného jazyka (také označované jako „sémantická anotace“): Sémantická analýza má za cíl úplnou strojově čitelnou reprezentaci přirozeného jazyka, zatímco sémantická anotace ve smyslu extrakce znalostí řeší jen její velmi základní aspekt.
Nástroje
Následující kritéria lze použít ke kategorizaci nástrojů, které extrahují znalosti z textu v přirozeném jazyce.
Zdroj | Které vstupní formáty lze nástrojem zpracovat (např. Prostý text, HTML nebo PDF)? |
Přístupové paradigma | Může nástroj dotazovat zdroj dat nebo vyžaduje celý výpis pro proces extrakce? |
Synchronizace dat | Je výsledek procesu extrakce synchronizován se zdrojem? |
Používá výstupní ontologii | Spojuje nástroj výsledek s ontologií? |
Automatizace mapování | Jak automatizovaný je proces extrakce (manuální, poloautomatický nebo automatický)? |
Vyžaduje ontologii | Potřebuje tento nástroj pro extrakci ontologii? |
Používá GUI | Nabízí tento nástroj grafické uživatelské rozhraní? |
Přístup | Který přístup (IE, OBIE, OL nebo SA) nástroj používá? |
Extrahované entity | Které typy entit (např. Pojmenované entity, koncepty nebo vztahy) lze nástrojem extrahovat? |
Aplikované techniky | Které techniky se používají (např. NLP, statistické metody, shlukování nebo strojové učení )? |
Výstupní model | Který model se používá k reprezentaci výsledku nástroje (např. RDF nebo OWL)? |
Podporované domény | Které domény jsou podporovány (např. Ekonomika nebo biologie)? |
Podporované jazyky | Které jazyky lze zpracovat (např. Anglicky nebo německy)? |
Následující tabulka charakterizuje některé nástroje pro extrakci znalostí ze zdrojů přirozeného jazyka.
název | Zdroj | Přístupové paradigma | Synchronizace dat | Používá výstupní ontologii | Automatizace mapování | Vyžaduje ontologii | Používá GUI | Přístup | Extrahované entity | Aplikované techniky | Výstupní model | Podporované domény | Podporované jazyky |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
[1] [23] | prostý text, HTML, XML, SGML | skládka | Ne | Ano | automatický | Ano | Ano | TJ | pojmenované entity, vztahy, události | jazyková pravidla | proprietární | nezávislé na doméně | Angličtina, španělština, arabština, čínština, indonéština |
AlchemyAPI [24] | prostý text, HTML | automatický | Ano | SA | vícejazyčný | ||||||||
ANNIE [25] | prostý text | skládka | Ano | Ano | TJ | algoritmy konečného stavu | vícejazyčný | ||||||
ASIUM [26] | prostý text | skládka | poloautomatický | Ano | OL | pojmy, hierarchie pojmů | NLP, shlukování | ||||||
Vyčerpávající těžba [27] | automatický | TJ | pojmenované entity, vztahy, události | NLP | |||||||||
Pampeliška API | prostý text, HTML, URL | ZBYTEK | Ne | Ne | automatický | Ne | Ano | SA | pojmenované entity, pojmy | statistické metody | JSON | nezávislé na doméně | vícejazyčný |
DBpedia Spotlight [28] | prostý text, HTML | výpis, SPARQL | Ano | Ano | automatický | Ne | Ano | SA | anotace ke každému slovu, anotace k non-stopwords | NLP, statistické metody, strojové učení | RDFa | nezávislé na doméně | Angličtina |
EntityClassifier.eu | prostý text, HTML | skládka | Ano | Ano | automatický | Ne | Ano | IE, OL, SA | anotace ke každému slovu, anotace k non-stopwords | gramatika založená na pravidlech | XML | nezávislé na doméně | Angličtina, němčina, holandština |
FRED [29] | prostý text | výpis, REST API | Ano | Ano | automatický | Ne | Ano | IE, OL, SA, návrhové vzory ontologie, sémantika rámce | (multi-) slovní anotace NIF nebo EarMark, predikáty, instance, kompoziční sémantika, taxonomie konceptů, rámce, sémantické role, perifrastické vztahy, události, modalita, čas, propojení entit, propojení událostí, sentiment | NLP, strojové učení, heuristická pravidla | RDF / OWL | nezávislé na doméně | Angličtina, ostatní jazyky překladem |
iDoklad [30] | HTML, PDF, DOC | SPARQL | Ano | Ano | OBIE | instance, hodnoty vlastností | NLP | osobní byznys | |||||
NetOwl Extractor [31] | prostý text, HTML, XML, SGML, PDF, MS Office | skládka | Ne | Ano | Automatický | Ano | Ano | TJ | pojmenované entity, vztahy, události | NLP | XML, JSON, RDF-OWL, další | více domén | Angličtina, arabština (zjednodušená a tradiční), francouzština, korejština, perština (perština a Dari), ruština, španělština |
OntoGen [32] | poloautomatický | Ano | OL | pojmy, hierarchie pojmů, non-taxonomické vztahy, instance | NLP, strojové učení, shlukování | ||||||||
Naučit se [33] | prostý text, HTML | skládka | Ne | Ano | automatický | Ano | Ne | OL | pojmy, hierarchie pojmů, instance | NLP, statistické metody | proprietární | nezávislé na doméně | Angličtina |
Načteno znovu | prostý text, HTML | skládka | Ne | Ano | automatický | Ano | Ne | OL | pojmy, hierarchie pojmů, instance | NLP, statistické metody | proprietární | nezávislé na doméně | Angličtina |
OntoSyphon [34] | HTML, PDF, DOC | výpis, dotazy vyhledávače | Ne | Ano | automatický | Ano | Ne | OBIE | pojmy, vztahy, instance | NLP, statistické metody | RDF | nezávislé na doméně | Angličtina |
ontoX [35] | prostý text | skládka | Ne | Ano | poloautomatický | Ano | Ne | OBIE | instance, hodnoty vlastností datového typu | heuristické metody | proprietární | nezávislé na doméně | nezávislý na jazyce |
OpenCalais | prostý text, HTML, XML | skládka | Ne | Ano | automatický | Ano | Ne | SA | anotace k entitám, anotace k událostem, anotace k faktům | NLP, strojové učení | RDF | nezávislé na doméně | Angličtina, francouzština, španělština |
PoolParty Extractor [36] | prostý text, HTML, DOC, ODT | skládka | Ne | Ano | automatický | Ano | Ano | OBIE | pojmenované entity, pojmy, vztahy, pojmy, které kategorizují text, obohacení | NLP, strojové učení, statistické metody | RDF, SOVA | nezávislé na doméně | Angličtina, němčina, španělština, francouzština |
Rosoka | prostý text, HTML, XML, SGML, PDF, MS Office | skládka | Ano | Ano | Automatický | Ne | Ano | TJ | extrakce pojmenované entity, rozlišení entity, extrakce vztahů, atributy, koncepty, multi-vektor analýza sentimentu, zeměpisné označení, jazyková identifikace | NLP, strojové učení | XML, JSON, POJO, RDF | více domén | Vícejazyčné více než 200 jazyků |
SCOOBIE | prostý text, HTML | skládka | Ne | Ano | automatický | Ne | Ne | OBIE | instance, hodnoty vlastností, typy RDFS | NLP, strojové učení | RDF, RDFa | nezávislé na doméně | Anglicky, německy |
SemTag [37][38] | HTML | skládka | Ne | Ano | automatický | Ano | Ne | SA | strojové učení | databázový záznam | nezávislé na doméně | nezávislý na jazyce | |
smart FIX | prostý text, HTML, PDF, DOC, e-mail | skládka | Ano | Ne | automatický | Ne | Ano | OBIE | pojmenované entity | NLP, strojové učení | proprietární | nezávislé na doméně | Angličtina, němčina, francouzština, holandština, polština |
Text2Onto [39] | prostý text, HTML, PDF | skládka | Ano | Ne | poloautomatický | Ano | Ano | OL | pojmy, hierarchie pojmů, non-taxonomické vztahy, instance, axiomy | NLP, statistické metody, strojové učení, metody založené na pravidlech | SOVA | nezávislý na doméně | Angličtina, němčina, španělština |
Převod textu na to [40] | prostý text, HTML, PDF, PostScript | skládka | poloautomatický | Ano | Ano | OL | pojmy, hierarchie pojmů, non-taxonomické vztahy, lexikální entity odkazující na pojmy, lexikální entity odkazující na vztahy | NLP, strojové učení, shlukování, statistické metody | Němec | ||||
To jehla | Prostý text | skládka | automatický | Ne | pojmy, vztahy, hierarchie | NLP, proprietární | JSON | více domén | Angličtina | ||||
Wiki Machine [41] | prostý text, HTML, PDF, DOC | skládka | Ne | Ano | automatický | Ano | Ano | SA | anotace k podstatným jménům, anotace k běžným podstatným jménům | strojové učení | RDFa | nezávislé na doméně | Angličtina, němčina, španělština, francouzština, portugalština, italština, ruština |
ThingFinder [42] | TJ | pojmenované entity, vztahy, události | vícejazyčný |
Objevování znalostí
Objev znalostí popisuje proces automatického hledání velkých objemů data pro vzory, které lze zvážit znalost o data.[43] To je často popisováno jako odvození znalosti ze vstupních dat. Objevování znalostí se vyvinulo z dolování dat doména a úzce s ní úzce souvisí jak metodicky, tak terminologicky.[44]
Nejznámější odvětví dolování dat je objevování znalostí, také známé jako objevování znalostí v databázích (KDD). Stejně jako mnoho dalších forem objevování znalostí, které vytváří abstrakce vstupních údajů. The znalost získané procesem se mohou stát dalšími data které lze použít pro další použití a objevování. Výsledky objevování znalostí často nelze uplatnit, užitečné objevování znalostí, také známý jako dolování dat na základě domén,[45] si klade za cíl objevit a poskytnout užitečné znalosti a postřehy.
Další slibnou aplikací objevování znalostí je oblast modernizace softwaru, zjišťování slabosti a dodržování předpisů, které zahrnuje porozumění stávajícím softwarovým artefaktům. Tento proces souvisí s konceptem reverzní inženýrství. Znalosti získané ze stávajícího softwaru jsou obvykle prezentovány ve formě modelů, na které lze v případě potřeby položit konkrétní dotazy. An vztah entity je častým formátem reprezentace znalostí získaných ze stávajícího softwaru. Skupina pro správu objektů (OMG) vyvinul specifikaci Znalostní objev metamodel (KDM), která definuje ontologii softwarových aktiv a jejich vztahů za účelem provádění zjišťování znalostí ve stávajícím kódu. Získávání znalostí ze stávajících softwarových systémů, také známých jako těžba softwaru úzce souvisí s dolování dat, protože stávající softwarové artefakty obsahují enormní hodnotu pro řízení rizik a obchodní hodnota, klíč pro hodnocení a vývoj softwarových systémů. Místo těžby jednotlivce datové sady, těžba softwaru soustředí se na metadata, jako jsou procesní toky (např. datové toky, kontrolní toky a mapy volání), architektura, databázová schémata a obchodní pravidla / podmínky / proces.
Vstupní data
Výstupní formáty
- Datový model
- Metadata
- Metamodely
- Ontologie
- Reprezentace znalostí
- Znalostní značky
- Obchodní pravidlo
- Znalostní objev metamodel (KDM)
- Notace modelování podnikových procesů (BPMN)
- Mezilehlé zastoupení
- Rámec popisu zdrojů (RDF)
- Softwarové metriky
Viz také
Reference
- ^ Pracovní skupina RDB2RDF, web: http://www.w3.org/2001/sw/rdb2rdf/, charter: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: Jazyk mapování RDB na RDF: http://www.w3.org/TR/r2rml/
- ^ Výstup LOD2 EU 3.1.1 Extrakce znalostí ze strukturovaných zdrojů http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf Archivováno 2011-08-27 na Wayback Machine
- ^ „Život v propojeném datovém cloudu“. www.opencalais.com. Archivovány od originál dne 24. 11. 2009. Citováno 2009-11-10.
Wikipedia má dvojče propojených dat s názvem DBpedia. DBpedia má stejné strukturované informace jako Wikipedia - ale přeložené do strojově čitelného formátu.
- ^ A b Tim Berners-Lee (1998), „Relační databáze na sémantickém webu“. Citováno: 20. února 2011.
- ^ Hu a kol. (2007), „Discovering Simple Mappings Between Relational Database Schemas and Ontologies“, In Proc. 6. mezinárodní konference o sémantickém webu (ISWC 2007), 2. asijská konference o sémantickém webu (ASWC 2007), LNCS 4825, strany 225-238, Busan, Korea, 11. - 15. listopadu 2007. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
- ^ R. Ghawi a N. Cullot (2007), „Generování mapování databáze na ontologii pro sémantickou interoperabilitu“. Ve třetím mezinárodním semináři o interoperabilitě databází (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
- ^ Li a kol. (2005) „Poloautomatická metoda získávání ontologie pro sémantický web“, WAIM, svazek 3739 přednášek z informatiky, strana 209-220. Springer. doi:10.1007/11563952_19
- ^ Tirmizi a kol. (2008), „Translations SQL Applications to the Semantic Web“, Lecture Notes in Computer Science, Volume 5181/2008 (Database and Expert Systems Applications). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
- ^ Farid Cerbah (2008). „Learning Highly Structured Semantic Repositories from Relational Databases“, The Semantic Web: Research and Applications, volume 5021 of Lecture Notes in Computer Science, Springer, Berlin / Heidelberg http://www.tao-project.eu/resources/publications/cerbah-learning-highly-structured-semantic-repositories-from-relational-databases.pdf Archivováno 2011-07-20 na Wayback Machine
- ^ A b Wimalasuriya, Daya C .; Dou, Dejing (2010). "Extrakce informací na základě ontologie: Úvod a průzkum současných přístupů", Journal of Information Science, 36 (3), s. 306 - 323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (vyvoláno: 18.06.2012).
- ^ „NLP Interchange Format (NIF) 2.0 - přehled a dokumentace“. persistence.uni-leipzig.org. Citováno 2020-06-05.
- ^ Hellmann, Sebastian; Lehmann, Jens; Auer, Sören; Brümmer, Martin (2013). Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (eds.). „Integrace NLP pomocí propojených dat“. Sémantický web - ISWC 2013. Přednášky z informatiky. Berlín, Heidelberg: Springer. 7908: 98–113. doi:10.1007/978-3-642-41338-4_7. ISBN 978-3-642-41338-4.
- ^ Verspoor, Karin; Livingston, Kevin (červenec 2012). „Směrem k adaptaci lingvistických anotací na formální formáty anotací na sémantickém webu“. Proceedings of the Sixth Linguistic Annotation Workshop. Jeju, Korejská republika: Sdružení pro výpočetní lingvistiku: 75–84.
- ^ acoli-repo / conll-rdf, ACoLi, 2020-05-27, vyvoláno 2020-06-05
- ^ Chiarcos, Christian; Fäth, Christian (2017). Gracia, Jorge; Bond, Francis; McCrae, John P .; Buitelaar, Paul; Chiarcos, Christian; Hellmann, Sebastian (eds.). „CoNLL-RDF: Propojené korpusy vytvořené způsobem vstřícným k NLP“. Jazyk, data a znalosti. Přednášky z informatiky. Cham: Springer International Publishing. 10318: 74–88. doi:10.1007/978-3-319-59888-8_6. ISBN 978-3-319-59888-8.
- ^ Verhagen, Marc; Suderman, Keith; Wang, Di; Ide, Nancy; Shi, Chunqi; Wright, Jonathan; Pustejovsky, James (2016). Murakami, Yohei; Lin, Donghui (eds.). „Formát výměny LAPPS“. Celosvětová infrastruktura jazykových služeb. Přednášky z informatiky. Cham: Springer International Publishing. 9442: 33–47. doi:10.1007/978-3-319-31468-6_3. ISBN 978-3-319-31468-6.
- ^ „The Language Application Grid | Platforma webových služeb pro vývoj a výzkum zpracování přirozeného jazyka“. Citováno 2020-06-05.
- ^ hlasatel / NAF, NewsReader, 2020-05-25, vyvoláno 2020-06-05
- ^ Vossen, Piek; Agerri, Rodrigo; Aldabe, Itziar; Cybulska, Agata; van Erp, Marieke; Fokkens, Antske; Laparra, Egoitz; Minard, Anne-Lyse; Palmero Aprosio, Alessio; Rigau, Němec; Rospocher, Marco (2016-10-15). „NewsReader: Využívání znalostních zdrojů ve vícejazyčném čtecím stroji k získávání dalších znalostí z masivních proudů zpráv“. Znalostní systémy. 110: 60–85. doi:10.1016 / j.knosys.2016.07.013. ISSN 0950-7051.
- ^ Cunningham, Hamish (2005). "Extrakce informací, automaticky", Encyklopedie jazyka a lingvistiky, 2, s. 665 - 677, http://gate.ac.uk/sale/ell2/ie/main.pdf (vyvoláno: 18.06.2012).
- ^ Erdmann, M .; Maedche, Alexander; Schnurr, H.-P .; Staab, Steffen (2000). "From Manual to Semi-automatic Semantic Annotation: About Ontology-based Text Annotation Tools", Sborník COLING, http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf (vyvoláno: 18.06.2012).
- ^ Rao, Delip; McNamee, Paul; Dredze, Mark (2011). "Propojování entit: Hledání extrahovaných entit ve znalostní databázi", Vícezdrojová, vícejazyčná extrakce a shrnutí informací, http://www.cs.jhu.edu/~delip/entity-linking.pdf[trvalý mrtvý odkaz ] (vyvoláno: 18.06.2012).
- ^ Rocket Software, Inc. (2012). "technologie pro získávání zpravodajských informací z textu", http://www.rocketsoftware.com/products/aerotext Archivováno 21. 06. 2013 na Wayback Machine (vyvoláno: 18.06.2012).
- ^ Orchestr8 (2012): „AlchemyAPI Overview“, http://www.alchemyapi.com/api Archivováno 2016-05-13 na Wayback Machine (vyvoláno: 18.06.2012).
- ^ University of Sheffield (2011). "ANNIE: Téměř nový systém pro extrakci informací", http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (vyvoláno: 18.06.2012).
- ^ Síť excelence ILP. "ASIUM (LRI)", http://www-ai.ijs.si/~ilpnet2/systems/asium.html (vyvoláno: 18.06.2012).
- ^ Attitude (2012). "Vyčerpávající extrakce", http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ Archivováno 11.07.2012 na Wayback Machine (vyvoláno: 18.06.2012).
- ^ Mendes, Pablo N .; Jakob, Max; Garcia-Sílva, Andrés; Bizer; Christian (2011). "DBpedia Spotlight: Shining Light on the Web of Documents", Sborník ze 7. mezinárodní konference o sémantických systémech, str. 1 - 8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf Archivováno 05.04.2012 na Wayback Machine (vyvoláno: 18.06.2012).
- ^ Gangemi, Aldo; Presutti, Valentina; Reforgiato Recupero, Diego; Nuzzolese, Andrea Giovanni; Draicchio, Francesco; Mongiovì, Misael (2016). "Čtení sémantického webového stroje s FRED", Sémantický webový deník, doi: 10,3233 / SW-160240, http://www.semantic-web-journal.net/system/files/swj1379.pdf
- ^ Adrian, Benjamin; Maus, Heiko; Dengel, Andreas (2009). "iDocument: Using Ontologies for Extracting Information from Text", http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (vyvoláno: 18.06.2012).
- ^ SRA International, Inc. (2012). "NetOwl Extractor", http://www.sra.com/netowl/entity-extraction/ Archivováno 2012-09-24 na Wayback Machine (vyvoláno: 18.06.2012).
- ^ Fortuna, Blaz; Grobelnik, Marko; Mladenic, Dunja (2007). "OntoGen: Semi-automatic Ontology Editor", Sborník konference z roku 2007 o rozhraní člověka, část 2, str. 309 - 318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (vyvoláno: 18.06.2012).
- ^ Missikoff, Michele; Navigli, Roberto; Velardi, Paola (2002). "Integrovaný přístup k výuce a inženýrství webové ontologie", Počítač, 35 (11), s. 60 - 63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (vyvoláno: 18.06.2012).
- ^ McDowell, Luke K .; Cafarella, Michael (2006). "Ontology-driven Information Extraction with OntoSyphon", Sborník z 5. mezinárodní konference o Sémantickém webu, str. 428 - 444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (vyvoláno: 18.06.2012).
- ^ Yildiz, Burcu; Miksch, Silvia (2007). "ontoX - metoda pro extrakci informací na základě ontologie", Sborník příspěvků z mezinárodní konference 2007 o počítačové vědě a jejích aplikacích, 3, s. 660 - 673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (vyvoláno: 18.06.2012).
- ^ semanticweb.org (2011). "PoolParty Extractor", http://semanticweb.org/wiki/PoolParty_Extractor Archivováno 04.03.2016 na Wayback Machine (vyvoláno: 18.06.2012).
- ^ Dill, Stephen; Eiron, Nadav; Gibson, David; Gruhl, Daniel; Guha, R .; Jhingran, Anant; Kanungo, Tapas; Rajagopalan, Sridhar; Tomkins, Andrew; Tomlin, John A .; Zien, Jason Y. (2003). "SemTag and Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation", Sborník z 12. mezinárodní konference o World Wide Web, str. 178-186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (vyvoláno: 18.06.2012).
- ^ Uren, Victoria; Cimiano, Philipp; Iria, José; Handschuh, Siegfried; Vargas-Vera, Maria; Motta, Enrico; Ciravegna, Fabio (2006). "Semantic annotation for knowledge management: Requirements and a survey of the state of the art", Sémantika webu: Věda, služby a agenti v síti WWW, 4(1), p. 14 - 28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf[trvalý mrtvý odkaz ], (retrieved: 18.06.2012).
- ^ Cimiano, Philipp; Völker, Johanna (2005). "Text2Onto - A Framework for Ontology Learning and Data-Driven Change Discovery", Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems, 3513, p. 227 - 238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (retrieved: 18.06.2012).
- ^ Maedche, Alexander; Volz, Raphael (2001). "The Ontology Extraction & Maintenance Framework Text-To-Onto", Proceedings of the IEEE International Conference on Data Mining, http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (retrieved: 18.06.2012).
- ^ Machine Linking. "We connect to the Linked Open Data cloud", http://thewikimachine.fbk.eu/html/index.html Archivováno 2012-07-19 at the Wayback Machine (retrieved: 18.06.2012).
- ^ Inxight Federal Systems (2008). "Inxight ThingFinder and ThingFinder Professional", http://inxightfedsys.com/products/sdks/tf/ Archivováno 29. 06. 2012 na Wayback Machine (retrieved: 18.06.2012).
- ^ Frawley William. F. a kol. (1992), "Knowledge Discovery in Databases: An Overview", AI Magazine (Vol 13, No 3), 57-70 (online full version: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1011 Archivováno 04.03.2016 na Wayback Machine )
- ^ Fayyad U. et al. (1996), "From Data Mining to Knowledge Discovery in Databases", AI Magazine (Vol 17, No 3), 37-54 (online full version: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1230 Archivováno 2016-05-04 na Wayback Machine
- ^ Cao, L. (2010). "Domain driven data mining: challenges and prospects". Transakce IEEE na znalostní a datové inženýrství. 22 (6): 755–769. CiteSeerX 10.1.1.190.8427. doi:10.1109/tkde.2010.32. S2CID 17904603.