Extrakce znalostí - Knowledge extraction

Extrakce znalostí je vytvoření znalost ze strukturovaného (relační databáze, XML ) a nestrukturované (text, dokumenty, snímky ) Zdroje. Výsledné znalosti musí být ve strojově čitelném a strojově interpretovatelném formátu a musí představují znalosti způsobem, který usnadňuje odvozování. I když je metodicky podobný extrakce informací (NLP ) a ETL (datový sklad), hlavním kritériem je, že výsledek extrakce jde nad rámec vytváření strukturovaných informací nebo transformace na relační schéma. Vyžaduje buď opětovné použití stávajících formální znalosti (opětovné použití identifikátorů nebo ontologie ) nebo generování schématu na základě zdrojových dat.

Skupina RDB2RDF W3C ^[1] v současné době standardizuje jazyk pro extrakci rámce popisu zdrojů (RDF) z relační databáze. Dalším populárním příkladem extrakce znalostí je transformace Wikipedie na strukturovaná data a také mapování na stávající znalost (vidět DBpedia a Freebase ).

Přehled

Po standardizaci jazyků reprezentace znalostí jako např RDF a SOVA, bylo v této oblasti provedeno mnoho výzkumů, zejména pokud jde o transformaci relačních databází do RDF, rozlišení identity, objevování znalostí a učení ontologie. Obecný proces používá tradiční metody z extrakce informací a extrahovat, transformovat a načíst (ETL), které transformují data ze zdrojů do strukturovaných formátů.

K kategorizaci přístupů v tomto tématu lze použít následující kritéria (některá z nich zohledňují pouze extrakci z relačních databází):^[2]

Zdroj	Které zdroje dat jsou zahrnuty: Text, Relační databáze, XML, CSV
Expozice	Jak jsou extrahované znalosti explicitní (ontologický soubor, sémantická databáze)? Jak to můžete zjistit?
Synchronizace	Je proces extrakce znalostí proveden jednou za účelem vytvoření výpisu nebo je výsledek synchronizován se zdrojem? Statické nebo dynamické. Jsou změny výsledku zapsány zpět (obousměrně)
Opětovné použití slovníků	Tento nástroj je schopen znovu použít stávající slovníky při extrakci. Například sloupec tabulky 'firstName' lze namapovat na foaf: firstName. Některé automatické přístupy nejsou schopné mapovat vocab.
Automatizace	Míra asistence / automatizace extrakce. Manuální, GUI, poloautomatické, automatické.
Vyžaduje doménovou ontologii	K mapování je potřeba již existující ontologie. Buď je vytvořeno mapování, nebo se schéma učí ze zdroje (učení ontologie ).

Příklady

Propojení entit

DBpedia Spotlight, OpenCalais, Pampeliška dataTXT, Zemanta API, Extrakt a PoolParty Extractor analyzovat volný text přes uznání pojmenované entity a poté disambiguates kandidáty přes rozlišení jmen a propojí nalezené entity s DBpedia úložiště znalostí^[3] (Pampeliška dataTXT demo nebo Webová ukázka DBpedia Spotlight nebo Demonstrace PoolParty Extractor ).

Prezident Obama zavolal ve středu Kongres prodloužit daňovou úlevu pro studenty zahrnuté do loňského balíčku ekonomických stimulů s argumentem, že tato politika poskytuje velkorysější pomoc.

Jako prezident Obama je spojen s DBpedia LinkedData zdroj, lze automaticky získat další informace a Sémantický rozum může například odvodit, že uvedená entita je typu Osoba (použitím FOAF (software) ) a typu Prezidenti Spojených států (použitím YAGO ). Příklady čítačů: Metody, které rozpoznávají pouze entity nebo odkazují na články z Wikipedie a další cíle, které neposkytují další získávání strukturovaných dat a formální znalosti.

Relační databáze k RDF

Ztrojnásobit, D2R Server, Ultraobal, a Virtuos RDF Views jsou nástroje, které transformují relační databáze na RDF. Během tohoto procesu umožňují opětovné použití existujících slovníků a ontologie během procesu převodu. Při transformaci typické relační tabulky s názvem uživatelů, jeden sloupec (např.název) nebo agregace sloupců (např.jméno a příjmení) musí poskytnout URI vytvořené entity. Obvykle se používá primární klíč. Každý další sloupec lze extrahovat jako vztah s touto entitou.^[4] Poté se k interpretaci informací použijí (a znovu použijí) vlastnosti s formálně definovanou sémantikou. Například sloupec v uživatelské tabulce s názvem ženatý lze definovat jako symetrický vztah a sloup domovská stránka lze převést na vlastnost z Slovník FOAF volala foaf: domovská stránka, což jej kvalifikuje jako inverzní funkční vlastnost. Pak každý záznam uživatel tabulka může být vytvořena jako instance třídy foaf: Osoba (Ontologická populace). dodatečně znalost domény (ve formě ontologie) lze vytvořit z status_id, buď ručně vytvořenými pravidly (pokud status_id je 2, záznam patří do třídy Učitel) nebo (částečně) automatizovanými metodami (učení ontologie ). Zde je příklad transformace:

název	ženatý	domovská stránka	status_id
Petr	Mary	http://example.org/stranka_peters^{[trvalý mrtvý odkaz ]}	1
Claus	Eva	http://example.org/Claus_page^{[trvalý mrtvý odkaz ]}	2

:Petr:ženatý:Mary.:ženatýAsova:SymmetricProperty.:Petrfoaf:domovská stránka<http://example.org/Peters_page>.:PetrAfoaf:Osoba.:PetrA:Student.:ClausA:Učitel.

Extrakce ze strukturovaných zdrojů do RDF

1: 1 Mapování z tabulek / pohledů RDB na entity / atributy / hodnoty RDF

Při vytváření RDB reprezentace problémové domény je výchozím bodem často diagram vztahů mezi entitami (ERD). Každá entita je obvykle reprezentována jako databázová tabulka, každý atribut entity se stává sloupcem v této tabulce a vztahy mezi entitami jsou označeny cizími klíči. Každá tabulka obvykle definuje konkrétní třídu entit, každý sloupec jeden ze svých atributů. Každý řádek v tabulce popisuje instanci entity, jednoznačně identifikovanou primárním klíčem. Řádky tabulky společně popisují sadu entit. V ekvivalentní reprezentaci RDF stejné sady entit:

Každý sloupec v tabulce je atribut (tj. Predikát)
Každá hodnota sloupce je hodnota atributu (tj. Objekt)
Každý klíč řádku představuje ID entity (tj. Předmět)
Každý řádek představuje instanci entity
Každý řádek (instance entity) je v RDF reprezentován kolekcí trojic se společným předmětem (ID entity).

Pro vykreslení ekvivalentního pohledu založeného na sémantice RDF by tedy základní algoritmus mapování byl následující:

pro každou tabulku vytvořte třídu RDFS
převést všechny primární klíče a cizí klíče na IRI
přiřadit každému predikátu IRI
přiřadit každému řádku predikát rdf: type a propojit jej s IRI třídy RDFS odpovídající tabulce
pro každý sloupec, který není součástí primárního nebo cizího klíče, vytvořte trojici obsahující IRI primárního klíče jako předmět, sloupec IRI jako predikát a hodnotu sloupce jako objekt.

Včasné zmínky o tomto základním nebo přímém mapování lze nalézt v Tim Berners-Lee Srovnání ER model k modelu RDF.^[4]

Komplexní mapování relačních databází na RDF

Výše zmíněné mapování 1: 1 odhaluje stará data jako RDF přímým způsobem, lze použít další vylepšení ke zlepšení užitečnosti výstupu RDF v příslušných případech použití. Normálně se informace ztratí během transformace diagramu entitních vztahů (ERD) na relační tabulky (podrobnosti najdete v nesoulad objektově-relační impedance ) a musí být reverzní inženýrství. Z koncepčního hlediska mohou přístupy k extrakci pocházet ze dvou směrů. První směr se pokusí extrahovat nebo se naučit schéma OWL z daného schématu databáze. Dřívější přístupy používaly pevné množství ručně vytvořených pravidel mapování k upřesnění mapování 1: 1.^[5]^[6]^[7] Propracovanější metody využívají heuristiku nebo učící se algoritmy k vyvolání schematických informací (metody se překrývají s učení ontologie ). Zatímco některé přístupy se snaží extrahovat informace ze struktury vlastní schématu SQL^[8] (analýza např. cizích klíčů), ostatní analyzují obsah a hodnoty v tabulkách a vytvářejí koncepční hierarchie^[9] (např. sloupce s několika hodnotami jsou kandidáty na zařazení do kategorií). Druhý směr se pokouší mapovat schéma a jeho obsah na již existující doménovou ontologii (viz také: zarovnání ontologie ). Vhodná doménová ontologie však často neexistuje a je třeba ji nejprve vytvořit.

XML

Protože XML je strukturováno jako strom, lze libovolná data snadno reprezentovat v RDF, který je strukturován jako graf. XML2RDF je jedním příkladem přístupu, který používá prázdné uzly RDF a transformuje prvky a atributy XML na vlastnosti RDF. Téma je však složitější jako v případě relačních databází. V relační tabulce je primární klíč ideálním kandidátem na to, aby se stal předmětem extrahovaných trojic. Prvek XML však lze transformovat - v závislosti na kontextu - jako předmět, predikát nebo objekt trojnásobku. XSLT lze použít standardní transformační jazyk k ručnímu převodu XML na RDF.

Přehled metod / nástrojů

název	Zdroj dat	Expozice dat	Synchronizace dat	Mapovací jazyk	Opětovné použití slovní zásoby	Mapování Automat.	Požadavek Ontologie domény	Používá GUI
Přímé mapování relačních dat na RDF	Relační data	SPARQL / ETL	dynamický	N / A	Nepravdivé	automatický	Nepravdivé	Nepravdivé
CSV2RDF4LOD	CSV	ETL	statický	RDF	skutečný	manuál	Nepravdivé	Nepravdivé
CoNLL-RDF	TSV, CoNLL	Stream SPARQL / RDF	statický	žádný	skutečný	automatické (specifické pro doménu, pro případy použití v jazykové technologii, zachovává vztahy mezi řádky)	Nepravdivé	Nepravdivé
Convert2RDF	Oddělený textový soubor	ETL	statický	RDF / DAML	skutečný	manuál	Nepravdivé	skutečný
Server D2R	RDB	SPARQL	obousměrný	Mapa D2R	skutečný	manuál	Nepravdivé	Nepravdivé
DartGrid	RDB	vlastní dotazovací jazyk	dynamický	Vizuální nástroj	skutečný	manuál	Nepravdivé	skutečný
DataMaster	RDB	ETL	statický	proprietární	skutečný	manuál	skutečný	skutečný
Rozšíření RDF Google Refine	CSV, XML	ETL	statický	žádný		poloautomatický	Nepravdivé	skutečný
Krextor	XML	ETL	statický	xslt	skutečný	manuál	skutečný	Nepravdivé
MAPONTO	RDB	ETL	statický	proprietární	skutečný	manuál	skutečný	Nepravdivé
METAmorphoses	RDB	ETL	statický	proprietární mapovací jazyk založený na XML	skutečný	manuál	Nepravdivé	skutečný
MappingMaster	CSV	ETL	statický	MappingMaster	skutečný	GUI	Nepravdivé	skutečný
ODEMapster	RDB	ETL	statický	proprietární	skutečný	manuál	skutečný	skutečný
Plug-in importér CSV OntoWiki - DataCube & Tabular	CSV	ETL	statický	Slovník datových krychlí RDF	skutečný	poloautomatický	Nepravdivé	skutečný
Poolparty Extraktor (PPX)	XML, text	LinkedData	dynamický	RDF (SKOS)	skutečný	poloautomatický	skutečný	Nepravdivé
RDBToOnto	RDB	ETL	statický	žádný	Nepravdivé	automaticky, má uživatel navíc šanci doladit výsledky	Nepravdivé	skutečný
RDF 123	CSV	ETL	statický	Nepravdivé	Nepravdivé	manuál	Nepravdivé	skutečný
RDOTE	RDB	ETL	statický	SQL	skutečný	manuál	skutečný	skutečný
Relační.OWL	RDB	ETL	statický	žádný	Nepravdivé	automatický	Nepravdivé	Nepravdivé
T2LD	CSV	ETL	statický	Nepravdivé	Nepravdivé	automatický	Nepravdivé	Nepravdivé
Slovník datových krychlí RDF	Vícerozměrné statistické údaje v tabulkách			Slovník datových krychlí	skutečný	manuál	Nepravdivé
Skladatel TopBraid	CSV	ETL	statický	SKOS	Nepravdivé	poloautomatický	Nepravdivé	skutečný
Ztrojnásobit	RDB	LinkedData	dynamický	SQL	skutečný	manuál	Nepravdivé	Nepravdivé
Ultraobal	RDB	SPARQL / ETL	dynamický	R2RML	skutečný	poloautomatický	Nepravdivé	skutečný
Virtuózní zobrazení RDF	RDB	SPARQL	dynamický	Jazyk meta schématu	skutečný	poloautomatický	Nepravdivé	skutečný
Virtuoso Sponger	strukturované a polostrukturované zdroje dat	SPARQL	dynamický	Virtuoso PL & XSLT	skutečný	poloautomatický	Nepravdivé	Nepravdivé
VisAVis	RDB	RDQL	dynamický	SQL	skutečný	manuál	skutečný	skutečný
XLWrap: Tabulka do RDF	CSV	ETL	statický	Syntaxe TriG	skutečný	manuál	Nepravdivé	Nepravdivé
XML do RDF	XML	ETL	statický	Nepravdivé	Nepravdivé	automatický	Nepravdivé	Nepravdivé

Extrakce ze zdrojů přirozeného jazyka

Největší část informací obsažených v obchodních dokumentech (asi 80%^[10]) je zakódován v přirozeném jazyce, a proto nestrukturovaný. Protože nestrukturovaná data je spíše výzvou pro extrakci znalostí, jsou zapotřebí sofistikovanější metody, které mají obecně tendenci poskytovat horší výsledky ve srovnání se strukturovanými daty. Potenciál masivního získávání extrahovaných znalostí by však měl kompenzovat zvýšenou složitost a sníženou kvalitu extrakce. V následujícím textu jsou zdroje v přirozeném jazyce chápány jako zdroje informací, kde jsou data poskytována nestrukturovaným způsobem jako prostý text. Pokud je daný text dodatečně vložen do značkovacího dokumentu (např. Dokument HTML), uvedené systémy obvykle značkovací prvky automaticky odstraní.

Jazyková anotace / zpracování přirozeného jazyka (NLP)

Jako krok předzpracování k extrakci znalostí může být nutné provést jazykovou anotaci jednou nebo více NLP nástroje. Jednotlivé moduly v pracovním postupu NLP obvykle staví na formátech specifických pro nástroj pro vstup a výstup, ale v kontextu extrakce znalostí byly použity strukturované formáty pro reprezentaci jazykových anotací.

Mezi typické úkoly NLP související s extrakcí znalostí patří:

značení části řeči (POS)
lemmatizace (LEMMA) nebo pramenící (STEM)
slovní disambiguace (WSD, související se sémantickou anotací níže)
rozpoznávání pojmenovaných entit (NER, viz také IE níže)
syntaktická analýza, často přijímá syntaktické závislosti (DEP)
mělká syntaktická syntaktická analýza (CHUNK): pokud je problém s výkonem, chunking vede k rychlé extrakci nominálních a jiných frází
rozlišení anafory (viz rozlišení koreference v IE níže, ale zde je vidět jako úkol vytvořit odkazy mezi textovými zmínkami spíše než mezi zmínkou o entitě a abstraktním vyjádřením entity)
označení sémantické role (SRL, vztahující se k extrakci relací; nezaměňovat s významovou anotací, jak je popsáno níže)
analýza diskurzu (vztahy mezi různými větami, zřídka používané v reálných aplikacích)

V NLP jsou taková data obvykle reprezentována ve formátech TSV (formáty CSV s TAB jako oddělovače), často označované jako formáty CoNLL. Pro pracovní postupy extrakce znalostí byly pohledy RDF na tato data vytvořeny v souladu s následujícími standardy komunity:

Formát výměny NLP (NIF, pro mnoho častých typů anotací)^[11]^[12]
Webová anotace (WA, často se používá pro propojení entit)^[13]
CoNLL-RDF (pro anotace původně představované ve formátech TSV)^[14]^[15]

Mezi další formáty specifické pro platformu patří

LAPPS Interchange Format (LIF, použitý v LAPPS Grid)^[16]^[17]
Formát poznámek NLP (NAF, používaný v systému správy pracovního toku NewsReader)^[18]^[19]

Tradiční extrakce informací (IE)

Tradiční extrakce informací ^[20] je technologie zpracování přirozeného jazyka, která extrahuje informace z typických textů přirozeného jazyka a vhodným způsobem je strukturuje. Před zahájením procesu musí být v modelu specifikovány druhy informací, které mají být identifikovány, a proto je celý proces tradiční extrakce informací závislý na doméně. IE je rozdělena do následujících pěti dílčích úkolů.

Rozpoznání pojmenované entity (NE)
Rozlišení koreference (CO)
Konstrukce prvku šablony (TE)
Konstrukce relace šablony (TR)
Výroba scénáře šablony (ST)

Úkolem uznání pojmenované entity je rozpoznat a kategorizovat všechny pojmenované entity obsažené v textu (přiřazení pojmenované entity k předem definované kategorii). Funguje to pomocí metod založených na gramatice nebo statistických modelů.

Rozlišení koreference identifikuje ekvivalentní entity, které byly rozpoznány NER, v textu. Existují dva relevantní druhy vztahu ekvivalence. První se týká vztahu mezi dvěma různými zastoupenými entitami (např. IBM Europe a IBM) a druhý vztahu mezi entitou a jejich anaforické odkazy (např. to a IBM). Oba druhy lze rozpoznat podle rozlišení koreference.

Během konstrukce prvku šablony systém IE identifikuje popisné vlastnosti entit, které jsou rozpoznávány NER a CO. Tyto vlastnosti odpovídají běžným vlastnostem, jako je červená nebo velká.

Konstrukce relace šablony identifikuje vztahy, které existují mezi prvky šablony. Tyto vztahy mohou být několika druhů, jako jsou Works-For nebo Local-In, s omezením, že doména i rozsah odpovídají entitám.

V scénáři šablony budou výrobní události, které jsou popsány v textu, identifikovány a strukturovány s ohledem na entity, které jsou uznány NER a CO a vztahy, které jsou identifikovány TR.

Extrakce informací na základě ontologie (OBIE)

Extrakce informací na základě ontologie ^[10] je podpole extrakce informací, s níž alespoň jeden ontologie slouží k vedení procesu extrakce informací z textu v přirozeném jazyce. Systém OBIE používá k identifikaci metody tradiční extrakce informací koncepty, instance a vztahy použitých ontologií v textu, které budou po procesu strukturovány do ontologie. Vstupní ontologie tedy tvoří model informací, které mají být extrahovány.

Ontologické učení (OL)

Učení ontologie je automatické nebo poloautomatické vytváření ontologií, včetně extrakce termínů odpovídající domény z textu přirozeného jazyka. Protože ruční vytváření ontologií je extrémně náročné na pracovní sílu a čas, je zde velká motivace k automatizaci procesu.

Sémantická anotace (SA)

Během sémantické anotace^[21] text v přirozeném jazyce je rozšířen o metadata (často zastoupená v RDFa ), díky čemuž by měla být sémantika obsažených výrazů strojově srozumitelná. U tohoto procesu, který je obecně poloautomatický, se získávají znalosti v tom smyslu, že je navázáno spojení mezi lexikálními pojmy a například koncepty z ontologií. Získají se tak znalosti, jaký význam pojmu ve zpracovávaném kontextu byl zamýšlen, a proto je zakotven význam textu strojově čitelná data se schopností vyvodit závěry. Sémantická anotace je obvykle rozdělena do následujících dvou dílčích úkolů.

Na úrovni extrakce terminologie jsou z textu extrahovány lexikální termíny. Za tímto účelem určuje tokenizer nejprve hranice slov a řeší zkratky. Poté jsou termíny z textu, které odpovídají konceptu, extrahovány pomocí lexikonu specifického pro doménu, který je propojuje při propojování entit.

V propojení entit ^[22] spojení mezi extrahovanými lexikálními pojmy ze zdrojového textu a pojmy z ontologie nebo znalostní báze, jako je DBpedia Je založena. K tomu jsou koncepty kandidátů vhodně detekovány podle několika významů termínu pomocí lexikonu. Nakonec je analyzován kontext pojmů, aby se určila nejvhodnější disambiguace a přiřadil pojem správnému pojmu.

Všimněte si, že „sémantickou anotaci“ v kontextu extrakce znalostí nelze zaměňovat sémantická analýza jak je chápáno při zpracování přirozeného jazyka (také označované jako „sémantická anotace“): Sémantická analýza má za cíl úplnou strojově čitelnou reprezentaci přirozeného jazyka, zatímco sémantická anotace ve smyslu extrakce znalostí řeší jen její velmi základní aspekt.

Nástroje

Následující kritéria lze použít ke kategorizaci nástrojů, které extrahují znalosti z textu v přirozeném jazyce.

Zdroj	Které vstupní formáty lze nástrojem zpracovat (např. Prostý text, HTML nebo PDF)?
Přístupové paradigma	Může nástroj dotazovat zdroj dat nebo vyžaduje celý výpis pro proces extrakce?
Synchronizace dat	Je výsledek procesu extrakce synchronizován se zdrojem?
Používá výstupní ontologii	Spojuje nástroj výsledek s ontologií?
Automatizace mapování	Jak automatizovaný je proces extrakce (manuální, poloautomatický nebo automatický)?
Vyžaduje ontologii	Potřebuje tento nástroj pro extrakci ontologii?
Používá GUI	Nabízí tento nástroj grafické uživatelské rozhraní?
Přístup	Který přístup (IE, OBIE, OL nebo SA) nástroj používá?
Extrahované entity	Které typy entit (např. Pojmenované entity, koncepty nebo vztahy) lze nástrojem extrahovat?
Aplikované techniky	Které techniky se používají (např. NLP, statistické metody, shlukování nebo strojové učení )?
Výstupní model	Který model se používá k reprezentaci výsledku nástroje (např. RDF nebo OWL)?
Podporované domény	Které domény jsou podporovány (např. Ekonomika nebo biologie)?
Podporované jazyky	Které jazyky lze zpracovat (např. Anglicky nebo německy)?

Následující tabulka charakterizuje některé nástroje pro extrakci znalostí ze zdrojů přirozeného jazyka.

název	Zdroj	Přístupové paradigma	Synchronizace dat	Používá výstupní ontologii	Automatizace mapování	Vyžaduje ontologii	Používá GUI	Přístup	Extrahované entity	Aplikované techniky	Výstupní model	Podporované domény	Podporované jazyky
[1] ^[23]	prostý text, HTML, XML, SGML	skládka	Ne	Ano	automatický	Ano	Ano	TJ	pojmenované entity, vztahy, události	jazyková pravidla	proprietární	nezávislé na doméně	Angličtina, španělština, arabština, čínština, indonéština
AlchemyAPI ^[24]	prostý text, HTML				automatický		Ano	SA					vícejazyčný
ANNIE ^[25]	prostý text	skládka				Ano	Ano	TJ		algoritmy konečného stavu			vícejazyčný
ASIUM ^[26]	prostý text	skládka			poloautomatický		Ano	OL	pojmy, hierarchie pojmů	NLP, shlukování
Vyčerpávající těžba ^[27]					automatický			TJ	pojmenované entity, vztahy, události	NLP
Pampeliška API	prostý text, HTML, URL	ZBYTEK	Ne	Ne	automatický	Ne	Ano	SA	pojmenované entity, pojmy	statistické metody	JSON	nezávislé na doméně	vícejazyčný
DBpedia Spotlight ^[28]	prostý text, HTML	výpis, SPARQL	Ano	Ano	automatický	Ne	Ano	SA	anotace ke každému slovu, anotace k non-stopwords	NLP, statistické metody, strojové učení	RDFa	nezávislé na doméně	Angličtina
EntityClassifier.eu	prostý text, HTML	skládka	Ano	Ano	automatický	Ne	Ano	IE, OL, SA	anotace ke každému slovu, anotace k non-stopwords	gramatika založená na pravidlech	XML	nezávislé na doméně	Angličtina, němčina, holandština
FRED ^[29]	prostý text	výpis, REST API	Ano	Ano	automatický	Ne	Ano	IE, OL, SA, návrhové vzory ontologie, sémantika rámce	(multi-) slovní anotace NIF nebo EarMark, predikáty, instance, kompoziční sémantika, taxonomie konceptů, rámce, sémantické role, perifrastické vztahy, události, modalita, čas, propojení entit, propojení událostí, sentiment	NLP, strojové učení, heuristická pravidla	RDF / OWL	nezávislé na doméně	Angličtina, ostatní jazyky překladem
iDoklad ^[30]	HTML, PDF, DOC	SPARQL		Ano			Ano	OBIE	instance, hodnoty vlastností	NLP		osobní byznys
NetOwl Extractor ^[31]	prostý text, HTML, XML, SGML, PDF, MS Office	skládka	Ne	Ano	Automatický	Ano	Ano	TJ	pojmenované entity, vztahy, události	NLP	XML, JSON, RDF-OWL, další	více domén	Angličtina, arabština (zjednodušená a tradiční), francouzština, korejština, perština (perština a Dari), ruština, španělština
OntoGen ^[32]					poloautomatický		Ano	OL	pojmy, hierarchie pojmů, non-taxonomické vztahy, instance	NLP, strojové učení, shlukování
Naučit se ^[33]	prostý text, HTML	skládka	Ne	Ano	automatický	Ano	Ne	OL	pojmy, hierarchie pojmů, instance	NLP, statistické metody	proprietární	nezávislé na doméně	Angličtina
Načteno znovu	prostý text, HTML	skládka	Ne	Ano	automatický	Ano	Ne	OL	pojmy, hierarchie pojmů, instance	NLP, statistické metody	proprietární	nezávislé na doméně	Angličtina
OntoSyphon ^[34]	HTML, PDF, DOC	výpis, dotazy vyhledávače	Ne	Ano	automatický	Ano	Ne	OBIE	pojmy, vztahy, instance	NLP, statistické metody	RDF	nezávislé na doméně	Angličtina
ontoX ^[35]	prostý text	skládka	Ne	Ano	poloautomatický	Ano	Ne	OBIE	instance, hodnoty vlastností datového typu	heuristické metody	proprietární	nezávislé na doméně	nezávislý na jazyce
OpenCalais	prostý text, HTML, XML	skládka	Ne	Ano	automatický	Ano	Ne	SA	anotace k entitám, anotace k událostem, anotace k faktům	NLP, strojové učení	RDF	nezávislé na doméně	Angličtina, francouzština, španělština
PoolParty Extractor ^[36]	prostý text, HTML, DOC, ODT	skládka	Ne	Ano	automatický	Ano	Ano	OBIE	pojmenované entity, pojmy, vztahy, pojmy, které kategorizují text, obohacení	NLP, strojové učení, statistické metody	RDF, SOVA	nezávislé na doméně	Angličtina, němčina, španělština, francouzština
Rosoka	prostý text, HTML, XML, SGML, PDF, MS Office	skládka	Ano	Ano	Automatický	Ne	Ano	TJ	extrakce pojmenované entity, rozlišení entity, extrakce vztahů, atributy, koncepty, multi-vektor analýza sentimentu, zeměpisné označení, jazyková identifikace	NLP, strojové učení	XML, JSON, POJO, RDF	více domén	Vícejazyčné více než 200 jazyků
SCOOBIE	prostý text, HTML	skládka	Ne	Ano	automatický	Ne	Ne	OBIE	instance, hodnoty vlastností, typy RDFS	NLP, strojové učení	RDF, RDFa	nezávislé na doméně	Anglicky, německy
SemTag ^[37]^[38]	HTML	skládka	Ne	Ano	automatický	Ano	Ne	SA		strojové učení	databázový záznam	nezávislé na doméně	nezávislý na jazyce
smart FIX	prostý text, HTML, PDF, DOC, e-mail	skládka	Ano	Ne	automatický	Ne	Ano	OBIE	pojmenované entity	NLP, strojové učení	proprietární	nezávislé na doméně	Angličtina, němčina, francouzština, holandština, polština
Text2Onto ^[39]	prostý text, HTML, PDF	skládka	Ano	Ne	poloautomatický	Ano	Ano	OL	pojmy, hierarchie pojmů, non-taxonomické vztahy, instance, axiomy	NLP, statistické metody, strojové učení, metody založené na pravidlech	SOVA	nezávislý na doméně	Angličtina, němčina, španělština
Převod textu na to ^[40]	prostý text, HTML, PDF, PostScript	skládka			poloautomatický	Ano	Ano	OL	pojmy, hierarchie pojmů, non-taxonomické vztahy, lexikální entity odkazující na pojmy, lexikální entity odkazující na vztahy	NLP, strojové učení, shlukování, statistické metody			Němec
To jehla	Prostý text	skládka			automatický		Ne		pojmy, vztahy, hierarchie	NLP, proprietární	JSON	více domén	Angličtina
Wiki Machine ^[41]	prostý text, HTML, PDF, DOC	skládka	Ne	Ano	automatický	Ano	Ano	SA	anotace k podstatným jménům, anotace k běžným podstatným jménům	strojové učení	RDFa	nezávislé na doméně	Angličtina, němčina, španělština, francouzština, portugalština, italština, ruština
ThingFinder ^[42]								TJ	pojmenované entity, vztahy, události				vícejazyčný

Objevování znalostí

Objev znalostí popisuje proces automatického hledání velkých objemů data pro vzory, které lze zvážit znalost o data.^[43] To je často popisováno jako odvození znalosti ze vstupních dat. Objevování znalostí se vyvinulo z dolování dat doména a úzce s ní úzce souvisí jak metodicky, tak terminologicky.^[44]

Nejznámější odvětví dolování dat je objevování znalostí, také známé jako objevování znalostí v databázích (KDD). Stejně jako mnoho dalších forem objevování znalostí, které vytváří abstrakce vstupních údajů. The znalost získané procesem se mohou stát dalšími data které lze použít pro další použití a objevování. Výsledky objevování znalostí často nelze uplatnit, užitečné objevování znalostí, také známý jako dolování dat na základě domén,^[45] si klade za cíl objevit a poskytnout užitečné znalosti a postřehy.

Další slibnou aplikací objevování znalostí je oblast modernizace softwaru, zjišťování slabosti a dodržování předpisů, které zahrnuje porozumění stávajícím softwarovým artefaktům. Tento proces souvisí s konceptem reverzní inženýrství. Znalosti získané ze stávajícího softwaru jsou obvykle prezentovány ve formě modelů, na které lze v případě potřeby položit konkrétní dotazy. An vztah entity je častým formátem reprezentace znalostí získaných ze stávajícího softwaru. Skupina pro správu objektů (OMG) vyvinul specifikaci Znalostní objev metamodel (KDM), která definuje ontologii softwarových aktiv a jejich vztahů za účelem provádění zjišťování znalostí ve stávajícím kódu. Získávání znalostí ze stávajících softwarových systémů, také známých jako těžba softwaru úzce souvisí s dolování dat, protože stávající softwarové artefakty obsahují enormní hodnotu pro řízení rizik a obchodní hodnota, klíč pro hodnocení a vývoj softwarových systémů. Místo těžby jednotlivce datové sady, těžba softwaru soustředí se na metadata, jako jsou procesní toky (např. datové toky, kontrolní toky a mapy volání), architektura, databázová schémata a obchodní pravidla / podmínky / proces.

Vstupní data

Výstupní formáty

Viz také

Reference

^ Pracovní skupina RDB2RDF, web: http://www.w3.org/2001/sw/rdb2rdf/, charter: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: Jazyk mapování RDB na RDF: http://www.w3.org/TR/r2rml/
^ Výstup LOD2 EU 3.1.1 Extrakce znalostí ze strukturovaných zdrojů http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf Archivováno 2011-08-27 na Wayback Machine
^ „Život v propojeném datovém cloudu“. www.opencalais.com. Archivovány od originál dne 24. 11. 2009. Citováno 2009-11-10. Wikipedia má dvojče propojených dat s názvem DBpedia. DBpedia má stejné strukturované informace jako Wikipedia - ale přeložené do strojově čitelného formátu.
^ ^A ^b Tim Berners-Lee (1998), „Relační databáze na sémantickém webu“. Citováno: 20. února 2011.
^ Hu a kol. (2007), „Discovering Simple Mappings Between Relational Database Schemas and Ontologies“, In Proc. 6. mezinárodní konference o sémantickém webu (ISWC 2007), 2. asijská konference o sémantickém webu (ASWC 2007), LNCS 4825, strany 225-238, Busan, Korea, 11. - 15. listopadu 2007. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
^ R. Ghawi a N. Cullot (2007), „Generování mapování databáze na ontologii pro sémantickou interoperabilitu“. Ve třetím mezinárodním semináři o interoperabilitě databází (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
^ Li a kol. (2005) „Poloautomatická metoda získávání ontologie pro sémantický web“, WAIM, svazek 3739 přednášek z informatiky, strana 209-220. Springer. doi:10.1007/11563952_19
^ Tirmizi a kol. (2008), „Translations SQL Applications to the Semantic Web“, Lecture Notes in Computer Science, Volume 5181/2008 (Database and Expert Systems Applications). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
^ Farid Cerbah (2008). „Learning Highly Structured Semantic Repositories from Relational Databases“, The Semantic Web: Research and Applications, volume 5021 of Lecture Notes in Computer Science, Springer, Berlin / Heidelberg http://www.tao-project.eu/resources/publications/cerbah-learning-highly-structured-semantic-repositories-from-relational-databases.pdf Archivováno 2011-07-20 na Wayback Machine
^ ^A ^b Wimalasuriya, Daya C .; Dou, Dejing (2010). "Extrakce informací na základě ontologie: Úvod a průzkum současných přístupů", Journal of Information Science, 36 (3), s. 306 - 323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (vyvoláno: 18.06.2012).
^ „NLP Interchange Format (NIF) 2.0 - přehled a dokumentace“. persistence.uni-leipzig.org. Citováno 2020-06-05.
^ Hellmann, Sebastian; Lehmann, Jens; Auer, Sören; Brümmer, Martin (2013). Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (eds.). „Integrace NLP pomocí propojených dat“. Sémantický web - ISWC 2013. Přednášky z informatiky. Berlín, Heidelberg: Springer. 7908: 98–113. doi:10.1007/978-3-642-41338-4_7. ISBN 978-3-642-41338-4.
^ Verspoor, Karin; Livingston, Kevin (červenec 2012). „Směrem k adaptaci lingvistických anotací na formální formáty anotací na sémantickém webu“. Proceedings of the Sixth Linguistic Annotation Workshop. Jeju, Korejská republika: Sdružení pro výpočetní lingvistiku: 75–84.
^ acoli-repo / conll-rdf, ACoLi, 2020-05-27, vyvoláno 2020-06-05
^ Chiarcos, Christian; Fäth, Christian (2017). Gracia, Jorge; Bond, Francis; McCrae, John P .; Buitelaar, Paul; Chiarcos, Christian; Hellmann, Sebastian (eds.). „CoNLL-RDF: Propojené korpusy vytvořené způsobem vstřícným k NLP“. Jazyk, data a znalosti. Přednášky z informatiky. Cham: Springer International Publishing. 10318: 74–88. doi:10.1007/978-3-319-59888-8_6. ISBN 978-3-319-59888-8.
^ Verhagen, Marc; Suderman, Keith; Wang, Di; Ide, Nancy; Shi, Chunqi; Wright, Jonathan; Pustejovsky, James (2016). Murakami, Yohei; Lin, Donghui (eds.). „Formát výměny LAPPS“. Celosvětová infrastruktura jazykových služeb. Přednášky z informatiky. Cham: Springer International Publishing. 9442: 33–47. doi:10.1007/978-3-319-31468-6_3. ISBN 978-3-319-31468-6.
^ „The Language Application Grid | Platforma webových služeb pro vývoj a výzkum zpracování přirozeného jazyka“. Citováno 2020-06-05.
^ hlasatel / NAF, NewsReader, 2020-05-25, vyvoláno 2020-06-05
^ Vossen, Piek; Agerri, Rodrigo; Aldabe, Itziar; Cybulska, Agata; van Erp, Marieke; Fokkens, Antske; Laparra, Egoitz; Minard, Anne-Lyse; Palmero Aprosio, Alessio; Rigau, Němec; Rospocher, Marco (2016-10-15). „NewsReader: Využívání znalostních zdrojů ve vícejazyčném čtecím stroji k získávání dalších znalostí z masivních proudů zpráv“. Znalostní systémy. 110: 60–85. doi:10.1016 / j.knosys.2016.07.013. ISSN 0950-7051.
^ Cunningham, Hamish (2005). "Extrakce informací, automaticky", Encyklopedie jazyka a lingvistiky, 2, s. 665 - 677, http://gate.ac.uk/sale/ell2/ie/main.pdf (vyvoláno: 18.06.2012).
^ Erdmann, M .; Maedche, Alexander; Schnurr, H.-P .; Staab, Steffen (2000). "From Manual to Semi-automatic Semantic Annotation: About Ontology-based Text Annotation Tools", Sborník COLING, http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf (vyvoláno: 18.06.2012).
^ Rao, Delip; McNamee, Paul; Dredze, Mark (2011). "Propojování entit: Hledání extrahovaných entit ve znalostní databázi", Vícezdrojová, vícejazyčná extrakce a shrnutí informací, http://www.cs.jhu.edu/~delip/entity-linking.pdf^{[trvalý mrtvý odkaz ]} (vyvoláno: 18.06.2012).
^ Rocket Software, Inc. (2012). "technologie pro získávání zpravodajských informací z textu", http://www.rocketsoftware.com/products/aerotext Archivováno 21. 06. 2013 na Wayback Machine (vyvoláno: 18.06.2012).
^ Orchestr8 (2012): „AlchemyAPI Overview“, http://www.alchemyapi.com/api Archivováno 2016-05-13 na Wayback Machine (vyvoláno: 18.06.2012).
^ University of Sheffield (2011). "ANNIE: Téměř nový systém pro extrakci informací", http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (vyvoláno: 18.06.2012).
^ Síť excelence ILP. "ASIUM (LRI)", http://www-ai.ijs.si/~ilpnet2/systems/asium.html (vyvoláno: 18.06.2012).
^ Attitude (2012). "Vyčerpávající extrakce", http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ Archivováno 11.07.2012 na Wayback Machine (vyvoláno: 18.06.2012).
^ Mendes, Pablo N .; Jakob, Max; Garcia-Sílva, Andrés; Bizer; Christian (2011). "DBpedia Spotlight: Shining Light on the Web of Documents", Sborník ze 7. mezinárodní konference o sémantických systémech, str. 1 - 8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf Archivováno 05.04.2012 na Wayback Machine (vyvoláno: 18.06.2012).
^ Gangemi, Aldo; Presutti, Valentina; Reforgiato Recupero, Diego; Nuzzolese, Andrea Giovanni; Draicchio, Francesco; Mongiovì, Misael (2016). "Čtení sémantického webového stroje s FRED", Sémantický webový deník, doi: 10,3233 / SW-160240, http://www.semantic-web-journal.net/system/files/swj1379.pdf
^ Adrian, Benjamin; Maus, Heiko; Dengel, Andreas (2009). "iDocument: Using Ontologies for Extracting Information from Text", http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (vyvoláno: 18.06.2012).
^ SRA International, Inc. (2012). "NetOwl Extractor", http://www.sra.com/netowl/entity-extraction/ Archivováno 2012-09-24 na Wayback Machine (vyvoláno: 18.06.2012).
^ Fortuna, Blaz; Grobelnik, Marko; Mladenic, Dunja (2007). "OntoGen: Semi-automatic Ontology Editor", Sborník konference z roku 2007 o rozhraní člověka, část 2, str. 309 - 318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (vyvoláno: 18.06.2012).
^ Missikoff, Michele; Navigli, Roberto; Velardi, Paola (2002). "Integrovaný přístup k výuce a inženýrství webové ontologie", Počítač, 35 (11), s. 60 - 63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (vyvoláno: 18.06.2012).
^ McDowell, Luke K .; Cafarella, Michael (2006). "Ontology-driven Information Extraction with OntoSyphon", Sborník z 5. mezinárodní konference o Sémantickém webu, str. 428 - 444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (vyvoláno: 18.06.2012).
^ Yildiz, Burcu; Miksch, Silvia (2007). "ontoX - metoda pro extrakci informací na základě ontologie", Sborník příspěvků z mezinárodní konference 2007 o počítačové vědě a jejích aplikacích, 3, s. 660 - 673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (vyvoláno: 18.06.2012).
^ semanticweb.org (2011). "PoolParty Extractor", http://semanticweb.org/wiki/PoolParty_Extractor Archivováno 04.03.2016 na Wayback Machine (vyvoláno: 18.06.2012).
^ Dill, Stephen; Eiron, Nadav; Gibson, David; Gruhl, Daniel; Guha, R .; Jhingran, Anant; Kanungo, Tapas; Rajagopalan, Sridhar; Tomkins, Andrew; Tomlin, John A .; Zien, Jason Y. (2003). "SemTag and Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation", Sborník z 12. mezinárodní konference o World Wide Web, str. 178-186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (vyvoláno: 18.06.2012).
^ Uren, Victoria; Cimiano, Philipp; Iria, José; Handschuh, Siegfried; Vargas-Vera, Maria; Motta, Enrico; Ciravegna, Fabio (2006). "Semantic annotation for knowledge management: Requirements and a survey of the state of the art", Sémantika webu: Věda, služby a agenti v síti WWW, 4(1), p. 14 - 28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf^{[trvalý mrtvý odkaz ]}, (retrieved: 18.06.2012).
^ Cimiano, Philipp; Völker, Johanna (2005). "Text2Onto - A Framework for Ontology Learning and Data-Driven Change Discovery", Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems, 3513, p. 227 - 238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (retrieved: 18.06.2012).
^ Maedche, Alexander; Volz, Raphael (2001). "The Ontology Extraction & Maintenance Framework Text-To-Onto", Proceedings of the IEEE International Conference on Data Mining, http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (retrieved: 18.06.2012).
^ Machine Linking. "We connect to the Linked Open Data cloud", http://thewikimachine.fbk.eu/html/index.html Archivováno 2012-07-19 at the Wayback Machine (retrieved: 18.06.2012).
^ Inxight Federal Systems (2008). "Inxight ThingFinder and ThingFinder Professional", http://inxightfedsys.com/products/sdks/tf/ Archivováno 29. 06. 2012 na Wayback Machine (retrieved: 18.06.2012).
^ Frawley William. F. a kol. (1992), "Knowledge Discovery in Databases: An Overview", AI Magazine (Vol 13, No 3), 57-70 (online full version: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1011 Archivováno 04.03.2016 na Wayback Machine )
^ Fayyad U. et al. (1996), "From Data Mining to Knowledge Discovery in Databases", AI Magazine (Vol 17, No 3), 37-54 (online full version: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1230 Archivováno 2016-05-04 na Wayback Machine
^ Cao, L. (2010). "Domain driven data mining: challenges and prospects". Transakce IEEE na znalostní a datové inženýrství. 22 (6): 755–769. CiteSeerX 10.1.1.190.8427. doi:10.1109/tkde.2010.32. S2CID 17904603.

[RDB2RDF-1] Pracovní skupina RDB2RDF, web: http://www.w3.org/2001/sw/rdb2rdf/, charter: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: Jazyk mapování RDB na RDF: http://www.w3.org/TR/r2rml/

[lod2_eu-2] Výstup LOD2 EU 3.1.1 Extrakce znalostí ze strukturovaných zdrojů http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf Archivováno 2011-08-27 na Wayback Machine

[OpenCalaisLinkedData-3] „Život v propojeném datovém cloudu“. www.opencalais.com. Archivovány od originál dne 24. 11. 2009. Citováno 2009-11-10. Wikipedia má dvojče propojených dat s názvem DBpedia. DBpedia má stejné strukturované informace jako Wikipedia - ale přeložené do strojově čitelného formátu.

[timbl_reldb4semweb-4] A ^b Tim Berners-Lee (1998), „Relační databáze na sémantickém webu“. Citováno: 20. února 2011.

[Hu-5] Hu a kol. (2007), „Discovering Simple Mappings Between Relational Database Schemas and Ontologies“, In Proc. 6. mezinárodní konference o sémantickém webu (ISWC 2007), 2. asijská konference o sémantickém webu (ASWC 2007), LNCS 4825, strany 225-238, Busan, Korea, 11. - 15. listopadu 2007. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf

[Ghawi-6] R. Ghawi a N. Cullot (2007), „Generování mapování databáze na ontologii pro sémantickou interoperabilitu“. Ve třetím mezinárodním semináři o interoperabilitě databází (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf

[Li-7] Li a kol. (2005) „Poloautomatická metoda získávání ontologie pro sémantický web“, WAIM, svazek 3739 přednášek z informatiky, strana 209-220. Springer. doi:10.1007/11563952_19

[Tirmizi-8] Tirmizi a kol. (2008), „Translations SQL Applications to the Semantic Web“, Lecture Notes in Computer Science, Volume 5181/2008 (Database and Expert Systems Applications). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf

[Cerbah-9] Farid Cerbah (2008). „Learning Highly Structured Semantic Repositories from Relational Databases“, The Semantic Web: Research and Applications, volume 5021 of Lecture Notes in Computer Science, Springer, Berlin / Heidelberg http://www.tao-project.eu/resources/publications/cerbah-learning-highly-structured-semantic-repositories-from-relational-databases.pdf Archivováno 2011-07-20 na Wayback Machine

[Wimalasuriya-10] A ^b Wimalasuriya, Daya C .; Dou, Dejing (2010). "Extrakce informací na základě ontologie: Úvod a průzkum současných přístupů", Journal of Information Science, 36 (3), s. 306 - 323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (vyvoláno: 18.06.2012).

[11] „NLP Interchange Format (NIF) 2.0 - přehled a dokumentace“. persistence.uni-leipzig.org. Citováno 2020-06-05.

[12] Hellmann, Sebastian; Lehmann, Jens; Auer, Sören; Brümmer, Martin (2013). Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (eds.). „Integrace NLP pomocí propojených dat“. Sémantický web - ISWC 2013. Přednášky z informatiky. Berlín, Heidelberg: Springer. 7908: 98–113. doi:10.1007/978-3-642-41338-4_7. ISBN 978-3-642-41338-4.

[13] Verspoor, Karin; Livingston, Kevin (červenec 2012). „Směrem k adaptaci lingvistických anotací na formální formáty anotací na sémantickém webu“. Proceedings of the Sixth Linguistic Annotation Workshop. Jeju, Korejská republika: Sdružení pro výpočetní lingvistiku: 75–84.

[14] acoli-repo / conll-rdf, ACoLi, 2020-05-27, vyvoláno 2020-06-05

[15] Chiarcos, Christian; Fäth, Christian (2017). Gracia, Jorge; Bond, Francis; McCrae, John P .; Buitelaar, Paul; Chiarcos, Christian; Hellmann, Sebastian (eds.). „CoNLL-RDF: Propojené korpusy vytvořené způsobem vstřícným k NLP“. Jazyk, data a znalosti. Přednášky z informatiky. Cham: Springer International Publishing. 10318: 74–88. doi:10.1007/978-3-319-59888-8_6. ISBN 978-3-319-59888-8.

[16] Verhagen, Marc; Suderman, Keith; Wang, Di; Ide, Nancy; Shi, Chunqi; Wright, Jonathan; Pustejovsky, James (2016). Murakami, Yohei; Lin, Donghui (eds.). „Formát výměny LAPPS“. Celosvětová infrastruktura jazykových služeb. Přednášky z informatiky. Cham: Springer International Publishing. 9442: 33–47. doi:10.1007/978-3-319-31468-6_3. ISBN 978-3-319-31468-6.

[17] „The Language Application Grid | Platforma webových služeb pro vývoj a výzkum zpracování přirozeného jazyka“. Citováno 2020-06-05.

[18] hlasatel / NAF, NewsReader, 2020-05-25, vyvoláno 2020-06-05

[19] Vossen, Piek; Agerri, Rodrigo; Aldabe, Itziar; Cybulska, Agata; van Erp, Marieke; Fokkens, Antske; Laparra, Egoitz; Minard, Anne-Lyse; Palmero Aprosio, Alessio; Rigau, Němec; Rospocher, Marco (2016-10-15). „NewsReader: Využívání znalostních zdrojů ve vícejazyčném čtecím stroji k získávání dalších znalostí z masivních proudů zpráv“. Znalostní systémy. 110: 60–85. doi:10.1016 / j.knosys.2016.07.013. ISSN 0950-7051.

[Cunningham-20] Cunningham, Hamish (2005). "Extrakce informací, automaticky", Encyklopedie jazyka a lingvistiky, 2, s. 665 - 677, http://gate.ac.uk/sale/ell2/ie/main.pdf (vyvoláno: 18.06.2012).

[Erdmann-21] Erdmann, M .; Maedche, Alexander; Schnurr, H.-P .; Staab, Steffen (2000). "From Manual to Semi-automatic Semantic Annotation: About Ontology-based Text Annotation Tools", Sborník COLING, http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf (vyvoláno: 18.06.2012).

[Rao-22] Rao, Delip; McNamee, Paul; Dredze, Mark (2011). "Propojování entit: Hledání extrahovaných entit ve znalostní databázi", Vícezdrojová, vícejazyčná extrakce a shrnutí informací, http://www.cs.jhu.edu/~delip/entity-linking.pdf^{[trvalý mrtvý odkaz ]} (vyvoláno: 18.06.2012).

[Rocket-Software-Inc-23] Rocket Software, Inc. (2012). "technologie pro získávání zpravodajských informací z textu", http://www.rocketsoftware.com/products/aerotext Archivováno 21. 06. 2013 na Wayback Machine (vyvoláno: 18.06.2012).

[Orchestr8-24] Orchestr8 (2012): „AlchemyAPI Overview“, http://www.alchemyapi.com/api Archivováno 2016-05-13 na Wayback Machine (vyvoláno: 18.06.2012).

[The-University-of-Sheffield-25] University of Sheffield (2011). "ANNIE: Téměř nový systém pro extrakci informací", http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (vyvoláno: 18.06.2012).

[ILP-Network-of-Excellence-26] Síť excelence ILP. "ASIUM (LRI)", http://www-ai.ijs.si/~ilpnet2/systems/asium.html (vyvoláno: 18.06.2012).

[Attensity-27] Attitude (2012). "Vyčerpávající extrakce", http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ Archivováno 11.07.2012 na Wayback Machine (vyvoláno: 18.06.2012).

[Mendes-28] Mendes, Pablo N .; Jakob, Max; Garcia-Sílva, Andrés; Bizer; Christian (2011). "DBpedia Spotlight: Shining Light on the Web of Documents", Sborník ze 7. mezinárodní konference o sémantických systémech, str. 1 - 8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf Archivováno 05.04.2012 na Wayback Machine (vyvoláno: 18.06.2012).

[Gangemi-29] Gangemi, Aldo; Presutti, Valentina; Reforgiato Recupero, Diego; Nuzzolese, Andrea Giovanni; Draicchio, Francesco; Mongiovì, Misael (2016). "Čtení sémantického webového stroje s FRED", Sémantický webový deník, doi: 10,3233 / SW-160240, http://www.semantic-web-journal.net/system/files/swj1379.pdf

[Adrian-30] Adrian, Benjamin; Maus, Heiko; Dengel, Andreas (2009). "iDocument: Using Ontologies for Extracting Information from Text", http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (vyvoláno: 18.06.2012).

[SRA-International-Inc-31] SRA International, Inc. (2012). "NetOwl Extractor", http://www.sra.com/netowl/entity-extraction/ Archivováno 2012-09-24 na Wayback Machine (vyvoláno: 18.06.2012).

[Fortuna-32] Fortuna, Blaz; Grobelnik, Marko; Mladenic, Dunja (2007). "OntoGen: Semi-automatic Ontology Editor", Sborník konference z roku 2007 o rozhraní člověka, část 2, str. 309 - 318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (vyvoláno: 18.06.2012).

[Missikoff-33] Missikoff, Michele; Navigli, Roberto; Velardi, Paola (2002). "Integrovaný přístup k výuce a inženýrství webové ontologie", Počítač, 35 (11), s. 60 - 63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (vyvoláno: 18.06.2012).

[McDowell-34] McDowell, Luke K .; Cafarella, Michael (2006). "Ontology-driven Information Extraction with OntoSyphon", Sborník z 5. mezinárodní konference o Sémantickém webu, str. 428 - 444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (vyvoláno: 18.06.2012).

[Yildiz-35] Yildiz, Burcu; Miksch, Silvia (2007). "ontoX - metoda pro extrakci informací na základě ontologie", Sborník příspěvků z mezinárodní konference 2007 o počítačové vědě a jejích aplikacích, 3, s. 660 - 673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (vyvoláno: 18.06.2012).

[semanticweb-org-36] semanticweb.org (2011). "PoolParty Extractor", http://semanticweb.org/wiki/PoolParty_Extractor Archivováno 04.03.2016 na Wayback Machine (vyvoláno: 18.06.2012).

[Dill-37] Dill, Stephen; Eiron, Nadav; Gibson, David; Gruhl, Daniel; Guha, R .; Jhingran, Anant; Kanungo, Tapas; Rajagopalan, Sridhar; Tomkins, Andrew; Tomlin, John A .; Zien, Jason Y. (2003). "SemTag and Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation", Sborník z 12. mezinárodní konference o World Wide Web, str. 178-186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (vyvoláno: 18.06.2012).

[Uren-38] Uren, Victoria; Cimiano, Philipp; Iria, José; Handschuh, Siegfried; Vargas-Vera, Maria; Motta, Enrico; Ciravegna, Fabio (2006). "Semantic annotation for knowledge management: Requirements and a survey of the state of the art", Sémantika webu: Věda, služby a agenti v síti WWW, 4(1), p. 14 - 28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf^{[trvalý mrtvý odkaz ]}, (retrieved: 18.06.2012).

[Cimiano05-39] Cimiano, Philipp; Völker, Johanna (2005). "Text2Onto - A Framework for Ontology Learning and Data-Driven Change Discovery", Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems, 3513, p. 227 - 238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (retrieved: 18.06.2012).

[Maedche-40] Maedche, Alexander; Volz, Raphael (2001). "The Ontology Extraction & Maintenance Framework Text-To-Onto", Proceedings of the IEEE International Conference on Data Mining, http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (retrieved: 18.06.2012).

[Machine-Linking-41] Machine Linking. "We connect to the Linked Open Data cloud", http://thewikimachine.fbk.eu/html/index.html Archivováno 2012-07-19 at the Wayback Machine (retrieved: 18.06.2012).

[Inxight-Federal-Systems-42] Inxight Federal Systems (2008). "Inxight ThingFinder and ThingFinder Professional", http://inxightfedsys.com/products/sdks/tf/ Archivováno 29. 06. 2012 na Wayback Machine (retrieved: 18.06.2012).

[Williams1992-43] Frawley William. F. a kol. (1992), "Knowledge Discovery in Databases: An Overview", AI Magazine (Vol 13, No 3), 57-70 (online full version: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1011 Archivováno 04.03.2016 na Wayback Machine )

[Fayyad1996-44] Fayyad U. et al. (1996), "From Data Mining to Knowledge Discovery in Databases", AI Magazine (Vol 17, No 3), 37-54 (online full version: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1230 Archivováno 2016-05-04 na Wayback Machine

[45] Cao, L. (2010). "Domain driven data mining: challenges and prospects". Transakce IEEE na znalostní a datové inženýrství. 22 (6): 755–769. CiteSeerX 10.1.1.190.8427. doi:10.1109/tkde.2010.32. S2CID 17904603.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

Computable knowledge
Topics and koncepty	Alphabet of human thought Kontrolní úřad Automatické uvažování Commonsense knowledge Commonsense reasoning Computability Discovery system Formální systém Inferenční engine Znalostní báze Knowledge-based systems Knowledge engineering Extrakce znalostí Znalostní graf Reprezentace znalostí Knowledge retrieval Klasifikace knihovny Logic programming Ontologie Osobní znalostní báze Question answering Semantic reasoner
Proposals and implementace	Zairja Ars Magna (1300) Esej ke skutečné postavě a filozofický jazyk (1688) Calculus ratiocinator a characteristica universalis (1700) Deweyova desetinná klasifikace (1876) Begriffsschrift (1879) Mundaneum (1910) Logický atomismus (1918) Tractatus Logico-Philosophicus (1921) Hilbert's program (1920) Incompleteness theorem (1931) World Brain (1938) Memex (1945) General Problem Solver (1959) Prolog (1972) Cyc (1984) Sémantický web (2001) Evi (2007) Wolfram Alpha (2009) Watson (2011) Siri (2011) Google Knowledge Graph (2012) Wikidata (2012) Cortana (2014) Viv (2016)
V beletrii	The Engine (Gulliverovy cesty, 1726) Joe ("A Logic Named Joe ", 1946) The Librarian (Snow Crash, 1992) Dr. Know (A.I. (film), 2001) Waterhouse (The Baroque Cycle, 2003) Viz také: Logic machines in fiction a List of fictional computers