Objev pravdy - Truth discovery
Objev pravdy (také známý jako hledání pravdy) je proces výběru skutečného skutečná hodnota pro datová položka když jiný zdroje dat poskytnout konfliktní informace.
Několik algoritmy byly navrženy k řešení tohoto problému, od jednoduchých metod jako většinové hlasování na složitější, kteří dokáží odhadnout důvěryhodnost zdroje dat.[1]
Problémy s objevováním pravdy lze rozdělit do dvou podtříd: jednoduchá pravda a více pravd. V prvním případě je pro a. Povolena pouze jedna skutečná hodnota datová položka (např. narozeniny osoby, hlavní město země). V druhém případě je povoleno více skutečných hodnot (např. Obsazení filmu, autoři knihy).[2][3]
Objevování pravdy je obvykle posledním krokem a integrace dat potrubí, když schémata různých zdroje dat byla sjednocený a záznamy, které se na něj vztahují datová položka byly zjištěny.[4]
Obecné zásady
Množství údajů dostupných na internetu web je stále pravděpodobnější, že se to bude lišit Zdroje poskytnout (částečně nebo úplně) různé hodnoty pro stejné datová položka. To spolu se skutečností, že zvyšujeme svoji závislost na datech k odvozování důležitých rozhodnutí, motivuje potřebu rozvoje dobrého objevování pravdy algoritmy.[5]
Mnoho aktuálně dostupných metod se spoléhá na a strategie hlasování definovat skutečnou hodnotu a datová položka. Nedávné studie nicméně ukazují, že pokud se spoléháme jen na většinové hlasování, mohli bychom získat špatné výsledky dokonce u 30% datové položky.[5]
Řešením tohoto problému je posouzení důvěryhodnosti Zdroje a dát větší důležitost hlasům pocházejícím z důvěryhodných zdrojů.[4][5]
Ideálně, učení pod dohledem techniky by mohly být využity k přiřazení skóre spolehlivosti Zdroje po ručně vytvořeném označení poskytovaných hodnot; to bohužel není možné, protože počet potřebných označených příkladů by měl být úměrný počtu Zdroje a v mnoha aplikacích může být počet zdrojů neúměrný.[2][6]
Zjištění jedné pravdy vs. více pravd
Zjištění jedné pravdy a více pravd jsou dva velmi odlišné problémy.[2]
Objev jedné pravdy se vyznačuje následujícími vlastnostmi:
- pro každou je povolena pouze jedna skutečná hodnota datová položka;
- různé hodnoty poskytované pro danou datovou položku si navzájem odporují;
- hodnoty a Zdroje mohou být správné nebo chybné.
Zatímco v případě více pravd platí následující vlastnosti:
- pravda se skládá ze souboru hodnot;
- různé hodnoty by mohly poskytnout částečnou pravdu;
- nárokování jedné hodnoty pro danou datová položka neznamená odpor proti všem ostatním hodnotám;
- počet skutečných hodnot pro každou datová položka není známo a priori.
Objev více pravd má jedinečné vlastnosti, díky nimž je problém složitější, a měl by být vzat v úvahu při vývoji řešení objevování pravdy.[2]
Níže uvedené příklady poukazují na hlavní rozdíly obou metod. S vědomím, že v obou příkladech je pravda poskytována zdrojem 1, v případě jedné pravdy (první tabulka) můžeme říci, že zdroje 2 a 3 jsou proti pravdě a ve výsledku poskytují nesprávné hodnoty. Na druhé straně, v druhém případě (druhá tabulka) nejsou zdroje 2 a 3 ani správné, ani chybné, místo toho poskytují podmnožinu skutečných hodnot a zároveň se nebrání pravdě.
Zdroj | název | Datum narození | |
---|---|---|---|
S1 | George Washington | 1732-02-22 | Opravit |
S2 | George Washington | 1738-09-17 | Chybný |
S3 | George Washington | 1734-10-23 | Chybný |
Zdroj | Titul | Autoři | |
---|---|---|---|
S1 | Povaha prostoru a času | Stephen Hawking, Roger Penrose | Opravit |
S2 | Povaha prostoru a času | Stephen Hawking | Částečná pravda |
S3 | Povaha prostoru a času | Roger Penrose | Částečná pravda |
S4 | Povaha prostoru a času | J.K.Rowling | Chybný |
Důvěryhodnost zdroje
Drtivá většina metod zjišťování pravdy je založena na hlasovacím přístupu: každý zdroj hlasuje pro určitou hodnotu datová položka a na konci je hodnota s nejvyšším počtem hlasů vybrána jako skutečná. Ve složitějších metodách nemají hlasy pro všechny stejnou váhu zdroje dat, větší důležitost je skutečně přisuzována hlasům pocházejícím z důvěryhodných zdrojů.[5]
Důvěryhodnost zdroje obvykle není známa A a priori ale odhadováno s iterativním přístupem. Na každém kroku objevování pravdy algoritmus skóre důvěryhodnosti každého z nich zdroj dat je zdokonaleno a zlepšuje hodnocení skutečných hodnot, což vede k lepšímu odhadu důvěryhodnosti zdrojů. Tento proces obvykle končí, když všechny hodnoty dosáhnou stavu konvergence.[5]
Důvěryhodnost zdroje může být založena na různých metrikách, například přesnost poskytovaných hodnot, kopírování hodnot z jiných zdrojů a pokrytí domény.[1]
Detekce chování kopírování je velmi důležité, ve skutečnosti kopírování umožňuje snadno šířit falešné hodnoty, což velmi ztěžuje objevování pravdy, protože mnoho zdrojů by hlasovalo pro nesprávné hodnoty. Systémy obvykle snižují váhu hlasů spojených s kopírovanými hodnotami nebo je vůbec nepočítají.[7]
Metody jedné pravdy
Většina aktuálně dostupných metod objevování pravdy byla navržena tak, aby fungovala dobře pouze v případě jedné pravdy.[1][3]
Níže jsou uvedeny některé z charakteristik nejdůležitějších typologií metod s jednou pravdou a to, jak různé systémy modelují důvěryhodnost zdrojů.[5]
Většina hlasů
Většina hlasů je nejjednodušší metoda, nejoblíbenější hodnota je vybrána jako skutečná. Většinové hlasování se běžně používá jako základ při hodnocení výkonnosti složitějších metod.
Webový odkaz založený
Tyto metody odhadují důvěryhodnost zdroje využívající podobnou techniku jako ta, která se používá k měření orgán z webové stránky na základě webové odkazy. Hlas přiřazený k hodnotě se počítá jako součet důvěryhodnosti zdrojů, které poskytují tuto konkrétní hodnotu, zatímco důvěryhodnost zdroje se počítá jako součet hlasů přiřazených hodnotám, které zdroj poskytuje.[5][8]
Na základě vyhledávání informací
Tyto metody odhadují důvěryhodnost zdroje pomocí opatření podobnosti obvykle se používá v vyhledávání informací. Důvěryhodnost zdroje se počítá jako kosinová podobnost (nebo jiný opatření podobnosti ) mezi množinou hodnot poskytnutých zdrojem a množinou hodnot považovaných za pravdivé (buď vybrané pravděpodobnostním způsobem, nebo získané z pozemské pravdy).[5][9]
Bayesian založený
Tyto metody používají Bayesovský závěr definovat pravděpodobnost pravdivosti hodnoty podmíněné hodnotami poskytnutými všemi zdroji.
kde je hodnota poskytovaná pro a datová položka a je sada pozorovaných hodnot poskytovaných všemi zdroji pro dané konkrétní datová položka.
Důvěryhodnost zdroje se poté vypočítá na základě přesnost z hodnot, které poskytuje.[7][10] Jiné složitější metody využívají Bayesovský závěr detekovat chování kopírování a použít tyto poznatky k lepšímu posouzení důvěryhodnosti zdroje.[7]
Metody více pravd
Kvůli jeho složitost, méně pozornosti bylo věnováno studiu objevu více pravd[2][3]
Níže jsou uvedeny dvě typologie metod s více pravdami a jejich charakteristiky.
Bayesian založený
Tyto metody používají Bayesovský závěr definovat pravděpodobnost, že skupina hodnot bude pravdivě podmíněna hodnotami poskytnutými všemi zdroje dat. V tomto případě, protože pro každou může existovat více skutečných hodnot datová položka a zdroje mohou poskytnout více hodnot pro jednu datovou položku, není možné hodnotit jednotlivě. Alternativou je zvážit mapování a vztahy mezi sadou poskytovaných hodnot a zdroji, které je poskytují. Důvěryhodnost zdroje se poté vypočítá na základě přesnost z hodnot, které poskytuje.[2]
Sofistikovanější metody také berou v úvahu pokrytí domény a chování kopírování, aby bylo možné lépe odhadnout důvěryhodnost zdroje.[2][3]
Pravděpodobnostní grafické modely založené
Tyto metody používají pravděpodobnostní grafické modely automaticky definovat množinu skutečných hodnot dané datové položky a také posoudit kvalitu zdroje bez nutnosti dohledu.[11]
Aplikace
Mnoho aplikací v reálném světě může těžit z použití algoritmů zjišťování pravdy. Mezi typické domény aplikace patří: zdravotní péče, dav / sociální snímání, crowdsourcing agregace, extrakce informací a znalostní báze konstrukce.[1]
Algoritmy objevování pravdy by mohly být také použity k převratu ve způsobu, jakým webové stránky jsou zařadil v vyhledávače, vycházející ze současných metod založených na analýza odkazu jako PageRank, k postupům, které hodnotí webové stránky podle přesnost informací, které poskytují.[12]
Viz také
- Integrace dat
- Informační integrace
- Data Fusion (integrace dat)
- Kvalita dat
Reference
- ^ A b C d Li, Yaliang; Gao, Jing; Meng, Chuishi; Li, Qi; Su, Lu; Zhao, Bo; Ventilátor, Wei; Han, Jiawei (2016-02-25). „Průzkum o objevu pravdy“. Informační bulletin průzkumů ACM SIGKDD. 17 (2): 1–16. doi:10.1145/2897350.2897352.
- ^ A b C d E F G Wang, Xianzhi; Sheng, Quan Z .; Fang, Xiu Susie; Yao, Lina; Xu, Xiaofei; Li, Xue (2015). „Integrovaný bayesovský přístup k efektivnímu objevování více pravd“. Sborník 24. mezinárodní konference ACM o konferenci o řízení informací a znalostí - CIKM '15. Melbourne, Austrálie: ACM Press: 493–502. doi:10.1145/2806416.2806443. hdl:2440/110033. ISBN 9781450337946.
- ^ A b C d Lin, Xueling; Chen, Lei (2018). "Zjišťování více pravd s ohledem na doménu z konfliktních zdrojů". Nadace VLDB. 11 (5): 635–647. doi:10.1145/3187009.3177739.
- ^ A b Dong, Xin Luna; Srivastava, Divesh (2015-02-15). "Integrace velkých dat". Syntetické přednášky o správě dat. 7 (1): 1–198. doi:10.2200 / S00578ED1V01Y201404DTM040. ISSN 2153-5418.
- ^ A b C d E F G h Li, Xian; Dong, Xin Luna; Lyons, Kenneth; Meng, Weiyi; Srivastava, Divesh (2012-12-01). "Hledání pravdy na hlubokém webu: je problém vyřešen?". Sborník nadace VLDB. 6 (2): 97–108. arXiv:1503.00303. doi:10.14778/2535568.2448943.
- ^ Ng, Andrew Y; Jordan, Michael I. (2001). „Diskriminační vs. generativní klasifikátory: Porovnání logistické regrese a naivní Bayes“. Sborník příspěvků ze 14. mezinárodní konference o systémech zpracování neurálních informací: přírodní a syntetické: 841–848.
- ^ A b C Dong, Xin Luna; Berti-Equille, Laure; Srivastava, Divesh (01.08.2009). "Integrace konfliktních dat: role závislosti na zdroji". Sborník nadace VLDB. 2 (1): 550–561. doi:10.14778/1687627.1687690.
- ^ Kleinberg, Jon M. (01.09.1999). "Autoritativní zdroje v prostředí hypertextových odkazů". Deník ACM. 46 (5): 604–632. doi:10.1145/324133.324140.
- ^ Galland, Alban; Abiteboul, Serge; Marian, Amélie; Senellart, Pierre (2010). „Potvrzování informací z nesouhlasných názorů“. Sborník ze třetí mezinárodní konference ACM o vyhledávání na webu a dolování dat - WSDM '10. New York, New York, USA: ACM Press: 131. doi:10.1145/1718487.1718504. ISBN 9781605588896.
- ^ Xiaoxin Yin; Jiawei Han; Yu, P.S. (2008). "Zjištění pravdy s více konfliktními poskytovateli informací na webu". Transakce IEEE na znalostní a datové inženýrství. 20 (6): 796–808. doi:10.1109 / TKDE.2007.190745. ISSN 1041-4347.
- ^ Zhao, Bo; Rubinstein, Benjamin I. P .; Gemmell, Jim; Han, Jiawei (2012-02-01). „Bayesiánský přístup k objevování pravdy z konfliktních zdrojů pro integraci dat“. Sborník nadace VLDB. 5 (6): 550–561. arXiv:1203.0058. doi:10.14778/2168651.2168656.
- ^ „Obrovské důsledky myšlenky Google hodnotit stránky na základě jejich přesnosti“. www.washingtonpost.com. 2015.