Zaznamenejte propojení - Record linkage
Zaznamenejte propojení (také známý jako porovnávání dat, rozlišení entit, a mnoho dalších termínů) je úkolem najít evidence v datovém souboru, který odkazuje na totéž subjekt napříč různými zdroji dat (např. datové soubory, knihy, webové stránky a databáze). Záznamové propojení je nutné, když spojování různé soubory dat založené na entitách, které mohou nebo nemusí sdílet společný identifikátor (např. klíč databáze, URI, Národní identifikační číslo ), což může být způsobeno rozdíly ve tvaru záznamu, umístění úložiště nebo stylu či preferencích kurátora. Datová sada, která prošla odsouhlasením orientovaným na RL, může být označována jako zesítěný. Záznamová vazba se označuje jako datové spojení v mnoha jurisdikcích, ale tyto dva procesy jsou stejné.
Konvence pojmenování
„Propojení záznamů“ je termín používaný mimo jiné statistiky, epidemiology a historiky k popisu procesu spojování záznamů z jednoho zdroje dat s jiným, který popisuje stejnou entitu. Pro tento proces se však používá mnoho dalších termínů. Bohužel tato hojnost terminologie vedla k několika křížovým odkazům mezi těmito výzkumnými komunitami.[1][2]
Počítačoví vědci často to označují jako „shoda dat“ nebo jako „problém s identitou objektu“. Komerční pošta a databázové aplikace jej označují jako „sloučení / vyčištění zpracování“ nebo „mytí seznamu“. Mezi další názvy používané k popisu stejného konceptu patří: „koreference / entita / identita / název / rozlišení záznamu“, „disambiguace / propojení entit“, „fuzzy shoda“, „detekce duplikátů“, „deduplikace“, „shoda záznamu“, „ (referenční) odsouhlasení "," identifikace objektu "," integrace dat / informací "a" sjednocení ".[3]
I když mají podobné názvy, zaznamenávají propojení a Propojená data jsou dva samostatné přístupy ke zpracování a strukturování dat. Ačkoli oba zahrnují identifikaci shodujících se entit napříč různými datovými soubory, záznamové propojení standardně rovná „entity“ s lidskými jednotlivci; Naproti tomu propojená data jsou založena na možnosti propojení jakéhokoli webový zdroj napříč soubory dat pomocí odpovídající širší koncepce identifikátoru, konkrétně a URI.
Dějiny
Počáteční myšlenka propojení záznamů sahá až do Halbert L. Dunn v jeho článku z roku 1946 s názvem "Record Linkage" publikovaném v American Journal of Public Health.[4]
Howard Borden Newcombe poté položil pravděpodobnostní základy moderní teorie spojování záznamů v článku z roku 1959 v Věda[5]. Ty byly formalizovány v roce 1969 Ivan Fellegi a Alan Sunter ve své průkopnické práci „A Theory For Record Linkage“, kde dokázali, že pravděpodobnostní rozhodovací pravidlo, které popsali, bylo optimální, když byly atributy porovnání podmíněně nezávislé.[6] Ve své práci si uvědomili rostoucí zájem o uplatnění pokroku ve výpočetní technice a automatizaci na velké sbírky administrativní údaje a Fellegi-Sunterova teorie zůstává matematickým základem mnoha aplikací pro propojení záznamů.
Od konce 90. let různé strojové učení byly vyvinuty techniky, které lze za příznivých podmínek použít k odhadu podmíněných pravděpodobností požadovaných Fellegi-Sunterovou teorií. Několik vědců uvádí, že podmíněný předpoklad nezávislosti algoritmu Fellegi-Sunter je v praxi často porušován; publikované snahy explicitně modelovat podmíněné závislosti mezi atributy srovnání však nevedly ke zlepšení kvality vazby záznamů.[Citace je zapotřebí ] Na druhou stranu strojové učení nebo algoritmy neuronové sítě, které se nespoléhají na tyto předpoklady, často poskytují mnohem vyšší přesnost, pokud je k dispozici dostatečné množství označených tréninkových dat.[7]
Propojení záznamu lze provést zcela bez pomoci počítače, ale hlavním důvodem, proč se počítače často používají k dokončení propojení záznamů, je snížení nebo vyloučení manuální kontroly a snazší reprodukovatelnost výsledků. Výhodou počítačového párování je, že umožňuje centrální dohled nad zpracováním, lepší kontrolu kvality, rychlost, konzistenci a lepší reprodukovatelnost výsledků.[8]
Metody
Předzpracování dat
Propojení záznamů je vysoce citlivé na kvalitu propojovaných dat, takže všechny uvažované datové soubory (zejména jejich pole klíčových identifikátorů) by v ideálním případě měly projít hodnocení kvality údajů před záznamem propojení. Mnoho klíčových identifikátorů pro stejnou entitu lze mezi soubory dat (a dokonce i uvnitř) prezentovat zcela odlišně, což může značně komplikovat propojení záznamů, pokud nebudou pochopeny předem. Například identifikátory klíčů pro muže jménem William J. Smith se mohou objevit ve třech různých souborech dat takto:
Soubor dat | název | Datum narození | Město bydliště |
---|---|---|---|
Soubor dat 1 | William J. Smith | 1/2/73 | Berkeley, Kalifornie |
Soubor dat 2 | Smith, W. J. | 1973.1.2 | Berkeley, Kalifornie |
Soubor dat 3 | Bill Smith | 2. ledna 1973 | Berkeley, Kalifornie. |
V tomto příkladu vedou různé styly formátování k záznamům, které vypadají odlišně, ale ve skutečnosti všechny odkazují na stejnou entitu se stejnými hodnotami logického identifikátoru. Většina, ne-li všechny, strategie propojení záznamů by vedly k přesnějšímu propojení, pokud by tyto hodnoty byly první normalizováno nebo standardizováno do konzistentního formátu (např. všechna jména jsou „Příjmení, Křestní jméno“ a všechna data jsou „RRRR / MM / DD“). Standardizace lze dosáhnout pomocí jednoduchých pravidel založených na pravidlech datové transformace nebo složitější postupy, jako je lexikon tokenizace a pravděpodobnostní skryté Markovovy modely.[9] Několik balíčků uvedených v souboru Softwarové implementace Část poskytuje některé z těchto funkcí ke zjednodušení procesu standardizace dat.
Rozlišení entity
Rozlišení entity je funkční inteligence proces, obvykle poháněný motorem pro řešení entit nebo middleware, přičemž organizace mohou spojovat různorodé zdroje dat s a Pohled k pochopení možných shod entit a zjevných vztahů napříč více datová sila. Analyzuje všechny informace vztahující se k jednotlivcům a / nebo entitám z více zdrojů dat, a poté použije skóre pravděpodobnosti a pravděpodobnosti k určení, které identity jsou shoda, a jaké, pokud vůbec nějaké, zjevné vztahy mezi těmito identitami existují.
K odhalení se obvykle používají motory pro rozlišení entit riziko, podvod a střety zájmů, ale jsou také užitečnými nástroji pro použití uvnitř integrace dat o zákaznících (CDI) a správa kmenových dat (MDM) požadavky. Typické použití motorů pro řešení entit zahrnuje detekční kontrolu terorismu, detekci pojistných podvodů, USA Patriot Act dodržování, organizovaný maloobchodní zločin detekce kruhu a screening žadatelů.
Například: Napříč různými datovými sily - záznamy zaměstnanců, údaje o dodavatelích, seznamy sledovaných atd. - organizace může mít několik variant entity s názvem ABC, která může nebo nemusí být stejná osoba. Tyto položky se ve skutečnosti mohou v těchto zdrojích dat zobrazit jako ABC1, ABC2 nebo ABC3. Porovnáním podobností mezi základními atributy, jako je adresa, datum narození nebo číslo sociálního zabezpečení může uživatel vyloučit některé možné shody a potvrdit jiné jako velmi pravděpodobné shody.
Motory pro řešení entit pak použijí pravidla založená na logice zdravého rozumu k identifikaci skrytých vztahů mezi daty. Ve výše uvedeném příkladu možná ABC1 a ABC2 nejsou stejní jednotlivci, ale spíše dva odlišní lidé, kteří sdílejí společné atributy, jako je adresa nebo telefonní číslo.
Shoda dat
Zatímco řešení řešení entit zahrnují technologii porovnávání dat, mnoho nabídek párování dat neodpovídá definici rozlišení entity. Zde jsou čtyři faktory, které rozlišují rozlišení entit od párování dat, říká John Talburt, ředitel UALR Centrum pro pokročilý výzkum v oblasti řešení entit a kvality informací:
- Funguje se strukturovanými i nestrukturovanými záznamy a zahrnuje proces extrakce odkazů, když jsou zdroje nestrukturované nebo polostrukturované
- Používá propracovaná obchodní pravidla a koncepční modely pro řešení chybějících, konfliktních a poškozených informací
- Kromě přímé shody využívá nevyhovující, uplatněné informace o propojení (přidružení)
- Odhaluje zjevné vztahy a asociační sítě (tj. Kdo je s kým spojen)
Na rozdíl od produktů pro kvalitu dat zahrnují výkonnější motory pro řešení identit také modul pravidel a proces pracovního toku, který aplikuje obchodní inteligenci na vyřešené identity a jejich vztahy. Tyto pokročilé technologie přijímají automatizovaná rozhodnutí a ovlivňují obchodní procesy v reálném čase, což omezuje potřebu lidských zásahů.
Deterministické propojení záznamů
Nejjednodušší druh propojení záznamu, tzv deterministický nebo propojení záznamů založené na pravidlech, generuje odkazy na základě počtu jednotlivých identifikátorů, které se shodují mezi dostupnými datovými sadami.[10] Říká se, že dva záznamy se shodují prostřednictvím deterministické procedury propojení záznamů, pokud jsou všechny nebo některé identifikátory (nad určitou prahovou hodnotou) identické. Propojení deterministického záznamu je dobrou volbou, pokud jsou entity v souborech dat identifikovány společným identifikátorem nebo když existuje několik reprezentativních identifikátorů (např. Jméno, datum narození a pohlaví při identifikaci osoby), jejichž kvalita údajů je relativně vysoký.
Jako příklad zvažte dva standardizované datové soubory, Set A a Set B, které obsahují různé bity informací o pacientech v nemocničním systému. Tyto dva soubory dat identifikují pacienty pomocí různých identifikátorů: Číslo sociálního zabezpečení (SSN), jméno, datum narození (DOB), pohlaví a PSČ (ZIP). Níže jsou uvedeny záznamy ve dvou souborech dat (označených sloupcem „#“):
Soubor dat | # | SSN | název | DOB | Sex | ZIP |
---|---|---|---|---|---|---|
Sada A | 1 | 000956723 | Smith, William | 1973/01/02 | mužský | 94701 |
2 | 000956723 | Smith, William | 1973/01/02 | mužský | 94703 | |
3 | 000005555 | Jones, Robert | 1942/08/14 | mužský | 94701 | |
4 | 123001234 | Žalovat, Mary | 1972/11/19 | ženský | 94109 | |
Sada B | 1 | 000005555 | Jones, Bob | 1942/08/14 | ||
2 | Smith, Bill | 1973/01/02 | mužský | 94701 |
Nejjednodušší strategií pro deterministické propojení záznamů by bylo vybrat jeden identifikátor, o kterém se předpokládá, že jednoznačně identifikuje, řekněme SSN, a deklarovat, že záznamy sdílející stejnou hodnotu identifikují stejnou osobu, zatímco záznamy nesdílející stejnou hodnotu identifikují různé lidi. V tomto příkladu by deterministické propojení založené na SSN vytvořilo entity založené na A1 a A2; A3 a B1; a A4. Zatímco se zdá, že A1, A2 a B2 představují stejnou entitu, B2 by nebyl zahrnut do shody, protože mu chybí hodnota pro SSN.
Zpracování výjimek, jako jsou chybějící identifikátory, zahrnuje vytvoření dalších pravidel propojení záznamů. Jedním z takových pravidel v případě chybějícího SSN může být srovnání jména, data narození, pohlaví a PSČ s jinými záznamy v naději na nalezení shody. Ve výše uvedeném příkladu by toto pravidlo stále neodpovídalo A1 / A2 s B2, protože jména jsou stále mírně odlišná: standardizace dala jména do správného formátu (příjmení, křestní jméno), ale nemohla rozeznat „Bill“ jako přezdívku pro „ William “. Spouštění jmen prostřednictvím a fonetický algoritmus jako Soundex, NYSIIS nebo metafon, může pomoci vyřešit tyto typy problémů (i když to může stále narážet na změny příjmení v důsledku manželství nebo rozvodu), ale pak by B2 bylo spárováno pouze s A1, protože PSČ v A2 je jiné. Bylo by tedy třeba vytvořit další pravidlo, které by určovalo, zda jsou rozdíly v konkrétních identifikátorech přijatelné (například PSČ) a které nikoli (například datum narození).
Jak ukazuje tento příklad, i malé snížení kvality dat nebo malé zvýšení složitosti dat může mít za následek velmi velké zvýšení počtu pravidel nezbytných pro správné propojení záznamů. Nakonec budou tato pravidla propojení příliš početná a vzájemně propojená, aby je bylo možné vytvořit bez pomoci specializovaných softwarových nástrojů. Pravidla propojení jsou navíc často specifická pro povahu souborů dat, které jsou navrženy k propojení. Jedna studie dokázala propojit sociální zabezpečení Smrt Master File se dvěma nemocničními registry z Středozápad USA pomocí SSN, křestního jména, měsíce narození a pohlaví s kódováním NYSIIS, ale tato pravidla nemusí fungovat dobře se soubory dat z jiných geografických oblastí nebo s daty shromážděnými u mladších populací.[11] Proto je nezbytné průběžné testování údržby těchto pravidel, aby bylo zajištěno, že budou nadále fungovat podle očekávání, protože nová data vstupují do systému a je třeba je propojit. Nová data, která vykazují odlišné charakteristiky, než se původně očekávalo, by mohla vyžadovat úplné opětovné sestavení sady pravidel propojení záznamů, což by mohlo být velmi časově náročné a nákladné úsilí.
Pravděpodobné propojení záznamu
Pravděpodobné propojení záznamu, někdy nazývané fuzzy shoda (taky pravděpodobnostní sloučení nebo fuzzy sloučení v kontextu slučování databází), přistupuje k problému propojení záznamů odlišně tím, že zohledňuje širší škálu potenciálních identifikátorů, výpočet hmotnosti každého identifikátoru na základě jeho odhadované schopnosti správně identifikovat shodu nebo nesouhlas, a pomocí těchto vah vypočítat pravděpodobnost, že dva dané záznamy odkazují na stejnou entitu. Záznamové páry s pravděpodobností nad určitou prahovou hodnotou jsou považovány za shody, zatímco páry s pravděpodobností pod jinou prahovou hodnotou jsou považovány za neshody; páry, které spadají mezi tyto dvě prahové hodnoty, jsou považovány za „možné shody“ a lze s nimi podle toho zacházet (např. přezkoumáno člověkem, propojeno nebo nesouvisí, v závislosti na požadavcích). Zatímco deterministické propojení záznamů vyžaduje naprogramování řady potenciálně složitých pravidel předem, lze pravděpodobnostní metody propojení záznamů „trénovat“, aby fungovaly dobře s mnohem menším zásahem člověka.
Mnoho pravděpodobnostních algoritmů propojení záznamů přiřazuje shodné / neshodné váhy identifikátorům pomocí dvou volaných pravděpodobností u a m. The u pravděpodobnost je pravděpodobnost, že identifikátor ve dvou neodpovídající záznamy souhlasí čistě náhodou. Například u pravděpodobnost měsíce narození (kde je dvanáct hodnot, které jsou přibližně rovnoměrně rozloženy) je 1/12 ≈ 0,083; identifikátory s hodnotami, které nejsou rovnoměrně distribuovány, se budou lišit u pravděpodobnosti různých hodnot (případně včetně chybějících hodnot). The m pravděpodobnost je pravděpodobnost, že identifikátor v vhodný páry budou souhlasit (nebo budou dostatečně podobné, například řetězce s nízkou hodnotou) Jaro-Winkler nebo Levenshtein vzdálenost). Tato hodnota by byla v případě dokonalých dat 1,0, ale vzhledem k tomu, že je to zřídka (pokud vůbec) pravda, lze ji místo toho odhadnout. Tento odhad lze provést na základě předchozích znalostí o souborech dat, manuální identifikací velkého počtu párů párů a párů, které se neshodují, aby se „vycvičil“ algoritmus pravděpodobnostního propojení záznamu, nebo iterativním spuštěním algoritmu pro získání bližších odhadů m pravděpodobnost. Pokud by měla být pro 0,4 odhadnuta hodnota 0,95 m pravděpodobnost, pak by shoda / neshoda váhy pro identifikátor měsíce narození byla:
Výsledek | Podíl odkazů | Podíl odkazů | Poměr frekvence | Hmotnost |
---|---|---|---|---|
Zápas | m = 0.95 | u ≈ 0.083 | m/u ≈ 11.4 | ln (m/u) / ln (2) ≈ 3,51 |
Neshoda | 1−m = 0.05 | 1-u ≈ 0.917 | (1-m)/(1-u) ≈ 0.0545 | ln ((1-m)/(1-u)) / ln (2) ≈ -4,20 |
Stejné výpočty by byly provedeny pro všechny ostatní uvažované identifikátory, aby se zjistila jejich shoda / neshoda. Poté by byl každý identifikátor jednoho záznamu porovnán s odpovídajícím identifikátorem jiného záznamu, aby se vypočítala celková váha páru: zápas váha se přidá k průběžnému součtu, kdykoli se dvojice identifikátorů dohodne, zatímco neshoda váha se přidá (tj. průběžný součet se sníží), kdykoli dvojice identifikátorů nesouhlasí. Výsledná celková váha se poté porovná s výše uvedenými prahovými hodnotami, aby se určilo, zda by měl být pár propojen, nespojen nebo vyčleněn pro zvláštní pozornost (např. Ruční ověření).[12]
Určení, kde nastavit prahové hodnoty pro shodu / neshodu, je vyvážením mezi získáním přijatelného citlivost (nebo odvolání, podíl skutečně shodných záznamů, které jsou propojeny algoritmem) a pozitivní prediktivní hodnota (nebo přesnost, podíl záznamů propojených algoritmem, které se skutečně shodují). K předpovědi nejlepších prahových hodnot jsou k dispozici různé manuální a automatizované metody a některé softwarové balíčky pro propojení záznamů mají vestavěné nástroje, které uživateli pomáhají najít nejpřijatelnější hodnoty. Protože to může být výpočetně velmi náročný úkol, zejména pro velké datové sady, technika známá jako blokování se často používá ke zvýšení efektivity. Blokovací pokusy omezit srovnání pouze na ty záznamy, pro které souhlasí jeden nebo více zvláště diskriminačních identifikátorů, což má za následek zvýšení pozitivní prediktivní hodnoty (přesnosti) na úkor citlivosti (odvolání).[12] Například blokování na základě foneticky kódovaného příjmení a PSČ by snížilo celkový počet požadovaných srovnání a zlepšilo by pravděpodobnost, že propojené záznamy budou správné (protože dva identifikátory již souhlasí), ale potenciálně by chyběly záznamy odkazující na stejnou osobu jehož příjmení nebo PSČ se lišilo (například kvůli manželství nebo přemístění). Blokování na základě měsíce narození, stabilnějšího identifikátoru, u kterého by se očekávalo, že se změní pouze v případě chyby v datech, by poskytlo skromnější zisk pozitivní prediktivní hodnoty a ztrátu citlivosti, ale vytvořilo by pouze dvanáct odlišných skupin, které by pro extrémně velké datové sady nemusí poskytovat velké čisté zlepšení výpočetní rychlosti. Robustní systémy propojení záznamů tak často používají více blokujících průchodů ke seskupování dat různými způsoby, aby přišly se skupinami záznamů, které by se měly navzájem porovnávat.
Strojové učení
V posledních letech se při propojení záznamů používá řada technik strojového učení. Bylo to uznáno[7] že klasický algoritmus pro pravděpodobnostní propojení záznamu uvedený výše je ekvivalentní s Naivní Bayes algoritmus v oblasti strojového učení,[13] a trpí stejným předpokladem nezávislosti jeho funkcí (předpoklad, který obvykle není pravdivý).[14][15] Vyšší přesnosti lze často dosáhnout použitím různých dalších technik strojového učení, včetně jedné vrstvy perceptron.[7]. Ve spojení s distribuovanými technologiemi[16], přesnost a měřítko pro propojení záznamu lze dále zlepšit.
Matematický model
V aplikaci se dvěma soubory A a B označte řádky (evidence) od v souboru A a v souboru B. Přiřadit charakteristiky ke každému záznamu. Sada záznamů, které představují identické entity, je definována
a doplněk sady , jmenovitě set zastupování různých entit je definováno jako
.
Vektor, je definována, která obsahuje kódované dohody a neshody u každé charakteristiky:
kde je index pro charakteristiky (pohlaví, věk, rodinný stav atd.) v souborech. Podmíněné pravděpodobnosti pozorování konkrétního vektoru daný , jsou definovány jako
a
resp.[6]
Aplikace
Správa kmenových dat
Většina Správa kmenových dat Produkty (MDM) používají proces propojení záznamů k identifikaci záznamů z různých zdrojů představujících stejnou entitu reálného světa. Toto propojení se používá k vytvoření „zlatého hlavního záznamu“ obsahujícího vyčištěná, odsouhlasená data o entitě. Techniky používané v MDM jsou stejné jako techniky pro propojení záznamů obecně. MDM rozšiřuje toto párování nejen o vytvoření „zlatého hlavního záznamu“, ale také o odvození vztahů. (tj. osoba má stejné / podobné příjmení a stejnou / podobnou adresu, může to znamenat, že sdílí vztah v domácnosti).
Skladování dat a obchodní inteligence
Klíčovou roli hraje vazba záznamů skladování dat a obchodní inteligence. Datové sklady slouží ke sloučení dat z mnoha různých operačních zdrojových systémů do jednoho logický datový model, které lze následně přenést do systému business intelligence pro reporting a analýzu. Každý operační zdrojový systém může mít svou vlastní metodu identifikace stejných entit použitých v logickém datovém modelu, takže je nezbytné propojit záznamy mezi různými zdroji, aby bylo zajištěno, že informace o konkrétní entitě v jednom zdrojovém systému lze bezproblémově porovnat s informacemi o stejná entita z jiného zdrojového systému. Standardizace dat a následné propojení záznamů se často vyskytují v "transformační" části extrahovat, transformovat, načíst (ETL) procesu.
Historický výzkum
Propojení záznamů je důležité pro výzkum sociální historie, protože většina datových souborů, jako např záznamy ze sčítání lidu a farní matriky byly zaznamenány dlouho před vynálezem Národní identifikační čísla. Při digitalizaci starých zdrojů je předpokladem propojení datových sad podélná studie. Tento proces je často dále komplikován nedostatkem standardního pravopisu jmen, příjmení, která se mění podle místa bydliště, změnou administrativních hranic a problémy s kontrolou dat oproti jiným zdrojům. Rekordní propojení patřilo k nejvýznamnějším tématům EU Historie a výpočetní technika v 80. letech, ale od té doby byla ve výzkumu věnována menší pozornost.[Citace je zapotřebí ]
Lékařská praxe a výzkum
Propojení záznamů je důležitým nástrojem při vytváření údajů potřebných pro zkoumání zdraví veřejnosti a samotného systému zdravotní péče. Lze jej použít ke zlepšení uchovávání údajů, shromažďování údajů, hodnocení kvality a šíření informací. Zdroje dat lze prozkoumat, aby se odstranily duplicitní záznamy, identifikovaly nedostatečné zprávy a chybějící případy (např. Počty obyvatel sčítání), aby se vytvořily zdravotní statistiky zaměřené na člověka a aby se vytvořily registry nemocí a systémy zdravotního dohledu. Některé registry rakoviny spojují různé zdroje dat (např. Hospitalizace, patologie a klinické zprávy a registrace úmrtí), aby generovaly své registry. Propojení záznamů se také používá k vytváření indikátorů zdraví. Například fetální a kojenecká úmrtnost je obecným ukazatelem socioekonomického rozvoje země, veřejného zdraví a služeb matek a dětí. Pokud se záznamy o úmrtí kojenců shodují s údaji o narození, je možné při analýze dat použít proměnné narození, jako je porodní hmotnost a gestační věk, spolu s údaji o úmrtnosti, jako je příčina úmrtí. Vazby mohou pomoci v následných studiích kohort nebo jiných skupin k určení faktorů, jako je životní stav, rezidenční stav nebo zdravotní výsledky. Sledování je často nutné pro sledování průmyslových kohort, klinických studií a longitudinálních průzkumů k získání příčiny úmrtí a / nebo rakoviny. Příkladem úspěšného a dlouhodobého systému propojení záznamů umožňujícího populační lékařský výzkum je Rochesterský epidemiologický projekt sídlící v Rochester, Minnesota.[17]
Kritika stávajících softwarových implementací
Hlavní citované důvody jsou:[Citace je zapotřebí ]
- Náklady na projekt: náklady obvykle ve stovkách tisíc dolarů
- Čas: nedostatek času na řešení velkého rozsahu čištění dat software
- Bezpečnostní: obavy ze sdílení informací, umožnění přístupu aplikace napříč systémy a dopady na starší systémy
- Škálovatelnost: Vzhledem k absenci jedinečných identifikátorů v záznamech je propojení záznamů výpočetně nákladné a obtížně škálovatelné. [18]
- Přesnost: Změna obchodních dat a zachycení všech pravidel pro propojení je těžké a rozsáhlé cvičení
Viz také
- Optimalizace kapacity
- Úložiště adresovatelné obsahu
- Deduplikace dat
- Delta kódování
- Propojení entit
- Model entita-hodnota-hodnota
- Rozlišení identity
- Propojená data
- Rozpoznání pojmenované entity
- Otevřená data
- Shoda schématu
- Úložiště s jednou instancí
- Autor Jméno Disambiguation
Poznámky a odkazy
- ^ Cristen, P & T: Febrl - volně rozšiřitelné propojení biomedicínských záznamů (manuální, vydání 0,3) str.9
- ^ Elmagarmid, Ahmed; Panagiotis G. Ipeirotis; Vassilios Verykios (leden 2007). „Detekce duplicitních záznamů: průzkum“ (PDF). Transakce IEEE na znalostní a datové inženýrství. 19 (1): str. 1–16. doi:10.1109 / tkde.2007.250581. S2CID 386036. Citováno 2009-03-30.
- ^ http://homes.cs.washington.edu/~pedrod/papers/icdm06.pdf
- ^ Dunn, Halbert L. (Prosinec 1946). „Record Linkage“ (PDF). American Journal of Public Health. 36 (12): str. 1412–1416. doi:10.2105 / AJPH.36.12.1412. PMC 1624512. PMID 18016455. Citováno 2008-05-31.
- ^ Newcombe, H. B .; J.M. Kennedy; S.J. Axford; A. P. James (říjen 1959). "Automatické propojení důležitých záznamů". Věda. 130 (3381): 954–959. doi:10.1126 / science.130.3381.954. PMID 14426783.
- ^ A b Fellegi, Ivan; Sunter, Alan (prosinec 1969). „Teorie propojení záznamů“ (PDF). Journal of the American Statistical Association. 64 (328): str. 1183–1210. doi:10.2307/2286061. JSTOR 2286061.
- ^ A b C Wilson, D. Randall, D. Randall (31. července - 5. srpna 2011). Kromě pravděpodobného propojení záznamu: Využití neuronových sítí a komplexních funkcí ke zlepšení propojení genealogických záznamů (PDF). Sborník z mezinárodní společné konference o neuronových sítích. San Jose, Kalifornie, USA.
- ^ Winkler, William E. "Shoda a záznam propojení" (PDF). Americký úřad pro sčítání lidu. Citováno 12. listopadu 2011.
- ^ Církve, Tim; Peter Christen; Kim Lim; Justin Xi Zhu (13. prosince 2002). "Příprava údajů o jménu a adrese pro propojení záznamů pomocí skrytých Markovových modelů". BMC Lékařská informatika a rozhodování. 2: 9. doi:10.1186/1472-6947-2-9. PMC 140019. PMID 12482326.
- ^ Roos, LL; Wajda A (duben 1991). „Zaznamenejte strategie propojení. Část I: Odhad informací a hodnocení přístupů“. Metody informací v medicíně. 30 (2): 117–123. doi:10.1055 / s-0038-1634828. PMID 1857246.
- ^ Grannis, SJ; Overhage JM; McDonald CJ (2002). „Analýza výkonu identifikátoru pomocí algoritmu deterministického propojení“. Proc AMIA Symp.: 305–9. PMC 2244404. PMID 12463836.
- ^ A b Blakely, Tony; Salmond, Clare (prosinec 2002). „Pravděpodobnostní propojení záznamů a metoda výpočtu pozitivní prediktivní hodnoty“. International Journal of Epidemiology. 31 (6): 1246–1252. doi:10.1093 / ije / 31.6.1246. PMID 12540730.
- ^ Quass, Dallan a Starkey, Paul. "Zaznamenejte propojení pro genealogické databáze „Workshop ACM SIGKDD ’03 o čištění dat, propojení záznamů a konsolidaci objektů, 24. – 27. Srpna 2003, Washington, D.C.
- ^ Langley, Pat, Wayne Iba a Kevin Thompson. "Analýza Bayesovských klasifikátorů „Ve sborníku z 10. národní konference o umělé inteligenci (AAAI-92), AAAI Press / MIT Press, Cambridge, MA, s. 223-228, 1992.
- ^ Michie, D., D. Spiegelhalter a C. Taylor. Strojové učení, neurální a statistická klasifikace, Ellis Horwood, Hertfordshire, Anglie. Kniha 19, 1994.
- ^ „Fuzzy Matching With Spark“. Spark Summit.
- ^ St. Sauver JL; Grossardt BR; Yawn BP; Melton LJ 3.; Pankratz JJ; Brue SM; Rocca WA (2012). „Data Resource Profile: The Rochester Epidemiology Project (REP) medical records-linkge system“. Int J Epidemiol. 41 (6): 1614–24. doi:10.1093 / ije / dys195. PMC 3535751. PMID 23159830.
- ^ https://observablehq.com/@nubetech/entity-resolution-at-scale