Algoritmus Datafly - Datafly algorithm
Algoritmus Datafly je algoritmus za poskytnutí anonymity lékařských údajů. Algoritmus vyvinul Latanya Arvette Sweeney v letech 1997-98.[1][2] Anonymizace je dosažena automatickým zobecněním, nahrazením, vložením a odebráním informací podle potřeby, aniž by došlo ke ztrátě mnoha podrobností nalezených v datech. Tuto metodu lze použít za běhu na základě rolí bezpečnost v instituci a v šarže režim pro export dat Organizace uvolňují a přijímají lékařská data se všemi výslovnými údaji identifikátory - jako je jméno - odstraněno, v mylné víře, že důvěrnost pacientů je zachována, protože výsledná data vypadají anonymně. Zbývající údaje však lze použít k opětovné identifikaci jednotlivců propojením nebo porovnáním údajů s jinými databázemi nebo pohledem na jedinečné vlastnosti nalezené v pole a evidence z databáze sám.
Algoritmus Datafly byl kritizován za pokus o dosažení anonymizace nadměrným zobecněním. Algoritmus vybere atribut s největším počtem odlišných hodnoty jako ten, který nejprve zobecní.[3]
Základní algoritmus
Níže je uveden přehled algoritmu Datafly.[4]
Vstup: Soukromé Stůl PT; kvazi identifikátor QI = ( A1, ..., An ), k- omezení anonymity k; hierarchie generalizace domén DGHAi, kde i = 1,...,n s doprovodem funkce FAia ztráta, což je limit procenta n-tice které lze potlačit. PT [id] je počet jedinečných identifikátorů nebo klíčů pro každou n-tici.
Výstup: MGT zobecnění PT [QI], které vynucuje k-anonymita
Předpokládá: | PT | ≤ ka ztráta * | PT | = k
algoritmus Datafly:
// Vytvořte frekvenci seznam obsahující jedinečné sekvence hodnot napříč kvaziidentifikátorem v PT,
// spolu s počtem výskytů každé sekvence.
- 1. ať je frekvence rozšiřitelná a sbalitelná vektor zpočátku bez prvků. Každý prvek má formu (QI, frekvence, SID), kde SID = { idi : ∃ t[id] ∈ [id] ⇒ t[id] = idi }; a frekvence = | SID |. Frekvence je proto také přístupná jako tabulka přes (QI, frekvence, SID).
- 2. nechat poz 0, celkem 0
- 3. zatímco celkem ≠ | PT | dělat
- 3,1 frekvence [pos] ( t[QI], nastane, SID) kde t[QI] ∈ [QI], ( t[ QI ],__, ___ ) frekvence; nastane = | PT | - | PT [QI] - {t[QI]} |; a, SID = { idi : ∃ t[id] PT [id] ⇒ t[id] = idi }
- 3,2 poz pos + 1, celkem celkem + nastane
- // Vytvořte řešení zobecněním atributu s největším počtem odlišných hodnot
- // a potlačení maximálně povoleného počtu n-tic.
- 4. nechte níže 0
- 5. pro poz 1 až | frekvence | dělat
- 5,1 (__, počet) frekvence [pos]
- 5,2 pokud počet < k pak udělej
- 5.2.1 níže belowk + count
- 6. pokud belowk> k pak udělejte: // Note. ztráta * | PT | = k.
- 6,1 frekvence zobecnit (frekvence)
- 6.2 přejděte ke kroku 4
- 7. jinak ano
- // tvrzení: počet n-tic, které se mají potlačit ve frekvenci, je ≤ ztráta * | PT |
- 7,1 frekvence potlačit (frekvence, pod)
- 7,2 MGT rekonstruovat (frekvence)
- 8. vrátit MGT.
Reference
- ^ Latanya Sweeney. „Datafly: systém pro poskytování anonymity lékařských údajů“. Citováno 19. ledna 2014.
- ^ L. Sweeney, Datafly: systém pro poskytování anonymity lékařských údajů. Database Security, XI: Status and Prospects, T. Lin a S. Qian (eds), Elsevier Science, Amsterdam, 1998.[1]
- ^ Li Xiong. „Anonymizace dat - generalizační algoritmy“ (PDF). Citováno 19. ledna 2014.
- ^ Latanya Sweeney. Výpočetní kontrola zpřístupnění Základy ochrany osobních údajů. MIT. p. 113. hdl:1721.1/8589.