K-anonymita - K-anonymity
k-anonymita je vlastnost vlastněná jistými anonymizovaná data. Koncept k-anonymita byla poprvé představena Latanya Sweeney a Pierangela Samarati v článku publikovaném v roce 1998[1] jako pokus o vyřešení problému: „Vzhledem k terénně strukturovaným datům specifickým pro danou osobu vytvořte uvolnění dat s vědeckými zárukami, že jednotlivci, kteří jsou subjekty údajů, nemohou být znovu identifikováni, zatímco data zůstanou prakticky užitečná.“[2][3][4] Uvolnění dat má údajně k-anonymita vlastnost, pokud informace o každé osobě obsažené ve verzi nelze odlišit alespoň od jednotlivci, jejichž informace se také objevují ve vydání.
k-anonymita získala široké mediální pokrytí v roce 2018, kdy britský počítačový vědec Junade Ali užívala nemovitost po boku kryptografický hash vytvořit komunikační protokol k anonymnímu ověření, zda došlo k úniku hesla, aniž by bylo nutné prozradit heslo.[5][6] Tento protokol byl implementován jako veřejné API v Troy Hunt je Byl jsem Pwned? služba a je spotřebována několika službami včetně správci hesel[7][8] a rozšíření prohlížeče.[9][10] Tento přístup byl později replikován Google Funkce kontroly hesla.[11][12][13]
Metody pro k-anonymizace
V kontextu k-anonymizace problémy, databáze je tabulka s n řádky a m sloupce. Každý řádek tabulky představuje záznam týkající se konkrétního člena populace a položky v různých řádcích nemusí být jedinečné. Hodnoty v různých sloupcích jsou hodnotami atributů přidružených k členům populace. V následující tabulce je neanonymizovaná databáze sestávající ze záznamů o pacientech z nějaké fiktivní nemocnice v Koči.
název | Stáří | Rod | Stát bydliště | Náboženství | Choroba |
---|---|---|---|---|---|
Ramsha | 30 | ženský | Tamil Nadu | Hind | Rakovina |
Yadu | 24 | ženský | Kerala | Hind | Virová infekce |
Salima | 28 | ženský | Tamil Nadu | muslimský | TB |
Slunný | 27 | mužský | Karnataka | Parsi | Žádná nemoc |
Joan | 24 | ženský | Kerala | křesťan | Související se srdcem |
Bahuksana | 23 | mužský | Karnataka | Buddhista | TB |
Rambha | 19 | mužský | Kerala | Hind | Rakovina |
Kishore | 29 | mužský | Karnataka | Hind | Související se srdcem |
Johnson | 17 | mužský | Kerala | křesťan | Související se srdcem |
John | 19 | mužský | Kerala | křesťan | Virová infekce |
V těchto datech je 6 atributů a 10 záznamů. Existují dvě běžné metody dosažení k-anonymita pro určitou hodnotu k.
- Potlačení: V této metodě jsou určité hodnoty atributů nahrazeny hvězdičkou '*'. Všechny nebo některé hodnoty sloupce mohou být nahrazeny znakem „*“. V níže uvedené anonymizované tabulce jsme nahradili všechny hodnoty v atributu „Název“ a všechny hodnoty v atributu „Náboženství“ znakem „*“.
- Zobecnění: V této metodě jsou jednotlivé hodnoty atributů nahrazeny širší kategorií. Například hodnota „19“ atributu „Věk“ může být nahrazena hodnotou „≤ 20“, hodnota „23“ hodnotou „20
V následující tabulce je uvedena anonymizovaná databáze.
název | Stáří | Rod | Stát bydliště | Náboženství | Choroba |
---|---|---|---|---|---|
* | 20 ženský | Tamil Nadu | * | Rakovina | |
* | 20 ženský | Kerala | * | Virová infekce | |
* | 20 ženský | Tamil Nadu | * | TB | |
* | 20 mužský | Karnataka | * | Žádná nemoc | |
* | 20 ženský | Kerala | * | Související se srdcem | |
* | 20 mužský | Karnataka | * | TB | |
* | Věk ≤ 20 | mužský | Kerala | * | Rakovina |
* | 20 mužský | Karnataka | * | Související se srdcem | |
* | Věk ≤ 20 | mužský | Kerala | * | Související se srdcem |
* | Věk ≤ 20 | mužský | Kerala | * | Virová infekce |
Tato data mají 2-anonymitu, pokud jde o atributy „Věk“, „Pohlaví“ a „Stát bydliště“, protože pro každou kombinaci těchto atributů nalezenou v libovolném řádku tabulky jsou vždy alespoň 2 řádky s těmito přesnými atributy. Atributy dostupné protivníkovi se nazývají kvaziidentifikátory. Každá n-tice kvaziidentifikátoru se vyskytuje minimálně k záznamy pro datovou sadu s k-anonymita.[14]
To optimální prokázali Meyerson a Williams (2004) k-anonymita je NP-tvrdé problém, nicméně heuristické metody jako k-Optimalizace, jak uvádí Bayardo a Agrawal (2005), často přináší efektivní výsledky.[15][16] Praktický aproximační algoritmus, který umožňuje řešení k-anonymizační problém se zárukou aproximace představili Kenig a Tassa.[17]
Možné útoky
Zatímco k-anonymita je slibný přístup pro skupinovou anonymizaci vzhledem ke své jednoduchosti a široké škále algoritmů, které ji provádějí, je však náchylný k mnoha útokům. Pokud má útočník k dispozici znalosti na pozadí, stanou se takové útoky ještě efektivnějšími. Mezi takové útoky patří:
- Homogenita útok: Tento útok využívá případ, kdy jsou všechny hodnoty pro citlivou hodnotu v sadě k záznamy jsou identické. V takových případech, přestože data byla k-anonymized, citlivá hodnota pro sadu k záznamy lze přesně předpovědět.
- Pozadí znalostního útoku: Tento útok využívá přidružení mezi jedním nebo více atributy kvaziidentifikátoru s citlivým atributem, aby se snížila sada možných hodnot pro citlivý atribut. Například Machanavajjhala, Kifer, Gehrke a Venkitasubramaniam (2007) prokázali, že znalosti o tom, že u japonských pacientů dochází k infarktu ve snížené míře, lze použít ke zúžení rozsahu hodnot citlivého atributu pacientovy nemoci.
Upozornění
Protože k-anonymizace nezahrnuje žádnou randomizaci, útočníci mohou stále dělat závěry o souborech dat, které mohou jednotlivcům ublížit. Například pokud je známo, že 19letý John z Kéraly je ve výše uvedené databázi, lze spolehlivě říci, že má buď rakovinu, srdeční onemocnění nebo virovou infekci.
K.-anonymizace není dobrá metoda k anonymizaci vysoko-dimenzionálních datových sad.[18] Vědci například ukázali, že vzhledem k 4 lokalitám jednotnost souborů údajů o umístění časové značky mobilního telefonu (, k-anonymita, když ) může být až 95%.[19]
Bylo také prokázáno, že k-anonymita může zkreslit výsledky datové sady, pokud neúměrně potlačuje a zobecňuje datové body s nereprezentativními charakteristikami.[20] Dříve používané algoritmy potlačení a zobecnění k-anonymizovat datové sady lze však změnit, aby neměly takový efekt zkosení.[21]
Hash-based k-Anonymita
Hash-based k-Anonymita byla do značné míry vyvinuta Junade Ali, zpočátku pro prevenci Napadená kontrola pověření[22][23][24] a později pro anonymizaci v reálném čase MAC adresy.[25]
Tento přístup funguje tak, že kryptografický hash jednorozměrných dat a zkrácení hashe tak, aby jich bylo alespoň hashovací kolize. Tento přístup umožňuje efektivní anonymizované vyhledávání velkých datových sad, jako jsou porušená hesla.[26] Tento přístup lze dále použít k poskytnutí formálně prokazatelné úrovně anonymity údajům citlivým na soukromí, což umožňuje přesné kompromisy mezi únikem informací a funkčností.[27][28]
Viz také
Reference
- ^ Samarati, Pierangela; Sweeney, Latanya (1998). „Ochrana soukromí při sdělování informací: k-anonymita a její vynucování prostřednictvím generalizace a potlačení“ (PDF). Laboratoř ochrany osobních údajů na Harvardu. Citováno 12. dubna 2017.
- ^ P. Samarati. Ochrana identit respondentů při vydání mikrodat. Transakce IEEE v archivu znalostního a datového inženýrství svazek 13, číslo 6, listopad 2001.
- ^ L. Sweeney. "Zabezpečení databáze: k-anonymita". Citováno 19. ledna 2014.
- ^ L. Sweeney. k-anonymita: model ochrany soukromí. Mezinárodní žurnál o nejistotách, neurčitosti a znalostních systémech, 10. října 2002; 557-570.
- ^ „Zjistěte, zda bylo vaše heslo zadáno - bez jeho odeslání na server.“. Ars Technica. Citováno 2018-05-24.
- ^ „1Password bolts on a 'pwned password' check - TechCrunch". techcrunch.com. Citováno 2018-05-24.
- ^ „1Password se integruje s„ Pwned Passwords “, aby se zkontrolovalo, zda vaše hesla nebyla prosakována online.“. Citováno 2018-05-24.
- ^ Conger, Kate. „1Password vám pomůže zjistit, zda je zadáno vaše heslo“. Gizmodo. Citováno 2018-05-24.
- ^ Condon, Stephanie. „Okta nabízí bezplatné vícefaktorové ověřování s novým produktem, One App | ZDNet“. ZDNet. Citováno 2018-05-24.
- ^ Coren, Michael J. „Největší světová databáze napadených hesel je nyní rozšíření Chrome, které automaticky kontroluje vaše“. Křemen. Citováno 2018-05-24.
- ^ Wagenseil I., Paul. „Nové rozšíření pro Chrome od Googlu najde vaše napadená hesla“. www.laptopmag.com.
- ^ „Google spouští rozšíření kontroly hesla, aby upozornilo uživatele na porušení údajů“. BleepingComputer.
- ^ Dsouza, Melisha (6. února 2019). „Nové rozšíření Google pro Chrome„ Kontrola hesla “kontroluje, zda vaše uživatelské jméno nebo heslo nebylo vystaveno porušení třetí strany.“. Packt Hub.
- ^ Narayanan, Arvind; Shmatikov, Vitaly. „Robustní de-anonymizace velkých řídkých datových sad“ (PDF).
- ^ Roberto J. Bayardo; Rakesh Agrawal (2005). Ochrana osobních údajů prostřednictvím Optimal k-anonymizace (PDF). ICDE '05 Proceedings of the 21.st International Conference on Data Engineering. 217–28. doi:10.1109 / ICDE.2005.42. ISBN 978-0-7695-2285-2. ISSN 1084-4627. S2CID 17044848.
De-identifikace dat sjednocuje požadavek na vydání údajů pro výzkumné účely a požadavek na soukromí od jednotlivců. Tento článek navrhuje a hodnotí optimalizační algoritmus pro silný postup identifikace známý jako k-anonymizace. A k-anonymizovaná datová sada má tu vlastnost, že každý záznam je nerozeznatelný od alespoň k - 1 další. I jednoduchá omezení optimalizovaná k-anonymita je NP-hard, což vede k významným výpočetním výzvám. Představujeme nový přístup k prozkoumání prostoru možných anonymizací, který zkracuje kombinatoriku problému, a rozvíjíme strategie správy dat, abychom snížili závislost na nákladných operacích, jako je třídění. Prostřednictvím experimentů na datech skutečného sčítání lidu ukážeme, že výsledný algoritmus může být optimální k-anonymizace v rámci dvou reprezentativních měřítek nákladů a širokého rozsahu k. Ukážeme také, že algoritmus může vytvářet dobré anonymizace za okolností, kdy vstupní data nebo vstupní parametry vylučují nalezení optimálního řešení v rozumném čase. Nakonec použijeme algoritmus k prozkoumání účinků různých přístupů kódování a variací problémů na kvalitu a výkon anonymizace. Pokud je nám známo, jedná se o první výsledek prokazující optimální k-anonymizace netriviálního datového souboru podle obecného modelu problému.
- ^ Adam Meyerson; Ryan Williams (2004). O složitosti optimálního K.-Anonymita (PDF). PODS '04 Proceedings of the Twenty-third ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems. New York, NY: ACM. str. 223–8. doi:10.1145/1055558.1055591. ISBN 978-1581138580. S2CID 6798963.
Technika k-anonymizace byla v literatuře navržena jako alternativní způsob uvolňování veřejných informací při zajištění ochrany osobních údajů i integrity dat. Dokazujeme, že dvě obecné verze optimální k-anonymizace vztahů jsou NP-tvrdé, včetně verze potlačení, která se rovná výběru minimálního počtu záznamů, které se mají ze vztahu odstranit. Prezentujeme také polynomiální časový algoritmus pro optimální k-anonymitu, který dosahuje přibližného poměru nezávislého na velikosti databáze, když k je konstantní. Zejména se jedná o přiblížení O (k log k), kde konstanta ve velkém-O není větší než 4. Runtime algoritmu je však v k exponenciální. Trochu chytřejší algoritmus tuto podmínku odstraní, ale jedná se o přiblížení O (k logm), kde m je míra relace. Věříme, že tento algoritmus může být v praxi docela rychlý.
- ^ Kenig, Batya; Tassa, Tamir (2012). "Praktický aproximační algoritmus pro optimální k-anonymitu". Těžba dat a vyhledávání znalostí. 25: 134–168. doi:10.1007 / s10618-011-0235-9. S2CID 14158546.
- ^ Aggarwal, Charu C. (2005). "Na k-Anonymita a kletba dimenzionality “. VLDB '05 - Sborník z 31. mezinárodní konference o velmi velkých databázích. Trondheim, Norsko. CiteSeerX 10.1.1.60.3155. ISBN 1-59593-154-6.
- ^ de Montjoye, Yves-Alexandre; César A. Hidalgo; Michel Verleysen; Vincent D. Blondel (25. března 2013). „Unique in the Crowd: The privacy bounds of human mobility“ (PDF). Vědecké zprávy. 3: 1376. Bibcode:2013NatSR ... 3E1376D. doi:10.1038 / srep01376. PMC 3607247. PMID 23524645.
- ^ Angiuli, Olivia; Joe Blitzstein; Jim Waldo. „Jak de-identifikovat vaše data“. Fronta ACM. ACM.
- ^ Angiuli, Olivia; Jim Waldo (Červen 2016). „Statistické kompromisy mezi generalizací a potlačením při deidentifikaci rozsáhlých datových sad“. Mezinárodní konference IEEE Computer Society o počítačích, softwaru a aplikacích: 589–593. doi:10.1109 / COMPSAC.2016.198. ISBN 978-1-4673-8845-0. S2CID 17716908.
- ^ Li, Lucy; Pal, Bijeeta; Ali, Junade; Sullivan, Nick; Chatterjee, Rahul; Ristenpart, Thomas (4. září 2019). "Protokoly pro kontrolu napadených údajů". arXiv:1905.13737 [cs.CR ].
- ^ „Zjistěte, zda bylo vaše heslo zadáno - bez jeho odeslání na server.“. Ars Technica. Citováno 2018-05-24.
- ^ „1Password bolts on a 'pwned password' check - TechCrunch". techcrunch.com. Citováno 2018-05-24.
- ^ Ali, Junade; Dyo, Vladimir (2020). "Praktická hashová anonymita pro MAC adresy". 17. mezinárodní konference o bezpečnosti a kryptografii (SECRYPT 2020): 572–579. arXiv:2005.06580. doi:10.5220/0009825105720579. ISBN 978-989-758-446-6. S2CID 218629946.
- ^ Thomas, Kurt; Pullman, Jennifer; Yeo, Kevin; Raghunathan, Ananth; Kelley, Patrick Gage; Invernizzi, Luca; Benko, Borbala; Pietraszek, Tadek; Patel, Sarvar; Boneh, Dan; Bursztein, Elie (2019). Ochrana účtů před plněním pověření výstrahou na porušení hesla. str. 1556–1571. ISBN 9781939133069. Citováno 22. května 2020.
- ^ Ali, Junade; Dyo, Vladimir (2020). "Praktická hashová anonymita pro MAC adresy". 17. mezinárodní konference o bezpečnosti a kryptografii (SECRYPT 2020): 572–579. arXiv:2005.06580. doi:10.5220/0009825105720579. ISBN 978-989-758-446-6. S2CID 218629946.
- ^ Demir, Levent; Kumar, Amrit; Cunche, Mathieu; Lauradoux, Cédric (2018). „Úskalí hashování soukromí“. Komunikační průzkumy a výukové programy, IEEE Communications Society. 20 (1): 551. doi:10.1109 / COMST.2017.2747598. S2CID 3571244. Citováno 22. května 2020.