The exponenciální mechanismus je technika pro navrhování rozdílně soukromé algoritmy. Byl vyvinut společností Frank McSherry[1] a Kunal Talwar[2] v roce 2007. Jejich práce byla uznána jako spoluvlastník ceny PET za rok 2009 za vynikající výzkum v technologiích zvyšujících ochranu soukromí.[3]
Většina počátečního výzkumu v oblasti diferenciálního soukromí se točila kolem skutečných funkcí, které mají relativně nízkou hodnotu citlivost ke změně údajů o jedinci, jehož užitečnost nebrání malé odchylky v aditivách. Přirozenou otázkou je, co se stane v situaci, kdy si chceme uchovat obecnější sady vlastností. Exponenciální mechanismus pomáhá při řešení těchto problémů rozšířit pojem rozdílového soukromí. Kromě toho popisuje třídu mechanismů, která zahrnuje všechny možné odlišně soukromé mechanismy.
Exponenciální mechanismus [4]
Algoritmus
Obecně řečeno, mechanismus ochrany soukromí mapuje soubor
vstupy z domény
do rozsahu
. Mapa může být náhodná, v takovém případě každý prvek domény
odpovídá rozdělení pravděpodobnosti v celém rozsahu
. Mechanismus ochrany soukromí nepředpokládá povahu
a
kromě základny opatření
na
. Pojďme definovat funkci
. Tato funkce intuitivně přiřadí dvojici skóre
, kde
a
. Skóre odráží přitažlivost páru
, tj. čím vyšší je skóre, tím přitažlivější je dvojice. Vzhledem k vstupu
, cílem mechanismu je vrátit
taková, že funkce
je přibližně maximalizován. Chcete-li toho dosáhnout, nastavte mechanismus
jak následuje:
Definice: Pro jakoukoli funkci
a základní míra
přes
, definovat:
Vybrat
s pravděpodobností úměrnou
, kde
.
Tato definice implikuje skutečnost, že pravděpodobnost návratu
roste exponenciálně se zvyšováním hodnoty
. Ignorování základní míry
pak hodnota
který maximalizuje
má nejvyšší pravděpodobnost. Tento mechanismus je navíc odlišně soukromý. Následovat bude důkaz tohoto nároku. Jednou z technických věcí, které je třeba mít na paměti, je správná definice
the
by měla být konečná.
Věta (rozdílné soukromí):
dává
-diferenciální soukromí.
Důkaz: Hustota pravděpodobnosti
v
rovná se

Nyní, pokud dojde k jediné změně
Změny
maximálně
pak se čitatel může změnit maximálně o faktor
a jmenovatel minimálně o faktor
. Poměr nové hustoty pravděpodobnosti (tj. S novou
) a ta starší je nanejvýš
.
Přesnost
V ideálním případě bychom chtěli náhodné losování
z mechanismu
téměř maximalizovat
. Pokud vezmeme v úvahu
být
pak můžeme ukázat, že pravděpodobnost odchylky mechanismu
je nízká, pokud je dostatečná hmotnost (ve smyslu
) hodnot
s hodnotou
blízko k optimálnímu.
Lemma: Nechat
a
, my máme
je nanejvýš
. Pravděpodobnost je převzata
.
Důkaz: Pravděpodobnost
je nanejvýš
, protože jmenovatel může být maximálně jeden. Protože obě pravděpodobnosti mají stejný normalizační člen,

Hodnota
je nanejvýš jeden, a proto tato vazba implikuje příkaz lemma.
Věta (přesnost): Pro tyto hodnoty
, my máme
.
Důkaz: Z předchozího lemmatu vyplývá, že pravděpodobnost, že skóre bude alespoň
je
. Hypotézou,
. Nahrazení hodnoty
dostaneme tuto pravděpodobnost alespoň
. Násobení s
získá požadovanou vazbu.
Můžeme předpokládat
pro
být menší nebo roven jedné ve všech výpočtech, protože vždy můžeme normalizovat s
.
Příklad použití exponenciálního mechanismu [5]
Než se dostaneme do podrobností příkladu, definujme některé pojmy, které budeme v naší diskusi značně používat.
Definice (globální citlivost): Globální citlivost dotazu
je jeho maximální rozdíl při hodnocení na dvou sousedních souborech dat
:

Definice: Predikátový dotaz
pro jakýkoli predikát
je definován jako

Všimněte si, že
pro jakýkoli predikát
.
Uvolňovací mechanismus
Toto je kvůli Avrim Blum, Katrina Ligett a Aaron Roth.
Definice (Užitečnost): A mechanismus[trvalý mrtvý odkaz ]
je
-užitečné pro dotazy ve třídě
s pravděpodobností
, pokud
a každý datový soubor
, pro
,
.
Neformálně to znamená, že s vysokou pravděpodobností dotaz
se bude chovat podobným způsobem na původní datové sadě
a na syntetickém datovém souboru
.
Zvažte běžný problém v dolování dat. Předpokládejme, že existuje databáze
s
záznamů. Každá položka se skládá z
- n-tice formuláře
kde
. Nyní se uživatel chce naučit a lineární poloviční prostor formuláře
. V podstatě chce uživatel zjistit hodnoty
tak, aby maximální počet n-tic v databázi uspokojil nerovnost. Algoritmus, který popisujeme níže, může generovat syntetickou databázi
což umožní uživateli naučit se (přibližně) stejný lineární poloprostor při dotazování na tuto syntetickou databázi. Motivací pro takový algoritmus je, že nová databáze bude generována odlišně soukromým způsobem, a tím zajistí soukromí jednotlivých záznamů v databázi
.
V této části ukážeme, že je možné uvolnit datovou sadu, která je užitečná pro koncepty z polynomu VC-Dimension třídy a zároveň dodržovat
-diferenciální soukromí, pokud je velikost původní datové sady alespoň polynomiální na VC-Dimension třídy konceptu. Formálně uvést:
Teorém: Pro jakoukoli třídu funkcí
a jakýkoli datový soubor
takhle

můžeme vygenerovat
- užitečná datová sada
který zachovává
-diferenciální soukromí. Jak jsme již zmínili dříve, algoritmus nemusí být efektivní.
Jedním zajímavým faktem je, že algoritmus, který budeme vyvíjet, generuje syntetický datový soubor, jehož velikost je nezávislá na původním datovém souboru; ve skutečnosti to záleží jen na VC-rozměr pojmové třídy a parametru
. Algoritmus vydává datovou sadu velikosti 
Půjčujeme si Věta o jednotné konvergenci z kombinatorika a uveďte z toho důsledek, který odpovídá naší potřebě.
Lemma: Vzhledem k jakékoli datové sadě
existuje datová sada
velikosti
takhle
.
Důkaz:
Z věty o jednotné konvergenci víme, že
![{displaystyle {egin {aligned} & Pr left [, left | Q_ {h} (D) -Q_ {h} ({widehat {D}}) ight | geq {frac {alpha} {2}} {ext {pro některé }} hin Hight] [5pt] leq {} & 2left ({frac {em} {operatorname {VCDim} (H)}} ight) ^ {operatorname {VCDim} (H)} cdot e ^ {- alfa ^ {2 } m / 8}, konec {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2e6c88a5f855d11871443c1ec966ec4e23855601)
kde je pravděpodobnost nad distribucí datové sady. Pokud je tedy RHS menší než jedna, víme jistě, že soubor dat
existuje. Abychom mohli svázat RHS na méně než jednu, potřebujeme to
, kde
je nějaká pozitivní konstanta. Vzhledem k tomu, že jsme již dříve uvedli, že vydáme datovou sadu velikosti
, takže pomocí tohoto vázán na
dostaneme
. Proto lemma.
Nyní vyvoláme exponenciální mechanismus.
Definice: Pro jakoukoli funkci
a vstupní datová sada
, exponenciální mechanismus vydává každou datovou sadu
s pravděpodobností úměrnou
.
Z exponenciálního mechanismu víme, že to zachovává
-diferenciální soukromí. Vraťme se k důkazu Věty.
Definujeme
.
Ukázat, že mechanismus splňuje požadavky
-užitečnost, měli bychom ukázat, že vydává nějakou datovou sadu
s
s pravděpodobností
. Existuje nanejvýš
výstupní datové soubory a pravděpodobnost, že
je nanejvýš úměrná
. Tedy spojením odborů je pravděpodobnost výstupu jakékoli takové datové sady
je nanejvýš úměrná
. Opět víme, že existuje nějaká datová sada
pro který
. Proto je takový datový soubor vydáván s pravděpodobností alespoň úměrnou
.
Nechat
událost, že exponenciální mechanismus vydává nějakou datovou sadu
takhle
.
událost, že exponenciální mechanismus vydává nějakou datovou sadu
takhle
.
![{displaystyle herefore {frac {Pr [A]} {Pr [B]}} geq {frac {e ^ {- alpha varepsilon n / 4}} {2 ^ {km} e ^ {- alpha varepsilon n / 2}} } = {frac {e ^ {alpha varepsilon n / 4}} {2 ^ {km}}}.,!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/580c2a4e3f596aa89dada148e7aa61b9e85e9bd5)
Nyní nastavte toto množství alespoň na
, zjistíme, že stačí mít

A proto dokazujeme větu.
Exponenciální mechanismus v jiných doménách
Ve výše uvedeném příkladu použití exponenciálního mechanismu je možné výstupovat syntetickou datovou sadu odlišně soukromým způsobem a pomocí datové sady odpovídat na dotazy s dobrou přesností. Jiné soukromé mechanismy, jako je zadní odběr vzorků,[6] který vrací parametry spíše než datové sady, může být ekvivalentní exponenciálnímu.[7]
Kromě nastavení soukromí byl exponenciální mechanismus studován také v kontextu teorie dražby a klasifikační algoritmy.[8] V případě aukcí exponenciální mechanismus pomáhá dosáhnout a pravdivý nastavení aukce.
Reference
- ^ Frank McSherry
- ^ Kunal Talwar
- ^ „Minulí vítězové ceny PET“.
- ^ F. McSherry a K. Talwar. Návrh mechanismu prostřednictvím rozdílové ochrany osobních údajů. Proceedings of the 48th Annual Symposium of Foundations of Computer Science, 2007.
- ^ Avrim Blum, Katrina Ligett, Aaron Roth. Přístup k teorii učení k neinteraktivní ochraně osobních údajů v databázi. Ve sborníku ze 40. ročníku sympozia ACM o teorii práce s počítačem, 2008
- ^ Christos Dimitrakakis, Blaine Nelson, Aikaterini Mitrokotsa, Benjamin Rubinstein. Robustní a soukromé Bayesovské závěry. Algoritmická teorie učení 2014
- ^ Yu-Xiang Wang, Stephen E. Fienberg, Alex Smola Soukromí zdarma: zadní vzorkování a stochastický přechod Monte Carlo. Mezinárodní konference o strojovém učení, 2015.
- ^ Shiva Prasad Kasiviswanathan, Homin K. Lee, Kobbi Nissim, Sofya Raskhodnikova, Adam Smith. Co se můžeme naučit soukromě? Sborník 49. výročního sympozia IEEE o základech informatiky z roku 2008. arXiv: 0803.0924
externí odkazy