Univerzální hashování - Universal hashing - Wikipedia

v matematika a výpočetní, univerzální hash (v randomizovaný algoritmus nebo datová struktura) označuje výběr a hashovací funkce náhodně z rodiny hashových funkcí s určitou matematickou vlastností (viz definice níže). To zaručuje nízký počet kolizí očekávání, i když jsou data vybrána protivníkem. Je známo mnoho univerzálních rodin (pro hašování celých čísel, vektorů, řetězců) a jejich hodnocení je často velmi efektivní. Universal hashing má mnoho využití v informatice, například při implementaci hash tabulky, randomizované algoritmy, a kryptografie.

Úvod

Předpokládejme, že chceme mapovat klíče z nějakého vesmíru do koše (označené ). Algoritmus bude muset zpracovat nějakou sadu dat z klíče, který není předem znám. Cílem hashování je obvykle získat nízký počet kolizí (klíče od které přistávají ve stejném koši). Funkce deterministické hash nemůže nabídnout žádnou záruku v kontradiktorním nastavení, pokud je velikost je větší než , protože protivník si může vybrat být přesně tím preimage koše. To znamená, že všechny datové klíče přistávají ve stejné přihrádce, což činí hašování zbytečným. Navíc deterministická hashovací funkce to neumožňuje omývání: někdy se vstupní data ukážou jako špatná pro hashovací funkci (např. je zde příliš mnoho kolizí), proto bychom chtěli změnit hashovací funkci.

Řešením těchto problémů je náhodný výběr funkce z rodiny hash funkcí. Rodina funkcí se nazývá a univerzální rodina li, .

Jinými slovy, jakékoli dva klíče vesmíru kolidují maximálně s pravděpodobností když hash funkce je náhodně čerpáno z . To je přesně pravděpodobnost kolize, kterou bychom očekávali, kdyby hashovací funkce každému klíči přiřadila skutečně náhodné hash kódy. Někdy je definice uvolněná, aby umožňovala pravděpodobnost kolize . Tento koncept představili Carter a Wegman[1] v roce 1977 a našel četné aplikace v počítačové vědě (viz např [2]). Pokud máme horní hranici o pravděpodobnosti srážky říkáme, že máme - téměř univerzálnost.

Mnoho, ale ne všechny, univerzální rodiny mají následující silnější vlastnost jednotného rozdílu:

, když je čerpán náhodně z rodiny , rozdíl je rovnoměrně rozloženo v .

Všimněte si, že definice univerzality se týká pouze toho, zda , která počítá kolize. Vlastnost jednotného rozdílu je silnější.

(Podobně může být univerzální rodina XOR univerzální, pokud , hodnota je rovnoměrně rozloženo v kde je bitová exkluzivita nebo operace. To je možné pouze tehdy, když je síla dvou.)

Ještě silnější stav je párová nezávislost: tuto vlastnost máme, když máme pravděpodobnost, že provede hash na jakoukoli dvojici hodnot hash je, jako by byly naprosto náhodné: . Dvojice nezávislosti se někdy říká silná univerzálnost.

Další vlastností je uniformita. Říkáme, že rodina je jednotná, pokud jsou všechny hodnoty hash stejně pravděpodobné: pro jakoukoli hodnotu hash . Univerzálnost neznamená uniformitu. Silná univerzálnost však znamená uniformitu.

Vzhledem k tomu, že rodina s vlastností rovnoměrné vzdálenosti lze vytvořit párově nezávislou nebo silně univerzální hashovací rodinu přidáním rovnoměrně rozložené náhodné konstanty s hodnotami v k hashovacím funkcím. (Podobně, pokud je síla dvou, můžeme dosáhnout párové nezávislosti na univerzální hashovací rodině XOR tím, že uděláme exkluzivní nebo rovnoměrně distribuovanou náhodnou konstantu.) Protože posun o konstantu je v aplikacích někdy irelevantní (např. hash tabulky), je třeba pečlivě rozlišovat mezi jednotnou vlastností vzdálenosti a párově nezávislou se někdy nedělá.[3]

U některých aplikací (například hash tabulek) je důležité, aby nejméně významné bity hodnot hash byly také univerzální. Je-li rodina silně univerzální, je zaručeno: pokud je silně univerzální rodina , pak rodina vytvořená z funkcí pro všechny je také silně univerzální pro . Totéž bohužel neplatí o (pouze) univerzálních rodinách. Například rodina vytvořená z funkce identity je zjevně univerzální, ale rodina se z této funkce skládá není univerzální.

UMAC a Poly1305-AES a několik dalších ověřovací kód zprávy algoritmy jsou založeny na univerzálním hašování.[4][5]V takových aplikacích si software vybere novou hashovací funkci pro každou zprávu na základě jedinečného nonce pro tuto zprávu.

Několik implementací hash tabulky je založeno na univerzálním hashování. V takových aplikacích software obvykle zvolí novou hashovací funkci až poté, co si všimne, že došlo ke kolizi „příliš mnoha“ kláves; do té doby se stále používá stejná hashovací funkce. (Některá schémata řešení kolizí, například dynamické dokonalé hašování, vyberte novou hashovací funkci pokaždé, když dojde ke kolizi. Další schémata řešení kolizí, jako např kukačka hash a Hašování se dvěma možnostmi, povolte několik kolizí před výběrem nové hashovací funkce). Přehled nejrychleji známých univerzálních a silně univerzálních hashovacích funkcí pro celá čísla, vektory a řetězce se nachází v.[6]

Matematické záruky

Pro jakoukoli pevnou sadu z klíče, použití univerzální rodiny zaručuje následující vlastnosti.

  1. Pro všechny pevné v , očekávaný počet klíčů v koši je . Při implementaci hash tabulek do řetězení, toto číslo je úměrné očekávané době provozu operace zahrnující klíč (například dotaz, vložení nebo odstranění).
  2. Očekávaný počet párů klíčů v s že se srazí () je výše ohraničen , což je v pořádku . Když počet košů, je vybráno lineárně v (tj. je určena funkcí v ), očekávaný počet kolizí je . Při hašování do přihrádky, vůbec nedochází ke kolizím s pravděpodobností alespoň poloviny.
  3. Očekávaný počet klíčů v zásobnících s minimálně klíče v nich jsou výše ohraničeny .[7] Pokud je tedy kapacita každého zásobníku omezena na trojnásobek průměrné velikosti (), celkový počet klíčů v přetékajících zásobnících je maximálně . To platí pouze pro hashovací rodinu, jejíž pravděpodobnost kolize je výše ohraničena . Pokud se použije slabší definice, ohraničí ji , tento výsledek již není pravdivý.[7]

Protože výše uvedené záruky platí pro jakoukoli pevnou sadu , uchovávají, pokud je soubor dat vybrán protivníkem. Protivník však musí provést tuto volbu před (nebo nezávisle na) náhodném výběru algoritmu hash funkce. Pokud protivník dokáže pozorovat náhodnou volbu algoritmu, náhodnost neslouží žádnému účelu a situace je stejná jako deterministický hash.

Druhá a třetí záruka se obvykle používají ve spojení s omývání. Může být například připraven randomizovaný algoritmus, který některé zvládne počet kolizí. Pokud pozoruje příliš mnoho kolizí, vybere další náhodný z rodiny a opakuje se. Univerzálnost zaručuje, že počet opakování je a geometrická náhodná proměnná.

Stavby

Vzhledem k tomu, že libovolná počítačová data mohou být reprezentována jako jedno nebo více strojových slov, je obecně potřeba hash funkce pro tři typy domén: strojová slova („celá čísla“); vektory pevné délky strojových slov; a vektory s proměnnou délkou ("řetězce").

Celá čísla hashování

Tato část se týká případu hašování celých čísel, která se vejdou do slov strojů; operace jako násobení, sčítání, dělení atd. jsou tedy levné pokyny na úrovni stroje. Nechte vesmír být hašován .

Původní návrh Cartera a Wegmana[1] bylo vybrat prvočíslo a definovat

kde jsou náhodně vybraná celá čísla modulo s . (Toto je jediná iterace a lineární shodný generátor.)

To vidět je univerzální rodina, všimněte si platí pouze tehdy, když

pro celé číslo mezi a . Li , jejich rozdíl, je nenulová a má inverzní modulo . Řešení pro výnosy

.

Existují možné volby pro (od té doby je vyloučeno) a různé v povoleném rozsahu, možné nenulové hodnoty pro pravou stranu. Pravděpodobnost srážky tedy je

.

Další způsob, jak to vidět je univerzální rodina prostřednictvím pojmu statistická vzdálenost. Napište rozdíl tak jako

.

Od té doby je nenulová a je rovnoměrně rozloženo v , z toho vyplývá, že modulo je také rovnoměrně distribuován v . Distribuce je tedy téměř jednotný, až do rozdílu v pravděpodobnosti mezi vzorky. Ve výsledku je statistická vzdálenost k jednotné rodině , který se stane zanedbatelným, když .

Rodina jednodušších hashovacích funkcí

je pouze přibližně univerzální: pro všechny .[1] Tato analýza je navíc téměř těsná; Carter a Wegman [1] Ukaž to kdykoli .

Vyhněte se modulární aritmetice

Nejmodernější způsob hašování celých čísel je multi-shift schéma popsané Dietzfelbingerem a kol. v roce 1997.[8] Tím, že se vyhneme modulární aritmetice, je tato metoda mnohem snazší implementovat a v praxi také běží podstatně rychleji (obvykle alespoň o faktor čtyři[9]). Schéma předpokládá, že počet košů je síla dvou, . Nechat být počet bitů ve strojovém slovu. Poté jsou hashovací funkce parametrizovány na lichá kladná celá čísla (to se hodí slovem bitů). Vyhodnotit , znásobte podle modulo a pak udržujte vysoký pořádek bity jako hash kód. V matematické notaci je to tak

a lze jej implementovat v C -jako programovací jazyky od

(size_t) (a * x) >> (w-M)

Tento režim ano ne uspokojit jednotnou vlastnost rozdílu a je pouze - téměř univerzální; pro všechny , .

Chcete-li pochopit chování funkce hash, všimněte si, že pokud a mít tedy stejné „M“ bity nejvyššího řádu má buď všechny 1 nebo všechny 0 jako M bity nejvyššího řádu (podle toho, zda nebo je větší). Předpokládejme, že nejméně významný nastavený bit na pozici se objeví . Od té doby je náhodné liché celé číslo a lichá celá čísla mají inverze v prsten , z toho vyplývá, že budou rovnoměrně rozděleny mezi -bit celá čísla s nejméně významným nastaveným bitem na pozici . Pravděpodobnost, že tyto bity jsou všechny 0 nebo všechny 1, je proto maximálně Na druhou stranu, pokud , pak M bitů vyššího řádu obsahují jak 0, tak 1, takže je jisté, že . Nakonec, pokud pak kousnout z je 1 a jen a jen pokud bity jsou také 1, což se stane s pravděpodobností .

Tato analýza je těsná, jak lze ukázat na příkladu a . Chcete-li získat skutečně „univerzální“ hashovací funkci, můžete použít schéma multi-add-shift

které lze implementovat v C -jako programovací jazyky od

(size_t) (a * x + b) >> (w-M)

kde je náhodné liché kladné celé číslo s a je náhodné nezáporné celé číslo s . S těmito možnostmi a , pro všechny .[10] To se mírně, ale důležitě liší od nesprávného překladu v anglickém článku.[11]

Hašovací vektory

Tato část se zabývá hašováním vektoru strojových slov s pevnou délkou. Interpretujte vstup jako vektor z strojová slova (celá čísla bitů každý). Li je univerzální rodina s jednotnou rozdílnou vlastností, následující rodina (sahá až k Carterovi a Wegmanovi[1]) má také vlastnost jednotného rozdílu (a je tedy univerzální):

, kde každý je vybrán nezávisle náhodně.

Li je mocnina dvou, jeden může nahradit součet výlučným nebo.[12]

V praxi, pokud je k dispozici aritmetika s dvojitou přesností, je vytvořena instance s hashovací rodinou s vícenásobným posunem hash funkcí.[13] Inicializujte hashovací funkci vektorem náhodných zvláštní celá čísla zapnuta bity každý. Pak pokud je počet košů pro :

.

Počet násobení je možné snížit na polovinu, což se v praxi zhruba promítne do dvojnásobného zrychlení.[12] Inicializujte hashovací funkci vektorem náhodných zvláštní celá čísla zapnuta bity každý. Následující hash rodina je univerzální:[14]

.

Pokud operace s dvojitou přesností nejsou k dispozici, lze vstup interpretovat jako vektor polosloví (-bit celá čísla). Algoritmus poté použije násobení, kde byl počet polovičních slov ve vektoru. Algoritmus tedy běží „rychlostí“ jednoho násobení na každé slovo vstupu.

Stejné schéma lze také použít pro hašování celých čísel interpretací jejich bitů jako vektorů bajtů. V této variantě je vektorová technika známá jako hašování tabulky a poskytuje praktickou alternativu k univerzálním hašovacím schématům založeným na násobení.[15]

Je také možná silná univerzálnost při vysokých rychlostech.[16] Inicializujte hashovací funkci vektorem náhodných celých čísel bity. Vypočítat

.

Výsledek je silně univerzální bity. Experimentálně bylo zjištěno, že běží na 0,2 cyklu CPU na bajt v posledních procesorech Intel pro .

Hashing řetězce

To se týká hašování a proměnné velikosti vektor strojových slov. Pokud lze délku řetězce omezit malým počtem, je nejlepší použít vektorové řešení shora (koncepčně polstrování vektoru nulami až po horní mez). Požadovaný prostor je maximální délka řetězce, ale čas k vyhodnocení je jen délka . Pokud jsou v řetězci zakázány nuly, lze při vyhodnocení funkce hash ignorovat nulovou výplň, aniž by to ovlivnilo univerzálnost.[12] Všimněte si, že pokud jsou v řetězci povoleny nuly, pak by bylo nejlepší přidat fiktivní nenulový znak (např. 1) ke všem řetězcům před odsazením: to zajistí, že to nebude ovlivněno univerzálností.[16]

Nyní předpokládejme, že chceme hash , kde je dobrá vazba na není a priori známo. Univerzální rodina navržená [13] zachází s řetězcem jako koeficienty polynomiálního modulo velké prvočíslo. Li , nechť být hlavní a definovat:

, kde je jednotně náhodný a je vybrán náhodně z celočíselné domény mapující univerzální rodinu .

Pomocí vlastností modulární aritmetiky lze výše vypočítat bez vytváření velkých čísel pro velké řetězce následujícím způsobem:[17]

uint hash(Tětiva X, int A, int p)	uint h = POČÁTEČNÍ HODNOTA	pro (uint i=0 ; i < X.délka ; ++i)		h = ((h*A) + X[i]) mod p	vrátit se h

Tento Rabin-Karp válcování hash je založen na a lineární shodný generátor.[18]Výše uvedený algoritmus je také známý jako Multiplikativní hash funkce.[19] V praxi se mod operátor a parametr p lze se úplně vyhnout jednoduchým povolením přetečení celého čísla, protože je to ekvivalentní mod (Max-Int-hodnota + 1) v mnoha programovacích jazycích. Níže uvedená tabulka zobrazuje hodnoty vybrané k inicializaci h a pro některé populární implementace.

ImplementacePOČÁTEČNÍ HODNOTAA
Bernstein hashovací funkce djb2[20]538133
STLPort 4.6.205
Kernighan a Ritchie hashovací funkce[21]031
java.lang.String.hashCode ()[22]031

Zvažte dva řetězce a nechte být délka delšího; pro analýzu je kratší řetězec koncepčně polstrovaný nulami až do délky . Kolize před podáním žádosti to naznačuje je kořen polynomu s koeficienty . Tento polynom má maximálně kořeny modulo , takže pravděpodobnost srážky je maximálně . Pravděpodobnost kolize náhodným přináší celkovou pravděpodobnost kolize na . Pokud je tedy hlavní je dostatečně velká ve srovnání s délkou hash řetězců, rodina je velmi blízká univerzální (v statistická vzdálenost ).

Mezi další univerzální rodiny hashovacích funkcí používaných k hašování řetězců neznámé délky na hodnoty hash s pevnou délkou patří Rabinův otisk prstu a Buzhash.

Vyhněte se modulární aritmetice

Ke zmírnění výpočetní penalizace modulární aritmetiky se v praxi používají tři triky:[12]

  1. Jeden si vybere hlavní být blízko síle dvou, například a Mersenne prime. To umožňuje aritmetické modulo být implementován bez dělení (pomocí rychlejších operací, jako je sčítání a směny). Například na moderních architekturách lze pracovat , zatímco jsou 32bitové hodnoty.
  2. Lze použít vektorové hašování na bloky. Například jeden použije hašování vektorů na každý 16-slovní blok řetězce a použije hash řetězce na Výsledek. Protože pomalejší hašování řetězců je aplikováno na podstatně menší vektor, bude to v podstatě stejně rychlé jako hašování vektorů.
  3. Jeden vybere jako dělitel sílu dvou, což umožňuje aritmetické modulo které mají být implementovány bez dělení (pomocí rychlejších operací bit maskování ). The Rodina hash funkce NH zaujímá tento přístup.

Viz také

Reference

  1. ^ A b C d E Carter, Larry; Wegman, Mark N. (1979). "Univerzální třídy hashovacích funkcí". Journal of Computer and System Sciences. 18 (2): 143–154. doi:10.1016/0022-0000(79)90044-8. Verze konference v STOC'77.
  2. ^ Miltersen, Peter Bro. „Universal Hashing“ (PDF). Archivovány od originál (PDF) dne 24. května 2011. Citováno 24. června 2009.
  3. ^ Motwani, Rajeev; Raghavan, Prabhakar (1995). Randomizované algoritmy. Cambridge University Press. str. 221. ISBN  0-521-47465-5.
  4. ^ David Wagner, vyd.„Pokroky v kryptologii - CRYPTO 2008“.p. 145.
  5. ^ Jean-Philippe Aumasson, Willi Meier, Raphael Phan, Luca Henzen."Hash funkce BLAKE".2014.p. 10.
  6. ^ Thorup, Mikkel (2015). "Vysokorychlostní hašování pro celá čísla a řetězce". arXiv:1504.06804 [cs.DS ].
  7. ^ A b Baran, Ilya; Demaine, Erik D .; Pătraşcu, Mihai (2008). „Subquadratic Algorithms for 3SUM“ (PDF). Algorithmica. 50 (4): 584–596. doi:10.1007 / s00453-007-9036-3.
  8. ^ Dietzfelbinger, Martin; Hagerup, Torben; Katajainen, Jyrki; Penttonen, Martti (1997). „Spolehlivý randomizovaný algoritmus pro problém nejbližšího páru“ (Postscript). Journal of Algorithms. 25 (1): 19–51. doi:10.1006 / jagm.1997.0873. Citováno 10. února 2011.
  9. ^ Thorup, Mikkel. "Algoritmy učebnic na SODA".
  10. ^ Woelfel, Philipp (2003). Über die Komplexität der Multiplikation in eingeschränkten Branchingprogrammmodellen (PDF) (Ph.D.). Universität Dortmund. Citováno 18. září 2012.
  11. ^ Woelfel, Philipp (1999). Efektivní silně univerzální a optimálně univerzální hashování. Mathematical Foundations of Computer Science 1999. LNCS. 1672. str. 262–272. doi:10.1007/3-540-48340-3_24.
  12. ^ A b C d Thorup, Mikkel (2009). Řetězcový hash pro lineární sondování. Proc. 20. sympozium ACM-SIAM o diskrétních algoritmech (SODA). str. 655–664. CiteSeerX  10.1.1.215.4253. doi:10.1137/1.9781611973068.72., oddíl 5.3
  13. ^ A b Dietzfelbinger, Martin; Gil, Joseph; Matias, Yossi; Pippenger, Nicholas (1992). Polynomiální hashovací funkce jsou spolehlivé (rozšířený abstrakt). Proc. 19. mezinárodní kolokvium o automatech, jazycích a programování (ICALP). 235–246.
  14. ^ Black, J .; Halevi, S .; Krawczyk, H .; Krovetz, T. (1999). UMAC: Rychlé a bezpečné ověřování zpráv (PDF). Pokroky v kryptologii (CRYPTO '99)., Rovnice 1
  15. ^ Pătraşcu, Mihai; Thorup, Mikkel (2011). Síla jednoduchého hašování tabulek. Sborník 43. ročníku ACM Symposium on Theory of Computing (STOC '11). s. 1–10. arXiv:1011.5200. doi:10.1145/1993636.1993638.
  16. ^ A b Kaser, Owen; Lemire, Daniel (2013). Msgstr "Silně univerzální hashování řetězce je rychlé". Počítačový deník. Oxford University Press. 57 (11): 1624–1638. arXiv:1202.4961. doi:10.1093 / comjnl / bxt070.
  17. ^ „Prezentace kurzu hebrejské univerzity“ (PDF).
  18. ^ Robert Uzgalis.„Funkce hash knihovny“.1996.
  19. ^ Kankowsk, Peter. „Hašovací funkce: empirické srovnání“.
  20. ^ Yigit, Ozan. "Řetězcové hash funkce".
  21. ^ Kernighan; Ritchie (1988). „6“. Programovací jazyk C. (2. vyd.). str.118. ISBN  0-13-110362-8.CS1 maint: více jmen: seznam autorů (odkaz)
  22. ^ „String (Java Platform SE 6)“. docs.oracle.com. Citováno 2015-06-10.

Další čtení

externí odkazy