Algoritmus počtu ztrát - Lossy Count Algorithm

The algoritmus ztrátového počtu je algoritmus identifikovat prvky v a datový tok jehož frekvence počet překračuje prahovou hodnotu danou uživatelem. Algoritmus funguje tak, že se datový proud dělí na „kbelíky“ jako u častých položek, ale jednou se vyplní co nejvíce kbelíků v hlavní paměti. Frekvence vypočítaná tímto algoritmem není vždy přesná, ale má prahovou hodnotu chyby, kterou lze určit uživatelem. Časový prostor běhu vyžadovaný algoritmem je nepřímo úměrný zadané prahové hodnotě chyby, a proto čím větší je chyba, tím menší je stopa.

Byl vytvořen významnými počítačovými vědci Rajeev Motwani a Gurmeet Singh Manku. Tento algoritmus nachází obrovské uplatnění ve výpočtech, kde data mají formu konečného datového proudu místo konečných soubor dat, např. měření síťového provozu, protokoly webového serveru, clickstreams.

Algoritmus

Sledovaný obecný algoritmus je načrtnut následovně[1]

  • Krok 1: Rozdělte příchozí datový proud do segmentů šířky , kde je uživatelem zmíněn jako chyba vázaná (spolu s minimální prahovou hodnotou podpory = ).
  • Krok 2: Zvyšte počet frekvencí každé položky podle nových hodnot segmentu. Po každém kbelíku snižte všechny čítače o 1.
  • Krok 3: Opakovat - Aktualizujte čítače a po každém segmentu snižte všechny čítače o 1.

Reference

  1. ^ Han, Jiawei. (2006). Dolování dat: koncepty a techniky. Kamber, Micheline. (2. vyd.). Amsterdam: Elsevier. ISBN  978-0-08-047558-5. OCLC  143252170.
  • Motwani, R; Manku, GS (2002). Msgstr "Přibližný počet frekvencí přes datové toky". VLDB '02 Sborník z 28. mezinárodní konference o velmi velkých databázích: 346–357.CS1 maint: ref = harv (odkaz)