Knihovna zrychlení analýzy dat - Data Analytics Acceleration Library - Wikipedia

Knihovna zrychlení analýzy dat
VývojářiIntel
První vydání25. srpna 2015; před 5 lety (2015-08-25)
Stabilní uvolnění
Aktualizace 2020 3/2020; Před 0 lety (2020)[1]
NapsánoC ++, Jáva, Krajta[2]
Operační systémMicrosoft Windows, Linux, Operační Systém Mac[2]
PlošinaIntel Atom, Intel Core, Intel Xeon, Intel Xeon Phi[2]
TypKnihovna nebo rámec
LicenceLicence Apache 2.0[3]
webová stránkasoftware.intel.com/obsah/ www/nás/ en/rozvíjet/nástroje/ data-analytics-acceleration-library.html

Intel Knihovna zrychlení analýzy dat (Intel DAAL) je knihovna optimalizovaných algoritmických stavebních bloků pro analýza dat etapy nejčastěji spojené s řešením Velká data problémy.[4][5][6][7]

Knihovna podporuje procesory Intel a je k dispozici pro Okna, Linux a Operační Systém Mac operační systémy.[2] Knihovna je navržena pro použití populárních datových platforem včetně Hadoop, Jiskra, R, a Matlab.[4][8]

Dějiny

Společnost Intel spustila Data Analytics Acceleration Library 25. srpna 2015 a nazvala ji Intel Data Analytics Acceleration Library 2016 (Intel DAAL 2016).[9] DAAL je dodáván s Intel Parallel Studio XE jako komerční produkt. Samostatná verze je dostupná komerčně nebo volně,[3][10] jediným rozdílem je podpora a údržba.

Licence

Licence Apache 2.0

Detaily

Funkční kategorie

Intel DAAL má následující algoritmy:[11][4][12]

  • Analýza
    • Momenty s nízkou objednávkou: Zahrnuje výpočet minimální, maximální, střední hodnoty, směrodatné odchylky, odchylky atd. Pro datovou sadu.
    • Kvantily: rozdělení pozorování do stejně velkých skupin definovaných kvantilovými objednávkami.
    • Korelační matice a variance-kovarianční matice: Základní nástroj pro pochopení statistické závislosti mezi proměnnými. Stupeň korelace naznačuje tendenci jedné změny indikovat pravděpodobnou změnu v jiné.
    • Kosinová vzdálenostová matice: Měření párové vzdálenosti pomocí kosinové vzdálenosti.
    • Matice korelační vzdálenosti: Měření párové vzdálenosti mezi položkami pomocí korelační vzdálenosti.
    • Shlukování: Seskupování dat do neoznačených skupin. Toto je typická technika používaná při „učení bez supervize“, kde neexistuje zavedený model, na který se lze spolehnout. Intel DAAL poskytuje 2 algoritmy pro klastrování: K-Means a „EM for GMM“.
    • Analýza hlavních komponent (PCA): nejpopulárnější algoritmus pro redukci rozměrů.
    • Těžba pravidel asociace: Detekce vzorů společného výskytu. Běžně známý jako „těžba nákupního košíku“.
    • Transformace dat pomocí maticového rozkladu: DAAL poskytuje Cholesky, QR a SVD rozkladové algoritmy.
    • Detekce odlehlých hodnot: Identifikace pozorování, která jsou neobvykle vzdálená od typického rozložení jiných pozorování.
  • Školení a predikce
    • Regrese
      • Lineární regrese: Nejjednodušší regresní metoda. Přizpůsobení lineární rovnice k modelování vztahu mezi závislými proměnnými (věci, které se mají předvídat) a vysvětlujícími proměnnými (věci známé).
    • Klasifikace: Sestavení modelu pro přiřazení položek do různých označených skupin. DAAL poskytuje v této oblasti více algoritmů, včetně klasifikátoru Naïve Bayes, Support Vector Machine a klasifikátorů více tříd.
    • Systémy doporučení
    • Neuronové sítě

Intel DAAL podporoval tři režimy zpracování:

  • Dávkové zpracování: Když se všechna data vejdou do paměti, je volána funkce pro zpracování dat najednou.
  • Online zpracování (také nazývané Streamování): když se všechna data nevejdou do paměti. Intel® DAAL může zpracovávat datové bloky jednotlivě a kombinovat všechny dílčí výsledky ve fázi finalizace.
  • Distribuované zpracování: DAAL podporuje model podobný MapReduce. Spotřebitelé v klastru zpracovávají místní data (fáze mapy) a poté proces Producent shromažďuje a kombinuje dílčí výsledky od spotřebitelů (fáze redukce). Intel DAAL nabízí flexibilitu v tomto režimu tím, že komunikační funkce zcela ponechává na vývojáře. Vývojáři se mohou rozhodnout použít pohyb dat v rámci, jako je Hadoop nebo Spark, nebo explicitně kódovat komunikaci s největší pravděpodobností pomocí MPI.

Reference

  1. ^ „Poznámky k verzi Intel® Data Analytics Acceleration Library“. software.intel.com.
  2. ^ A b C d Knihovna akcelerace Intel® Data Analytics (Intel® DAAL) | Software Intel®
  3. ^ A b „Open Source Project: Intel Data Analytics Acceleration Library (DAAL)“.
  4. ^ A b C „DAAL github“.
  5. ^ „Intel aktualizuje vývojovou sadu nástrojů s knihovnou akcelerace datové analýzy“.
  6. ^ „Intel přidává do matematických knihoven velké datové funkce“.
  7. ^ „Intel využívá HPC Core pro pushing nástrojů Analytics“. nextplatform.com. 2015-08-25.
  8. ^ „Vyzkoušejte Intel DAAL pro zpracování velkých dat“.
  9. ^ „Intel Data Analytics Acceleration Library“.
  10. ^ „Komunitní licence výkonových knihoven Intel“.
  11. ^ Příručka pro vývojáře pro Intel (R) Data Analytics Acceleration Library 2020
  12. ^ „Úvod do Intel DAAL, část 1: Polynomiální regrese s výpočtem dávkového režimu“.

externí odkazy