Apache Drill - Apache Drill
tento článek příliš spoléhá na Reference na primární zdroje.Září 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Vývojáři | Softwarová nadace Apache |
---|---|
Stabilní uvolnění | 1.17.0 / 26. prosince 2019 |
Úložiště | Úložiště vrtáků |
Napsáno | Jáva |
Operační systém | Cross-platform |
Licence | Licence Apache 2.0 |
webová stránka | vrtat |
Apache Drill je open-source softwarový rámec který podporuje datově náročné distribuované aplikace pro interaktivní analýzu rozsáhlých datových souborů. Drill je otevřená verze Google Dremel systém, který je k dispozici jako infrastrukturní služba s názvem Google BigQuery. Jeden výslovně uvedl cíl návrhu je, že Drill je schopen škálovat na 10 000 serverů nebo více a je schopen zpracovat petabajty dat a biliony záznamů během několika sekund. Drill je projekt nejvyšší úrovně Apache.[1]
Vrták podporuje řadu NoSQL databáze a souborové systémy, včetně Alluxio, HBase, MongoDB, MapR -DB, HDFS, MapR-FS, Amazon S3, Azure Blob Storage, Cloudové úložiště Google, Rychlý, NAS a místní soubory. Jeden dotaz může spojit data z více datových úložišť. Můžete se například připojit ke kolekci uživatelských profilů MongoDB s adresářem přihlášených událostí Hadoop.
Optimalizátor s podporou datového úložiště společnosti Drill automaticky restrukturalizuje plán dotazů, aby využil možnosti interního zpracování datového úložiště. Kromě toho podporuje Drill datová lokalita, pokud jsou Drill a úložiště dat ve stejných uzlech.[2]
Apache Drill 1.9 přidal dynamiku uživatelem definované funkce.
Apache Drill 1.11 přidal funkce související s kryptografií a podporu formátu souborů PCAP.
Funkce
- Schématický model dokumentu JSON podobný schématu MongoDB a Elasticsearch, aniž by bylo nutné deklarovat formální schéma
- Průmyslová standardní API: ANSI SQL, ODBC / JDBC, RESTful API
- Extrémně uživatelsky přívětivý a přátelský k vývojářům
- Zásuvná architektura umožňuje připojení k více datovým úložištím
Back-end podpora
Drill je primárně zaměřen na nerelační datová úložiště, včetně Apache Hadoop textové soubory, NoSQL a cloudové úložiště. Pozoruhodná funkce také zahrnuje dotazování na místě místních souborů JSON a Apache Parquet. Některá další úložiště dat, která podporuje, zahrnují:
- Všechny distribuce Hadoop (HDFS API 2.3+), včetně Apache Hadoop, MapR, CDH a Amazon EMR
- NoSQL: MongoDB, Apache HBase, Apache Cassandra
- Online analytické zpracování: Apache Kudu, Apache Druid, OpenTSDB
- Cloudové úložiště: Amazon S3, Cloudové úložiště Google, Azure Blob Storage, Swift, IBM Cloud Object Storage
- Různé datové formáty, včetně Apache Avro, Apache Parkety a JSON
- Doplňky úložiště RDBM (pomocí JDBC se připojit MySQL, PostgreSQL, a další)
Nové úložiště dat lze přidat vytvořením pluginu úložiště. „Schématický“ datový model JSON společnosti Drill umožňuje dotazovat se nerelačních datových úložišť in-situ.[3]
Podpora front-end
Samotný vrták lze dotazovat prostřednictvím JDBC, ODBC nebo ODPOČINEK prostřednictvím různých metod a jazyků, včetně Pythonu a Javy. Výchozí instalace zahrnuje webové rozhraní umožňující koncovým uživatelům přímo spouštět ANSI SQL a exportovat datové tabulky jako CSV soubory bez programování.
Knihovna palubní desky, Apache Superset, je zvláště vhodný pro vizualizaci dat dotazovaných pomocí aplikace Drill.
Viz také
Reference
- ^ „Apache Software Foundation oznamuje Apache ™ Drill ™ jako projekt nejvyšší úrovně“. Citováno 2014-12-02.
- ^ „Apache Drill - SQL bez schémat pro Hadoop, NoSQL a cloudové úložiště“. drill.apache.org. Citováno 2015-12-29.
- ^ „Často kladené otázky - Apache Drill“. drill.apache.org. Citováno 2015-12-29.
Doklady
Některé práce ovlivnily vznik a design. Zde je částečný seznam:
- 2005 Od databází po datové prostory: nová abstrakce pro správu informací, autoři zdůrazňují potřebu úložných systémů přijímat všechny datové formáty a poskytovat API pro přístup k datům, která se vyvíjejí na základě pochopení dat úložným systémem.
- 2010 Dremel: Interaktivní analýza webových datových sad