Extrahovat, transformovat, načíst - Extract, transform, load

v výpočetní, extrahovat, transformovat, načíst (ETL) je obecný postup kopírování dat z jednoho nebo více zdrojů do cílového systému, který představuje data odlišně od zdroje (zdrojů) nebo v jiném kontextu než zdroj (zdroje). Proces ETL se stal populárním konceptem v 70. letech a je často používán v skladování dat.[1]

Extrakce dat zahrnuje extrakci dat z homogenních nebo heterogenních zdrojů; transformace dat zpracovává data pomocí čištění dat a jejich transformace do správného formátu / struktury úložiště pro účely dotazování a analýzy; Nakonec načítání dat popisuje vložení dat do konečné cílové databáze, jako je úložiště provozních dat, a datový trh, datové jezero nebo datový sklad.[2][3]

Správně navržený systém ETL extrahuje data ze zdrojových systémů, vynucuje standardy kvality a konzistence dat, přizpůsobuje data tak, aby bylo možné použít samostatné zdroje, a nakonec dodává data ve formátu připraveném pro prezentaci, aby vývojáři aplikací mohli vytvářet aplikace a koncoví uživatelé může rozhodovat.[4]

Vzhledem k tomu, že extrakce dat nějakou dobu trvá, je běžné provádět tři fáze v potrubí. Zatímco se data extrahují, provede se další proces transformace při zpracování již přijatých dat a připraví je na načtení, zatímco načítání dat začíná bez čekání na dokončení předchozích fází.

Systémy ETL běžně integrují data z více aplikací (systémů), obvykle vyvinutá a podporovaná různými dodavateli nebo hostovaná na samostatném počítačovém hardwaru. Samostatné systémy obsahující původní data jsou často spravovány a provozovány různými zaměstnanci. Například systém nákladového účetnictví může kombinovat data ze mezd, prodeje a nákupu.

Konvenční ETL diagram
Konvenční ETL diagram[4]

Výpis

První část procesu ETL zahrnuje extrakci dat ze zdrojových systémů. V mnoha případech to představuje nejdůležitější aspekt ETL, protože extrakce dat správně připravuje půdu pro úspěch následných procesů. Většina projektů datových skladů kombinuje data z různých zdrojových systémů. Každý samostatný systém může také používat jinou organizaci dat a / nebo formát. Mezi běžné formáty zdrojů dat patří relační databáze, XML, JSON a ploché soubory, ale může zahrnovat i nerelační databázové struktury, jako je Systém správy informací (IMS) nebo jiné datové struktury jako např Metoda přístupu k virtuálnímu úložišti (VSAM) nebo Metoda indexovaného sekvenčního přístupu (ISAM), nebo dokonce formáty načtené z vnějších zdrojů například jako web spidering nebo škrábání obrazovky. Streamování extrahovaného zdroje dat a načítání za běhu do cílové databáze je dalším způsobem provádění ETL, když není vyžadováno žádné mezilehlé ukládání dat. Fáze extrakce si obecně klade za cíl převést data do jednoho formátu vhodného pro zpracování transformace.

Vnitřní část extrakce zahrnuje ověření dat, aby se potvrdilo, zda data získaná ze zdrojů mají v dané doméně správné / očekávané hodnoty (například vzor / výchozí hodnota nebo seznam hodnot). Pokud data selhají v pravidlech ověřování, jsou zcela nebo zčásti odmítnuta. Odmítnutá data jsou v ideálním případě hlášena zpět do zdrojového systému k další analýze za účelem identifikace a opravy nesprávných záznamů.

Přeměnit

V transformace dat fázi se na extrahovaná data aplikuje řada pravidel nebo funkcí, aby se připravila na načtení do koncového cíle.

Důležitou funkcí transformace je čištění dat, jehož cílem je předat cíli pouze „správná“ data. Výzvou při interakci různých systémů je propojení a komunikace příslušných systémů. Sady znaků, které mohou být k dispozici v jednom systému, nemusí být v jiných.

V ostatních případech může být pro splnění obchodních a technických potřeb serveru nebo datového skladu vyžadován jeden nebo více z následujících typů transformace:

  • Výběr pouze určitých sloupců k načtení: (nebo výběr nula sloupce se nenačítají). Například pokud mají zdrojová data tři sloupce (neboli „atributy“), roll_no, věk a plat, pak výběr může trvat pouze roll_no a plat. Nebo mechanismus výběru může ignorovat všechny ty záznamy, kde není přítomen plat (plat = null).
  • Překlad kódovaných hodnot: (např., pokud zdrojový systém kóduje muže jako „1“ a ženu jako „2“, ale kódy skladu mužské jako „M“ a ženské jako „F“)
  • Kódování hodnot ve volném tvaru: (např., mapování „Muž“ na „M“)
  • Odvození nové vypočítané hodnoty: (např., sale_amount = qty * unit_price)
  • Řazení nebo řazení dat na základě seznamu sloupců pro zlepšení výkonu vyhledávání
  • Připojování data z více zdrojů (např., vyhledávání, sloučení) a deduplikování data
  • Agregace (například souhrn - shrnutí více řádků dat - celkový prodej pro každý obchod a pro každý region atd.)
  • Generování náhradní klíč hodnoty
  • Transpozice nebo otočný (soustružení více sloupců do více řádků nebo naopak)
  • Rozdělení sloupce na více sloupců (např., převod a seznam oddělený čárkami, zadaný jako řetězec v jednom sloupci, do jednotlivých hodnot v různých sloupcích)
  • Rozdělení opakujících se sloupců
  • Vyhledávání a ověřování příslušných údajů z tabulek nebo referenčních souborů
  • Použití jakékoli formy ověření údajů; neúspěšné ověření může mít za následek úplné odmítnutí dat, částečné odmítnutí nebo vůbec žádné odmítnutí, a tedy žádná, některá nebo všechna data nejsou předána do dalšího kroku v závislosti na návrhu pravidla a zpracování výjimek; mnoho z výše uvedených transformací může mít za následek výjimky, např. když překlad kódu analyzuje neznámý kód v extrahovaných datech

Zatížení

Fáze načítání načte data do koncového cíle, kterým může být jakékoli úložiště dat, včetně jednoduchého oddělovaného plochého souboru nebo datový sklad.[5] V závislosti na požadavcích organizace se tento proces velmi liší. Některé datové sklady mohou přepsat existující informace kumulativními informacemi; aktualizace extrahovaných dat se často provádí denně, týdně nebo měsíčně. Ostatní datové sklady (nebo dokonce jiné části stejného datového skladu) mohou přidávat nová data v historické podobě v pravidelných intervalech - například každou hodinu. Abychom tomu porozuměli, zvažte datový sklad, který je vyžadován k udržování záznamů o prodeji za poslední rok. Tento datový sklad přepíše všechna data starší než rok novějšími daty. Zadávání údajů pro jedno roční období se však provádí historickým způsobem. Načasování a rozsah, který se má nahradit nebo připojit, jsou strategické možnosti návrhu v závislosti na dostupném čase a podnikání potřeby. Složitější systémy mohou udržovat historii a audit trail všech změn dat načtených v datovém skladu.[6]

Protože fáze načítání interaguje s databází, platí omezení definovaná ve schématu databáze - stejně jako v aktivačních událostech aktivovaných při načtení dat (například jedinečnost, referenční integrita, povinná pole), která rovněž přispívají k celkovému výkonu dat v procesu ETL.

  • Například finanční instituce může mít informace o zákazníkovi v několika odděleních a každé oddělení může mít informace o tomto zákazníkovi uvedeny jiným způsobem. Členské oddělení může uvést zákazníka podle jména, zatímco účetní oddělení může uvést zákazníka podle čísla. ETL může svazovat všechny tyto datové prvky a konsolidovat je do jednotné prezentace, například pro ukládání v databázi nebo datovém skladu.
  • Dalším způsobem, jakým společnosti používají ETL, je trvalý přesun informací do jiné aplikace. Například nová aplikace může používat jiného dodavatele databáze a pravděpodobně velmi odlišné schéma databáze. ETL lze použít k transformaci dat do formátu vhodného pro novou aplikaci.
  • Příkladem může být Systém úhrady nákladů a nákladů (ECRS) jako používá účetnictví, poradenské služby, a právní firmy. Data obvykle končí v čas a fakturační systém, ačkoli některé podniky mohou také využít nezpracovaná data pro zprávy o produktivitě zaměstnanců pro personální oddělení (personální oddělení) nebo zprávy o využití zařízení pro správu zařízení.

Reálný cyklus ETL

Typický skutečný cyklus ETL se skládá z následujících kroků provádění:

  1. Zahájení cyklu
  2. Stavět referenční údaje
  3. Výpis (ze zdrojů)
  4. Ověřit
  5. Přeměnit (čistý, aplikovat obchodní pravidla, zkontrolujte integrita dat, vytvořit agregáty nebo se rozdělí)
  6. Fáze (načíst do inscenace tabulky, pokud jsou použity)
  7. Auditní zprávy (například o dodržování obchodních pravidel. Také v případě poruchy pomáhá diagnostikovat / opravit)
  8. Publikovat (do cílových tabulek)
  9. Archiv

Výzvy

Procesy ETL mohou zahrnovat značnou složitost a u nesprávně navržených systémů ETL mohou nastat významné provozní problémy.

Rozsah hodnot dat nebo kvalita dat v operačním systému může překročit očekávání návrhářů v době, kdy jsou specifikována pravidla ověřování a transformace. Profilování dat zdroje během analýzy dat může identifikovat podmínky dat, které musí být spravovány specifikacemi pravidel transformace, což vede ke změně pravidel validace explicitně a implicitně implementovaných v procesu ETL.

Datové sklady se obvykle sestavují z různých zdrojů dat s různými formáty a účely. Jako takový je ETL klíčovým procesem, který umožňuje shromáždit všechna data ve standardním homogenním prostředí.

Analýza návrhu[7] by měl založit škálovatelnost systému ETL po celou dobu jeho používání - včetně porozumění objemům dat, která musí být uvnitř zpracována dohody o úrovni služeb. Čas, který je k dispozici k extrakci ze zdrojových systémů, se může změnit, což může znamenat, že bude nutné zpracovat stejné množství dat za kratší dobu. Některé systémy ETL musí škálovat, aby mohly zpracovávat terabajty dat, aby aktualizovaly datové sklady o desítky terabajtů dat. Zvyšující se objemy dat mohou vyžadovat návrhy, které lze denně škálovat šarže do vícedenní mikro dávky k integraci s fronty zpráv nebo sběr dat o změně dat v reálném čase pro nepřetržitou transformaci a aktualizaci.

Výkon

Prodejci ETL porovnávají své záznamové systémy s více TB (terabajty) za hodinu (nebo ~ 1 GB za sekundu) pomocí výkonných serverů s více CPU, několika pevnými disky, více gigabitovými síťovými připojeními a velkou pamětí.

V reálném životě k nejpomalejší části procesu ETL obvykle dochází ve fázi načítání databáze. Databáze mohou fungovat pomalu, protože se musí postarat o souběžnost, údržbu integrity a indexy. Pro lepší výkon tedy může mít smysl použít:

  • Přímý výpis cesty metoda nebo hromadné uvolnění, kdykoli je to možné (namísto dotazování na databázi), aby se snížilo zatížení zdrojového systému při získávání vysokorychlostního extraktu
  • Většina zpracování transformace mimo databázi
  • Hromadné nakládání, kdykoli je to možné

I při použití hromadných operací je přístup k databázi obvykle překážkou v procesu ETL. Některé běžné metody používané ke zvýšení výkonu jsou:

  • Rozdělit tabulky (a indexy): zkuste zachovat velikost diskových oddílů podobnou (sledujte nula hodnoty, které mohou zkosit rozdělení)
  • Před načtením proveďte veškerou validaci ve vrstvě ETL: deaktivujte integrita kontrola (zakázat omezení ...) v cílových databázových tabulkách během načítání
  • Zakázat spouští (deaktivovat spoušť ...) v tabulkách cílové databáze během načítání: simulujte jejich účinek jako samostatný krok
  • Generovat ID ve vrstvě ETL (ne v databázi)
  • Zrušte indexy (na stole nebo oddílu) před načtením - a po načtení je znovu vytvořte (SQL: index poklesu ...; vytvořit index ...)
  • Pokud je to možné, použijte paralelní hromadné načtení - funguje dobře, když je tabulka rozdělená na oddíly nebo neexistují žádné indexy (Poznámka: pokus o paralelní načtení do stejné tabulky (oddílu) obvykle způsobí zámky - pokud ne na datových řádcích, pak na indexech)
  • Pokud existuje požadavek na vkládání, aktualizace nebo mazání, zjistěte, které řádky by se měly ve vrstvě ETL zpracovat jakým způsobem, a poté tyto tři operace zpracovejte v databázi samostatně; pro vložky můžete často provádět hromadné načítání, ale aktualizace a mazání běžně procházejí API (použitím SQL )

Zda provést určité operace v databázi nebo mimo ni může zahrnovat kompromis. Například odstranění duplikátů pomocí odlišný může být v databázi pomalý; má tedy smysl to dělat venku. Na druhé straně, pokud používáte odlišný výrazně (x100) snižuje počet řádků, které mají být extrahovány, pak má smysl odstranit duplicity co nejdříve v databázi před uvolněním dat.

Běžným zdrojem problémů v ETL je velké množství závislostí mezi úlohami ETL. Například úloha „B“ nemůže začít, dokud není dokončena úloha „A“. Obvykle lze dosáhnout lepšího výkonu vizualizací všech procesů v grafu a pokusem snížit graf s maximálním využitím rovnoběžnost a zkrácení „řetězců“ následného zpracování na co nejkratší dobu. Opět platí, že rozdělení velkých tabulek a jejich indexů může opravdu pomoci.

Další běžný problém nastává, když jsou data rozšířena mezi několik databází a zpracování se v těchto databázích provádí postupně. Někdy může být replikace databáze zahrnuta jako metoda kopírování dat mezi databázemi - může to celý proces výrazně zpomalit. Běžným řešením je zmenšit graf zpracování pouze na tři vrstvy:

  • Zdroje
  • Centrální vrstva ETL
  • Cíle

Tento přístup umožňuje zpracování maximálně využít paralelismu. Například pokud potřebujete načíst data do dvou databází, můžete spustit načítání paralelně (místo načítání do první - a poté replikace do druhé).

Někdy musí zpracování probíhat postupně. Například jsou zapotřebí rozměrová (referenční) data, než lze získat a ověřit řádky pro hlavní "fakt" tabulky.

Paralelní zpracování

Nedávný vývoj v ETL softwaru je implementace paralelní zpracování. Umožnil řadu metod ke zlepšení celkového výkonu ETL při práci s velkým objemem dat.

Aplikace ETL implementují tři hlavní typy paralelismu:

  • Data: Rozdělením jednoho sekvenčního souboru na menší datové soubory paralelní přístup
  • Potrubí: umožňující současný běh několika komponent na stejné datový tok, např. vyhledání hodnoty v záznamu 1 současně s přidáním dvou polí v záznamu 2
  • Součást: Současné spuštění více procesy na různých datových tocích ve stejné úloze, např. třídění jednoho vstupního souboru při odstraňování duplikátů na jiném souboru

Všechny tři typy paralelismu obvykle fungují v jednom úkolu nebo úkolu.

Dalším problémem je zajistit, aby data, která se nahrávají, byla relativně konzistentní. Protože více zdrojových databází může mít různé aktualizační cykly (některé mohou být aktualizovány každých několik minut, zatímco jiné mohou trvat dny nebo týdny), může být vyžadováno, aby systém ETL zadržel určitá data, dokud nebudou synchronizovány všechny zdroje. Podobně tam, kde může být nutné sladit sklad s obsahem ve zdrojovém systému nebo s hlavní knihou, je nutné vytvořit body synchronizace a odsouhlasení.

Opakovatelnost, obnovitelnost

Postupy datového skladu obvykle rozdělují velký proces ETL na menší části, které běží postupně nebo paralelně. Aby bylo možné sledovat datové toky, má smysl označit každý datový řádek znakem „row_id“ a každý kousek procesu označit „run_id“. V případě selhání může mít tato ID možnost vrátit se zpět a znovu spustit neúspěšný kus.

Osvědčené postupy rovněž vyžadují kontrolní body, což jsou stavy, kdy jsou dokončeny určité fáze procesu. Jakmile jste u kontrolního bodu, je dobré zapsat vše na disk, vyčistit nějaké dočasné soubory, zaznamenat stav atd.

Virtuální ETL

Od roku 2010, virtualizace dat začal pokročit v zpracování ETL. Aplikace virtualizace dat na ETL umožnila řešení nejběžnějších úkolů ETL migrace dat a integrace aplikací pro více rozptýlených zdrojů dat. Virtuální ETL pracuje s abstrahovanou reprezentací objektů nebo entit shromážděných z různých relačních, polostrukturovaných a nestrukturovaná data Zdroje. Nástroje ETL mohou využívat objektově orientované modelování a pracovat s reprezentacemi entit trvale uloženými v centrálně umístěných náboje a paprsky architektura. Taková kolekce, která obsahuje reprezentace entit nebo objektů shromážděných ze zdrojů dat pro zpracování ETL, se nazývá úložiště metadat a může se nacházet v paměti[8] nebo být přetrvávající. Pomocí trvalého úložiště metadat mohou nástroje ETL přecházet z jednorázových projektů na trvalý middleware, provádět harmonizaci dat a profilování dat důsledně a téměř v reálném čase.[9]

Nakládání s klíči

Unikátní klíče hrají důležitou roli ve všech relačních databázích, protože spojují vše dohromady. Jedinečný klíč je sloupec, který identifikuje danou entitu, zatímco a cizí klíč je sloupec v jiné tabulce, který odkazuje na primární klíč. Klíče mohou obsahovat několik sloupců, v takovém případě se jedná o složené klíče. V mnoha případech je primární klíč automaticky generované celé číslo, které nemá žádný význam pro obchodní subjekt být zastoupen, ale existuje pouze pro účely relační databáze - běžně označované jako a náhradní klíč.

Jelikož se do skladu obvykle načítá více než jeden zdroj dat, je důležité se zabývat klíči. Například: zákazníci mohou být zastoupeni v několika zdrojích dat s jejich Číslo sociálního zabezpečení jako primární klíč v jednom zdroji, jejich telefonní číslo v jiném a náhradní ve třetím. Přesto může datový sklad vyžadovat sloučení všech informací o zákaznících do jednoho dimenze.

Doporučený způsob řešení problému zahrnuje přidání náhradního klíče skladu, který se používá jako cizí klíč z tabulky faktů.[10]

Obvykle dochází k aktualizacím zdrojových dat dimenze, což se samozřejmě musí projevit v datovém skladu.

Pokud je pro vytváření přehledů vyžadován primární klíč zdrojových dat, dimenze již obsahuje tuto informaci pro každý řádek. Pokud zdrojová data používají náhradní klíč, musí je sklad sledovat, přestože se nikdy nepoužívají v dotazech nebo sestavách; provádí se vytvořením vyhledávací tabulka který obsahuje náhradní klíč skladu a původní klíč.[11] Tímto způsobem není dimenze znečištěna náhradními zdroji z různých zdrojových systémů, zatímco schopnost aktualizace je zachována.

Vyhledávací tabulka se používá různými způsoby v závislosti na povaze zdrojových dat. Je třeba zvážit 5 typů;[11] zde jsou zahrnuty tři:

Typ 1
Řádek dimenze se jednoduše aktualizuje tak, aby odpovídal aktuálnímu stavu zdrojového systému; sklad nezachytává historii; vyhledávací tabulka se používá k identifikaci kótovací řady k aktualizaci nebo přepsání
Typ 2
Je přidán nový řádek dimenze s novým stavem zdrojového systému; je přiřazen nový náhradní klíč; zdrojový klíč již není ve vyhledávací tabulce jedinečný
Plně přihlášen
Přidá se nový řádek dimenze s novým stavem zdrojového systému, zatímco předchozí řádek dimenze se aktualizuje tak, aby odrážel, že již není aktivní a čas deaktivace.

Nástroje

Použitím zavedeného rámce ETL může člověk zvýšit své šance skončit s lepším připojením a škálovatelnost.[Citace je zapotřebí ] Dobrý nástroj ETL musí být schopen komunikovat s mnoha různými relační databáze a číst různé formáty souborů používané v celé organizaci. Nástroje ETL začaly migrovat do Integrace podnikových aplikací, nebo dokonce Enterprise Service Bus, systémy, které nyní pokrývají mnohem víc než jen extrakci, transformaci a načítání dat. Mnoho prodejců ETL nyní má profilování dat, kvalita dat, a metadata schopnosti. Běžný případ použití nástrojů ETL zahrnuje převod souborů CSV do formátů čitelných relačními databázemi. Typický překlad milionů záznamů usnadňují nástroje ETL, které uživatelům umožňují vkládat datové kanály / soubory podobné CSV a importovat je do databáze s co nejmenším počtem kódů.

Nástroje ETL obvykle používá široká škála profesionálů - od studentů výpočetní techniky, kteří chtějí rychle importovat velké datové sady, až po databázové architekty odpovědné za správu firemních účtů, se nástroje ETL staly pohodlným nástrojem, na který se lze spolehnout a dosáhnout maximálního výkonu . Nástroje ETL ve většině případů obsahují grafické uživatelské rozhraní, které pomáhá uživatelům pohodlně transformovat data pomocí vizuálního mapovače dat, na rozdíl od psaní velkých programů pro analýzu souborů a úpravu datových typů.

Zatímco nástroje ETL jsou tradičně určeny pro vývojáře a zaměstnance IT, novým trendem je poskytovat tyto funkce podnikovým uživatelům, aby si sami mohli v případě potřeby vytvořit připojení a integraci dat, místo aby šli k personálu IT.[12] Gartner označuje tyto netechnické uživatele jako Citizen Integrators.[13]

Vs. ELT

Extrahovat, načítat, transformovat (ELT) je varianta ETL, kde jsou extrahovaná data načtena do cílového systému jako první.[14]Architektura pro analytický kanál také zváží, kde očistit a obohatit data[14] a také jak přizpůsobit rozměry.[4]

Cloudové datové sklady jako Amazon Redshift, Google BigQuery, a Výpočet sněhové vločky byli schopni poskytnout vysoce škálovatelný výpočetní výkon. To umožňuje podnikům vzdát se předpětí transformací a replikovat nezpracovaná data do svých datových skladů, kde je může podle potřeby transformovat pomocí SQL.

Po použití ELT mohou být data dále zpracována a uložena v datovém trhu.[15]

Každý přístup má své klady a zápory.[16] Většina nástrojů pro integraci dat se pohybuje směrem k ETL, zatímco ELT je populární v databázových a datových skladech. Podobně je možné provést TEL (Transform, Extract, Load), kde jsou data nejprve transformována na blockchainu (jako způsob záznamu změn dat, např. Vypalování tokenů) před extrahováním a načtením do jiného úložiště dat.[17]

Viz také

Reference

  1. ^ Denney, MJ (2016). „Ověření procesu extrakce, transformace a načtení použitého k naplnění velké databáze klinického výzkumu“. International Journal of Medical Informatics. 94: 271–4. doi:10.1016 / j.ijmedinf.2016.07.009. PMC  5556907. PMID  27506144.
  2. ^ Zhao, Shirley (2017-10-20). "Co je to ETL? (Extrahovat, Transformovat, Načíst) | Experian". Kvalita dat Experian. Citováno 2018-12-12.
  3. ^ tweet_btn (), Trevor Pott 4. června 2018 v 09:02. „Extrahovat, transformovat, načíst? Spíš jako extrémně těžké naložit, amirite?“. www.theregister.co.uk. Citováno 2018-12-12.
  4. ^ A b C Ralph., Kimball (2004). Sada nástrojů ETL datového skladu: praktické techniky pro získávání, čištění, přizpůsobování a doručování dat. Caserta, Joe, 1965-. Indianapolis, IN: Wiley. ISBN  978-0764579233. OCLC  57301227.
  5. ^ „Informace o integraci dat“. Informace o integraci dat.
  6. ^ "Proces ETL-Extract-Load". www.Guru99.com.
  7. ^ Theodorou, Vasileios (2017). "Časté vzory v pracovních postupech ETL: empirický přístup". Datové a znalostní inženýrství. 112: 1–16. doi:10.1016 / j.datak.2017.08.004. hdl:2117/110172.
  8. ^ Virtuální ETL
  9. ^ „ETL není mrtvý. Pro úspěch v podnikání je stále zásadní“. Informace o integraci dat. Citováno 14. července 2020.
  10. ^ Kimball, The Data Warehouse Lifecycle Toolkit, s. 332
  11. ^ A b Golfarelli / Rizzi, Data Warehouse Design, s. 291
  12. ^ „Neúprosný vzestup samoobslužné integrace dat“. Citováno 31. ledna 2016.
  13. ^ „Přijměte integrátora občanů“.
  14. ^ A b Amazon Web Services, Data Warehousing on AWS, s. 9
  15. ^ Amazon Web Services, Data Warehousing on AWS, 2016, s. 10
  16. ^ „ETL vs ELT: Pozitivně, soudce“.
  17. ^ Bandara, H. M. N. Dilum; Xu, Xiwei; Weber, Ingo (2019). "Vzory pro migraci dat blockchainu". arXiv:1906.00239.