Pomalu se měnící dimenze - Slowly changing dimension

Rozměry v správa dat a skladování dat obsahují relativně statické data o takových entitách, jako jsou geografická umístění, zákazníci nebo produkty. Data zachycená uživatelem Pomalu se měnící rozměry (SCD) měnit se pomalu, ale nepředvídatelně, spíše než podle pravidelného rozvrhu.[1]

Některé scénáře mohou způsobit referenční integrita problémy.

Například a databáze může obsahovat a tabulka faktů který ukládá záznamy o prodeji. Tato tabulka faktů by byla spojena s rozměry pomocí cizí klíče. Jedna z těchto dimenzí může obsahovat údaje o prodejcích společnosti: např. Regionální kanceláře, ve kterých pracují. Obchodníci jsou však někdy převedeni z jedné regionální kanceláře do druhé. Pro účely historických hlášení o prodeji může být nutné vést záznamy o skutečnosti, že konkrétní osoba prodeje byla přidělena konkrétní regionální kanceláři k dřívějšímu datu, zatímco tato osoba prodeje je nyní přiřazena jiné regionální kanceláři.[je zapotřebí objasnění ]

Řešení těchto problémů zahrnuje metodiky řízení SCD označované jako typ 0 až 6. SCD typu 6 se také někdy nazývají hybridní SCD.

Typ 0: zachovat originál

Atributy dimenze typu 0 se nikdy nezmění a jsou přiřazeny atributům, které mají trvalé hodnoty nebo jsou popsány jako „původní“. Příklady: Datum narození, Původní kreditní skóre. Typ 0 platí pro většinu atributů dimenze data.[2]

Typ 1: přepsat

Tato metoda přepíše staré s novými daty, a proto nesleduje historická data.

Příklad tabulky dodavatele:

Klíč_dodavateleKód dodavateleJméno dodavateleStát dodavatele
123ABCAcme Supply Co.CA

Ve výše uvedeném příkladu je Supplier_Code přirozený klíč a Supplier_Key je náhradní klíč. Technicky není náhradní klíč nutný, protože řádek bude jedinečný přirozeným klíčem (Supplier_Code).

Pokud dodavatel přemístí sídlo do Illinois, záznam by byl přepsán:

Klíč_dodavateleKód dodavateleJméno dodavateleStát dodavatele
123ABCAcme Supply Co.IL

Nevýhodou metody typu 1 je, že v datovém skladu není žádná historie. Má však tu výhodu, že se snadno udržuje.

Pokud někdo vypočítal agregovanou tabulku shrnující fakta podle stavu, bude třeba ji přepočítat při změně dodavatele_stavu.[1]

Typ 2: přidat nový řádek

Tato metoda sleduje historická data vytvořením více záznamů pro daný přirozený klíč v dimenzionálních tabulkách se samostatnými náhradní klíče a / nebo různá čísla verzí. Neomezená historie se uchovává pro každou vložku.

Například pokud se dodavatel přemístí do Illinois, budou čísla verzí postupně zvyšována:

Klíč_dodavateleKód dodavateleJméno dodavateleStát dodavateleVerze
123ABCAcme Supply Co.CA0
124ABCAcme Supply Co.IL1

Další metodou je přidání sloupců „datum účinnosti“.

Klíč_dodavateleKód dodavateleJméno dodavateleStát dodavateleDatum začátkuDatum ukončení
123ABCAcme Supply Co.CA2000-01-01T00: 00: 002004-12-22T00: 00: 00
124ABCAcme Supply Co.IL2004-12-22T00: 00: 00NULA

Datum a čas zahájení druhého řádku se rovná datu a času ukončení předchozího řádku. Null End_Date v řádku dva označuje aktuální verzi n-tice. Jako konečné datum lze místo toho použít standardizované náhradní vysoké datum (např. 9999-12-31), aby bylo možné pole zahrnout do indexu a aby při dotazování nebyla vyžadována substituce nulové hodnoty.

A třetí metoda používá datum účinnosti a aktuální příznak.

Klíč_dodavateleKód dodavateleJméno dodavateleStát dodavateleDatum účinnostiCurrent_Flag
123ABCAcme Supply Co.CA2000-01-01T00: 00: 00N
124ABCAcme Supply Co.IL2004-12-22T00: 00: 00Y

Hodnota Current_Flag 'Y' označuje aktuální verzi n-tice.

Transakce, které odkazují na konkrétní transakce náhradní klíč (Supplier_Key) jsou poté trvale vázány na časové řezy definované tímto řádkem pomalu se měnící tabulky dimenzí. Souhrnná tabulka shrnující fakta podle stavu nadále odráží historický stav, tj. Stav, ve kterém se dodavatel nacházel v době transakce; není nutná žádná aktualizace. Chcete-li odkazovat na entitu pomocí přirozeného klíče, je nutné odstranit jedinečné vytváření omezení Referenční integrita DBMS nemožné.

Pokud dojde k retroaktivním změnám v obsahu dimenze, nebo pokud jsou do dimenze přidány nové atributy (například sloupec Sales_Rep), které mají různá data účinnosti než ta, která jsou již definována, může to vést k tomu, že bude nutné provést existující transakce aktualizováno tak, aby odráželo novou situaci. To může být nákladná operace s databází, takže SCD typu 2 nejsou dobrou volbou, pokud je rozměrný model předmětem častých změn.[1]

Typ 3: přidat nový atribut

Tato metoda sleduje změny pomocí samostatných sloupců a zachovává omezenou historii. Typ 3 zachovává omezenou historii, protože je omezen na počet sloupců určených pro ukládání historických dat. Původní struktura tabulky v typu 1 a typu 2 je stejná, ale typ 3 přidává další sloupce. V následujícím příkladu byl do tabulky přidán další sloupec, který zaznamenává původní stav dodavatele - je uložena pouze předchozí historie.

Klíč_dodavateleKód dodavateleJméno dodavateleOriginal_Supplier_StateDatum účinnostiCurrent_Supplier_State
123ABCAcme Supply Co.CA2004-12-22T00: 00: 00IL

Tento záznam obsahuje sloupec pro původní stav a aktuální stav - nelze sledovat změny, pokud se dodavatel přemístí podruhé.

Jednou z variant této varianty je vytvoření pole Previous_Supplier_State namísto Original_Supplier_State, které by sledovalo pouze nejnovější historickou změnu.[1]

Typ 4: Přidat tabulku historie

The Typ 4 metoda se obvykle označuje jako použití „historických tabulek“, kde jedna tabulka uchovává aktuální data a další tabulka se používá k uchovávání záznamů o některých nebo všech změnách. Na oba náhradní klíče se odkazuje v tabulce faktů, aby se zlepšil výkon dotazu.

U výše uvedeného příkladu je původní název tabulky Dodavatel a tabulka historie je Dodavatel_Historie.

Dodavatel
Klíč_dodavateleKód dodavateleJméno dodavateleStát dodavatele
124ABCAcme & Johnson Supply Co.IL
Dodavatel_Historie
Klíč_dodavateleKód dodavateleJméno dodavateleStát dodavateleCreate_Date
123ABCAcme Supply Co.CA2003-06-14T00: 00: 00
124ABCAcme & Johnson Supply Co.IL2004-12-22T00: 00: 00

Tato metoda se podobá tomu, jak tabulky auditu databáze a změnit sběr dat funkce techniky.

Typ 5

Technika typu 5 staví na mini-dimenzi typu 4 vložením klíče mini-dimenze „aktuální profil“ do základní dimenze, který je přepsán jako atribut typu 1. Tento přístup, nazývaný typ 5, protože 4 + 1 se rovná 5, umožňuje přístup k aktuálně přiřazeným hodnotám atributů mini-dimenze spolu s ostatními v základní dimenzi bez propojení prostřednictvím tabulky faktů. Logicky obvykle reprezentujeme základní dimenzi a aktuální výložník profilu mini-dimenze jako jednu tabulku v prezentační vrstvě. Atributy podpěr by měly mít odlišné názvy sloupců, například „Aktuální úroveň příjmu“, aby se odlišily od atributů v mini-dimenzi propojené s tabulkou faktů. Tým ETL musí aktualizovat / přepsat odkaz na mini-dimenzi typu 1, kdykoli se aktuální mini-dimenze v průběhu času mění. Pokud přístup výložníku nepřináší uspokojivý výkon dotazu, mohly by být atributy mini-dimenze fyzicky vloženy (a aktualizovány) do základní dimenze.[3]

Typ 6: kombinovaný přístup

The Typ 6 metoda kombinuje přístupy typů 1, 2 a 3 (1 + 2 + 3 = 6). Jedním z možných vysvětlení původu termínu bylo, že jej vytvořil Ralph Kimball během rozhovoru se Stephenem Paceem z Kalida[Citace je zapotřebí ]. Ralph Kimball volá tuto metodu "Nepředvídatelné změny s překrytím jedné verze" v Sada datových skladů.[1]

Tabulka Dodavatel začíná jedním záznamem pro našeho příkladného dodavatele:

Klíč_dodavateleRow_KeyKód dodavateleJméno dodavateleCurrent_StateHistorický_StátDatum začátkuDatum ukončeníCurrent_Flag
1231ABCAcme Supply Co.CACA2000-01-01T00: 00: 009999-12-31T23: 59: 59Y

Current_State a Historical_State jsou stejné. Volitelný atribut Current_Flag označuje, že se jedná o aktuální nebo nejnovější záznam pro tohoto dodavatele.

Když se společnost Acme Supply Company přestěhuje do Illinois, přidáme nový záznam, jako při zpracování typu 2, ale je zahrnut klíč řádku, abychom zajistili, že máme pro každý řádek jedinečný klíč:

Klíč_dodavateleRow_KeyKód dodavateleJméno dodavateleCurrent_StateHistorický_StátDatum začátkuDatum ukončeníCurrent_Flag
1231ABCAcme Supply Co.ILCA2000-01-01T00: 00: 002004-12-22T00: 00: 00N
1232ABCAcme Supply Co.ILIL2004-12-22T00: 00: 009999-12-31T23: 59: 59Y

Informace Current_State v prvním záznamu (Row_Key = 1) přepíšeme novými informacemi, jako při zpracování typu 1. Vytvoříme nový záznam pro sledování změn, jako při zpracování typu 2. A ukládáme historii do druhého sloupce State (Historical_State), který zahrnuje zpracování typu 3.

Například pokud by se měl dodavatel znovu přemístit, přidali bychom do dimenze Dodavatel další záznam a přepsali bychom obsah sloupce Current_State:

Klíč_dodavateleRow_KeyKód dodavateleJméno dodavateleCurrent_StateHistorický_StátDatum začátkuDatum ukončeníCurrent_Flag
1231ABCAcme Supply Co.NYCA2000-01-01T00: 00: 002004-12-22T00: 00: 00N
1232ABCAcme Supply Co.NYIL2004-12-22T00: 00: 002008-02-04T00: 00: 00N
1233ABCAcme Supply Co.NYNY2008-02-04T00: 00: 009999-12-31T23: 59: 59Y

Realizace faktů typu 2 / typu 6

Náhradní klíč typu 2 s atributem typu 3

V mnoha implementacích SCD typu 2 a typu 6 se náhradní klíč z dimenze se vloží do tabulky faktů místo přirozený klíč když jsou data faktů načtena do úložiště dat.[1] Náhradní klíč je vybrán pro daný záznam faktu na základě jeho data účinnosti a Start_Date a End_Date z tabulky dimenzí. To umožňuje snadné připojení faktických dat k datům správné dimenze pro odpovídající datum účinnosti.

Zde je tabulka dodavatelů, jak jsme ji vytvořili výše pomocí metodiky Hybrid typu 6:

Klíč_dodavateleKód dodavateleJméno dodavateleCurrent_StateHistorický_StátDatum začátkuDatum ukončeníCurrent_Flag
123ABCAcme Supply Co.NYCA2000-01-01T00: 00: 002004-12-22T00: 00: 00N
124ABCAcme Supply Co.NYIL2004-12-22T00: 00: 002008-02-04T00: 00: 00N
125ABCAcme Supply Co.NYNY2008-02-04T00: 00: 009999-12-31T23: 59: 59Y

Jakmile dodací tabulka obsahuje správný Supplier_Key, lze ji pomocí tohoto klíče snadno připojit k dodavatelské tabulce. Následující SQL načte u každého záznamu faktů aktuální stav dodavatele a stav, ve kterém se dodavatel nacházel v době doručení:

VYBRAT  dodávka.cena za doručení,  dodavatel.Jméno dodavatele,  dodavatel.historický_stát,  dodavatel.current_stateZ dodávkaVNITŘNÍ PŘIPOJIT SE dodavatel  NA dodávka.dodavatel_klíč = dodavatel.dodavatel_klíč;

Čistá implementace typu 6

Mít náhradní klíč typu 2 pro každý časový řez může způsobit problémy, pokud se dimenze může změnit.[1]

Čistá implementace typu 6 to nepoužívá, ale používá náhradní klíč pro každou položku hlavních dat (např. Každý jedinečný dodavatel má jeden náhradní klíč).

Tím se zabrání jakýmkoli změnám v kmenových datech, které mají dopad na existující transakční data.

Umožňuje také více možností při dotazování na transakce.

Zde je tabulka dodavatelů využívající čistou metodiku typu 6:

Klíč_dodavateleKód dodavateleJméno dodavateleStát dodavateleDatum začátkuDatum ukončení
456ABCAcme Supply Co.CA2000-01-01T00: 00: 002004-12-22T00: 00: 00
456ABCAcme Supply Co.IL2004-12-22T00: 00: 002008-02-04T00: 00: 00
456ABCAcme Supply Co.NY2008-02-04T00: 00: 009999-12-31T23: 59: 59

Následující příklad ukazuje, jak musí být dotaz rozšířen, aby se zajistilo, že se pro každou transakci načte jeden záznam dodavatele.

VYBRAT  dodavatel.kód dodavatele,  dodavatel.dodavatel_stateZ dodavatelVNITŘNÍ PŘIPOJIT SE dodávka  NA dodavatel.dodavatel_klíč = dodávka.dodavatel_klíč A dodávka.datum doručení >= dodavatel.datum začátku A dodávka.datum doručení < dodavatel.datum ukončení;

Záznam faktu s datem účinnosti (Delivery_Date) 9. srpna 2001 bude spojen s Supplier_Code ABC, s Supplier_State 'CA'. Záznam faktu s účinností od 11. října 2007 bude rovněž spojen se stejným ABC_Code_Code_Code, ale se StátemDodavatele 'IL'.

I když je složitější, má řadu výhod tohoto přístupu, včetně:

  1. Referenční integrita pomocí DBMS je nyní možné, ale nelze použít Supplier_Code jako cizí klíč v tabulce produktů a pomocí Supplier_Key jako cizího klíče je každý produkt vázán na konkrétní časový úsek.
  2. Pokud je na skutečnosti více než jedno datum (např. Datum objednávky, datum dodání, datum platby na faktuře), je možné zvolit, které datum se má pro dotaz použít.
  3. Změnou logiky filtru data můžete provádět dotazy „jako nyní“, „jako v době transakce“ nebo „jako v okamžiku“.
  4. Tabulku Fact nemusíte znovu zpracovávat, pokud dojde ke změně v tabulce dimenzí (např. Dodatečné přidání dalších polí, která mění časové úseky, nebo pokud někdo udělá chybu v datech v tabulce dimenzí, může je snadno opravit) .
  5. Můžete představit bi-temporální data v tabulce dimenzí.
  6. Fakt můžete spojit s více verzemi tabulky dimenzí, abyste ve stejném dotazu umožnili vykazování stejných informací s různými daty účinnosti.

Následující příklad ukazuje, jak lze použít konkrétní datum, například „2012-01-01T00: 00: 00“ (což může být aktuální datetime).

VYBRAT  dodavatel.kód dodavatele,  dodavatel.dodavatel_stateZ dodavatelVNITŘNÍ PŘIPOJIT SE dodávka  NA dodavatel.dodavatel_klíč = dodávka.dodavatel_klíč A dodavatel.datum začátku <= „2012-01-01T00: 00: 00“ A dodavatel.datum ukončení > „2012-01-01T00: 00: 00“;

Náhradní i přirozený klíč

Alternativní implementace je umístit oba the náhradní klíč a přirozený klíč do tabulky faktů.[4] To umožňuje uživateli vybrat příslušné záznamy dimenze na základě:

  • primární datum účinnosti v záznamu faktů (výše),
  • nejnovější nebo aktuální informace,
  • jakékoli jiné datum spojené se záznamem o skutečnosti.

Tato metoda umožňuje flexibilnější odkazy na dimenzi, i když místo typu 6 byl použit přístup typu 2.

Tady je tabulka dodavatelů, protože jsme ji mohli vytvořit pomocí metodiky typu 2:

Klíč_dodavateleKód dodavateleJméno dodavateleStát dodavateleDatum začátkuDatum ukončeníCurrent_Flag
123ABCAcme Supply Co.CA2000-01-01T00: 00: 002004-12-22T00: 00: 00N
124ABCAcme Supply Co.IL2004-12-22T00: 00: 002008-02-04T00: 00: 00N
125ABCAcme Supply Co.NY2008-02-04T00: 00: 009999-12-31T23: 59: 59Y

Následující SQL načte nejaktuálnější Supplier_Name a Supplier_State pro každý záznam faktu:

VYBRAT  dodávka.cena za doručení,  dodavatel.Jméno dodavatele,  dodavatel.dodavatel_stateZ dodávkaVNITŘNÍ PŘIPOJIT SE dodavatel  NA dodávka.kód dodavatele = dodavatel.kód dodavateleKDE dodavatel.current_flag = 'Y';

Pokud je v záznamu faktu více dat, lze fakt spojit s dimenzí pomocí jiného data namísto primárního data účinnosti. Například tabulka Delivery může mít primární datum účinnosti Delivery_Date, ale může mít také Order_Date přidružený ke každému záznamu.

Následující SQL načte správné Supplier_Name a Supplier_State pro každý záznam faktu na základě Order_Date:

VYBRAT  dodávka.cena za doručení,  dodavatel.Jméno dodavatele,  dodavatel.dodavatel_stateZ dodávkaVNITŘNÍ PŘIPOJIT SE dodavatel  NA dodávka.kód dodavatele = dodavatel.kód dodavatele A dodávka.datum objednávky >= dodavatel.datum začátku A dodávka.datum objednávky < dodavatel.datum ukončení;

Některá upozornění:

  • Referenční integrita prostřednictvím DBMS není možné, protože neexistuje jedinečný klíč k vytvoření vztahu.
  • Pokud je vytvořen vztah s náhradou k vyřešení problému výše, jeden končí entitou vázanou na konkrétní časový úsek.
  • Pokud není spojovací dotaz napsán správně, může vrátit duplicitní řádky nebo poskytnout nesprávné odpovědi.
  • Porovnání data nemusí fungovat dobře.
  • Nějaký Business Intelligence nástroje nezvládají generování složitých spojení dobře.
  • The ETL procesy potřebné k vytvoření tabulky dimenzí je třeba pečlivě navrhnout, aby se zajistilo, že nedochází k překrývání v časových obdobích pro každou odlišnou položku referenčních dat.

Kombinování typů

Příklad modelu SCD

Na různé sloupce tabulky lze použít různé typy SCD. Například můžeme použít typ 1 na sloupec Supplier_Name a typ 2 na sloupec Supplier_State stejné tabulky.

Viz také

Poznámky

  1. ^ A b C d E F G Kimball, Ralph; Ross, Margy. Sada datových skladů: Kompletní průvodce dimenzionálním modelováním.
  2. ^ http://www.kimballgroup.com/2013/02/design-tip-152-slowly-changing-dimension-types-0-4-5-6-7/
  3. ^ https://www.kimballgroup.com/2013/02/design-tip-152-slowly-changing-dimension-types-0-4-5-6-7/
  4. ^ Ross, Margy; Kimball, Ralph (1. března 2005). „Pomalu se měnící rozměry nejsou vždy tak snadné jako 1, 2, 3“. Inteligentní podnik.

Reference