Relační algebra - Relational algebra

v teorie databáze, relační algebra je teorie, která používá algebraické struktury s fundovaná sémantika pro modelování dat a definování dotazů na ně. Teorii představil Edgar F. Codd.

Hlavní aplikací relační algebry je poskytnout teoretický základ pro relační databáze, zejména dotazovací jazyky pro takové databáze je hlavní SQL. Relační databáze ukládají tabulková data reprezentovaná jako vztahy. Dotazy na relační databáze často také vracejí tabulková data reprezentovaná jako vztahy. Hlavním předpokladem relační algebry je definovat operátory, které transformují jeden nebo více vstupních vztahů na výstupní vztah. Vzhledem k tomu, že tyto operátory přijímají relace jako vstup a vytvářejí relace jako výstup, lze je kombinovat a použít k vyjádření potenciálně složitých dotazů, které transformují potenciálně mnoho vstupních relací (jejichž data jsou uložena v databázi) do jediné výstupní relace (výsledky dotazu) . Unární operátoři přijímají jako vstup jediný vztah; příklady zahrnují operátory k filtrování určitých atributů (sloupců) nebo n-tic (řádků) ze vstupního vztahu. Binární operátoři přijímají jako vstup dva vztahy; takové operátory kombinují dva vstupní vztahy do jednoho výstupního vztahu, například tím, že vezmou všechny n-tice nalezené v obou relacích, odstraní n-tice z prvního vztahu nalezeného ve druhém vztahu, rozšíří n-tice prvního vztahu s n-ticemi ve druhém vztahu splnění určitých podmínek atd. Lze zahrnout i další pokročilejší operátory, jejichž zahrnutí nebo vyloučení určitých operátorů vede k rodině algeber.

Úvod

Relační algebře se až do publikace mimo čistou matematiku věnovala malá pozornost E.F.Codd je relační model dat v roce 1970. Codd navrhl takovou algebru jako základ pro dotazovací jazyky databáze. (Viz část Implementace.)

Pět primitivních operátorů Coddovy algebry je výběr, projekce, kartézský součin (nazývané také křížový produkt nebo křížové spojení), nastavit unii a nastavený rozdíl.

Nastavit operátory

Relační algebra používá nastavit unii, nastavený rozdíl, a kartézský součin z teorie množin, ale přidává těmto operátorům další omezení.

Pro množinové sjednocení a množinový rozdíl, dva vztahy musí být kompatibilní s unií- to znamená, že tyto dva vztahy musí mít stejnou sadu atributů. Protože nastavit křižovatku je definován z hlediska množinového sjednocení a množinového rozdílu, musí být oba vztahy zapojené do množinové křižovatky také slučitelné.

Aby mohl být definován kartézský součin, musí mít tyto dva vztahy nesouvislá záhlaví - to znamená, že nesmí mít společný název atributu.

Kromě toho je kartézský součin definován odlišně od toho v soubor teorie v tom smyslu, že n-tice jsou pro účely operace považovány za „mělké“. To znamená, že kartézský součin sady n-tuples se sadou m-tuples získá sadu "zploštělých" (n + m)-tuples (zatímco základní teorie množin by předepsala sadu 2-n-tic, z nichž každá obsahuje an n-tuple a an m-tuple). Formálněji R × S je definována takto:

Mohutnost kartézského součinu je součinem světových stran jeho faktorů, tj. |R × S| = |R| × |S|.

Projekce (Π)

A projekce je unární provoz psáno jako kde je sada názvů atributů. Výsledek takové projekce je definován jako soubor který se získá, když vše n-tice v R jsou omezeny na sadu .

Poznámka: při implementaci v SQL standard "výchozí projekce" vrátí a multiset namísto sady a Π projekce k odstranění duplicitních dat se získá přidáním ODLIŠNÝ klíčové slovo.

Výběr (σ)

A zobecněný výběr je unární provoz psáno jako kde φ je výrokový vzorec který se skládá z atomy jak je povoleno v normální výběr a logické operátory (a ), (nebo ) a (negace ). Tento výběr vybere všechny n-tice v R pro který φ drží.

Chcete-li získat seznam všech přátel nebo obchodních partnerů v adresáři, může být výběr zapsán jako . Výsledkem by byla relace obsahující každý atribut každého jedinečného záznamu, kde isFriend je pravda nebo kde isBusinessContact je pravda.

Přejmenovat (ρ)

A přejmenovat je unární provoz psáno jako kde je výsledek totožný s R kromě toho, že b atribut ve všech n-ticích je přejmenován na A atribut. Toto se jednoduše používá k přejmenování atributu a vztah nebo samotný vztah.

Chcete-li ve vztahu přejmenovat atribut 'isFriend' na 'isBusinessContact', může být použit.

Spojení a operátoři podobní spojení

Přirozené spojení ()

Přirozené spojení (⋈) je a binární operátor to je psáno jako (RS) kde R a S jsou vztahy.[1] Výsledkem přirozeného spojení je množina všech kombinací n-tic v R a S které jsou stejné na jejich společných názvech atributů. Zvažte například tabulky Zaměstnanec a Odd a jejich přirozené spojení:

Všimněte si, že ve výsledku se neobjeví ani zaměstnanec jménem Mary, ani výrobní oddělení.

To lze také použít k definování složení vztahů. Například složení Zaměstnanec a Odd je jejich spojení, jak je uvedeno výše, promítané na všechny kromě společného atributu DeptName. v teorie kategorií, spojení je přesně to vláknitý výrobek.

Přirozené spojení je pravděpodobně jedním z nejdůležitějších operátorů, protože je relačním protějškem logického operátoru AND. Všimněte si, že pokud se stejná proměnná objeví v každém ze dvou predikátů, které jsou spojeny pomocí AND, pak tato proměnná znamená stejnou věc a oba vzhledy musí být vždy nahrazeny stejnou hodnotou (je to důsledek idempotence logického AND). Přirozené spojení zejména umožňuje kombinaci vztahů, které jsou spojeny a cizí klíč. Například ve výše uvedeném příkladu cizí klíč pravděpodobně drží od Zaměstnanec.DeptName na Odd.DeptName a pak přirozené spojení Zaměstnanec a Odd kombinuje všechny zaměstnance s jejich odděleními. Funguje to, protože cizí klíč drží mezi atributy se stejným názvem. Pokud tomu tak není, například v cizím klíči od Odd.Manažer na Zaměstnanec.název pak musíme tyto sloupce přejmenovat, než použijeme přirozené spojení. Takové spojení se někdy označuje také jako equijoin (vidět θ-připojit se).

Formálněji jsou sémantika přirozeného spojení definována takto:

 

 

 

 

(1)

kde Zábava (t) je predikát to platí pro a vztah t (v matematickém smyslu) iff t je funkce. To se obvykle vyžaduje R a S musí mít alespoň jeden společný atribut, ale pokud je toto omezení vynecháno, a R a S nemají žádné společné atributy, pak se přirozené spojení stane přesně kartézským součinem.

Přirozené spojení lze simulovat pomocí Coddových primitiv následovně. Předpokládat, že C1,...,Cm jsou společné názvy atributů R a S, r1,...,rn jsou názvy atributů divadla jedinečné pro R a s1,...,sk jsou názvy atributů divadla jedinečné pro S. Dále předpokládejme, že názvy atributů X1,...,Xm nejsou ani uvnitř R ani dovnitř S. V prvním kroku nyní můžeme přejmenovat názvy běžných atributů na S:

 

 

 

 

(2)

Pak vezmeme kartézský součin a vybereme n-tice, které se mají spojit:

 

 

 

 

(3)

Nakonec provedeme projekci, abychom se zbavili přejmenovaných atributů:

 

 

 

 

(4)

θ- připojte se a připojte se

Zvažte tabulky Auto a Loď které uvádějí modely automobilů a lodí a jejich příslušné ceny. Předpokládejme, že si zákazník chce koupit auto a loď, ale nechce utratit více peněz za loď než za auto. The θ-připojit (⋈θ) na predikátu Cena autaCena lodi vytvoří zploštělé páry řádků, které splňují predikát. Při použití podmínky, kdy jsou atributy stejné, například Cena, lze podmínku zadat jako Cena=Cenanebo alternativně (Cena) sám.

Pokud chceme kombinovat n-tice ze dvou relací, kde podmínkou kombinace není pouze rovnost sdílených atributů, je vhodné mít obecnější formu operátoru spojení, což je θ-připojit (nebo theta-připojit). The θ-join je binární operátor, který je zapsán jako nebo kde A a b jsou názvy atributů, θ je binární relační operátor v sadě {<, ≤, =, ≠, >, ≥}, υ je hodnotová konstanta a R a S jsou vztahy. Výsledek této operace se skládá ze všech kombinací n-tic v R a S které uspokojují θ. Výsledek θ-join je definován pouze v případě, že záhlaví S a R jsou disjunktní, to znamená, že neobsahují společný atribut.

Simulace této operace v základních operacích je tedy následující:

Rθ S = σθ(R × S)

V případě, že provozovatel θ je operátor rovnosti (=), pak se tomuto spojení říká také equijoin.

Všimněte si však, že počítačový jazyk, který podporuje operátory přirozeného spojení a výběru, nepotřebuje θ- připojte se také, protože toho lze dosáhnout výběrem z výsledku přirozeného spojení (které se zdegeneruje na kartézský součin, když neexistují žádné sdílené atributy).

V implementacích SQL se spojování predikátu obvykle nazývá vnitřní spojenía na klíčové slovo umožňuje určit predikát použitý k filtrování řádků. Je důležité si uvědomit: vytvoření zploštělého kartézského produktu a následné filtrování řádků je koncepčně správné, ale implementace by k urychlení dotazu na spojení používala složitější datové struktury.

Semijoin (⋉)(⋊)

Levý semijoin je spojení podobné přirozenému spojení a je psáno jako RS kde R a S jsou vztahy.[2] Výsledkem je sada všech n-tic R pro které existuje n-tice S to se rovná jejich společným názvům atributů. Rozdíl od přirozeného spojení je v tom, že ostatní sloupce S neobjevují se. Zvažte například tabulky Zaměstnanec a Odd a jejich semijoin:

Formálněji lze sémantiku semijoinu definovat takto:

RS = { t : tR ∧ ∃sS(Zábava (ts)) }

kde Zábava(r) je jako v definici přirozeného spojení.

Semijoin lze simulovat pomocí následných přirozených spojení. Li A1, ..., An jsou názvy atributů divadla R, pak

RS = πA1,..,An(RS).

Protože můžeme simulovat přirozené spojení se základními operátory, vyplývá z toho, že to platí i pro semijoin.

V Coddu z roku 1970 se semijoin nazývá omezení.[3]

Antijoin (▷)

Antijoin, psaný jako RS kde R a S jsou vztahy, je podobný semijoinu, ale výsledkem antijoinu jsou pouze ty n-tice R pro které existuje Ne n-tice S to se rovná jejich společným názvům atributů.[4]

Pro příklad zvažte tabulky Zaměstnanec a Odd a theirantijoin:

Antijoin je formálně definován takto:

RS = { t : tR ∧ ¬∃sS(Zábava (ts)) }

nebo

RS = { t : tR, neexistuje n-tice s z S to uspokojuje Zábava (ts) }

kde Zábava (ts) je jako v definici přirozeného spojení.

Antijoin lze také definovat jako doplněk semijoinu takto:

RS = R − RS

 

 

 

 

(5)

Vzhledem k tomu je antijoin někdy nazýván antisemijoin a operátor antijoin je někdy psán jako symbol semijoin s barem nad ním, namísto ▷.

Divize (÷)

Dělení je binární operace, která je zapsána jako R ÷ S. Rozdělení není implementováno přímo v SQL. Výsledkem je omezení n-tic v R na názvy atributů jedinečné pro R, tj. v záhlaví R ale ne v záhlaví S, pro které platí, že všechny jejich kombinace s n-ticemi v S jsou přítomni v R. Příklad viz tabulky Dokončeno, DBProject a jejich rozdělení:

Li DBProject obsahuje všechny úkoly projektu Databáze, pak výsledek rozdělení výše obsahuje přesně studenty, kteří splnili oba úkoly v projektu Databáze. Formálně je sémantika rozdělení definována takto:

R ÷ S = { t[A1,...,An] : tR ∧ ∀sS ( (t[A1,...,An] ∪ s) ∈ R) }

 

 

 

 

(6)

kde {A1,...,An} je sada jedinečných názvů atributů R a t[A1,...,An] je omezení t k této sadě. Obvykle se požaduje, aby názvy atributů v záhlaví S jsou podmnožinou těch z R protože jinak bude výsledek operace vždy prázdný.

Simulace dělení se základními operacemi je následující. To předpokládáme A1,...,An jsou názvy atributů jedinečné pro R a b1,...,bm jsou názvy atributů S. V prvním kroku promítáme R na jeho jedinečné názvy atributů a postavit všechny kombinace s n-tic v S:

T : = πA1,...,An(R) × S

V předchozím příkladu by T představovalo tabulku tak, že každý Student (protože Student je jedinečný klíč / atribut dokončené tabulky) je kombinován s každým daným úkolem. Například Eugene by měl v T dva řádky, Eugene → Database1 a Eugene → Database2 v T.

EG: Nejprve předstírejme, že „Dokončeno“ má třetí atribut zvaný „známka“. Je to nechtěné zavazadlo, takže jej musíme vždy promítat. Ve skutečnosti v tomto kroku můžeme pustit také „Task“ z R; násobení to vrátí zpět.
T : = πStudent(R) × S // To nám dává každou možnou požadovanou kombinaci, včetně těch, které ve skutečnosti neexistují v R, a vyloučení dalších (např. Fred | compiler1, což není požadovaná kombinace)

V dalším kroku odečteme R z T

vztah:

U := TR

v U máme možné kombinace, ve kterých „mohlo být“ R, ale nebyly.

EG: Opět s projekcemi - T a R musíte mít shodné názvy / záhlaví atributů.
U := T - πStudent, úkol(R) // Tím získáte seznam „co chybí“.

Takže pokud nyní vezmeme projekci na názvy atributů jedinečné pro R

pak máme omezení n-tic R pro které nejsou všechny kombinace s n-ticemi v S byli přítomni v R:

PROTI : = πA1,...,An(U)
EG: Projekt U dolů pouze na příslušné atributy (student)
PROTI : = πStudent(U)

Co tedy zbývá udělat, je vzít projekci R na jeho jedinečné názvy atributů a odečíst ty v PROTI:

Ž : = πA1,...,An(R) − PROTI
NAPŘ: Ž : = πStudent(R) − PROTI.

Společná rozšíření

V praxi je klasická relační algebra popsaná výše rozšířena o různé operace, jako jsou vnější spojení, agregační funkce a dokonce přechodné uzavření.[5]

Vnější se připojí

Zatímco výsledek spojení (nebo vnitřního spojení) se skládá z n-tic vytvořených kombinací odpovídajících n-tic ve dvou operandech, vnější spojení obsahuje tyto n-tice a navíc některé n-tice vytvořené rozšířením nesrovnatelné n-tice v jednom z operandů o hodnoty „vyplnit“ pro každý z atributů druhého operandu. Vnější spojení nejsou považována za součást dosud diskutované klasické relační algebry.[6]

Operátory definované v této části předpokládají existenci a nula hodnota, ω, které nedefinujeme, bude použito pro hodnoty výplně; v praxi to odpovídá NULA v SQL. Aby byly následné operace výběru na výsledné tabulce smysluplné, je třeba nulám přiřadit sémantický význam; v Coddově přístupu je výroková logika použitá při výběru rozšířena na logiku se třemi hodnotami, i když tyto podrobnosti v tomto článku vynecháme.

Jsou definovány tři operátory vnějšího spojení: levé vnější spojení, pravé vnější spojení a úplné vnější spojení. (Slovo „vnější“ je někdy vynecháno.)

Levý vnější spoj (⟕)

Levý vnější spoj je zapsán jako RS kde R a S jsou vztahy.[7] Výsledkem levého vnějšího spojení je sada všech kombinací n-tic v R a S které jsou stejné jako jejich běžné názvy atributů, navíc (volně řečeno) k n-ticám v R které nemají žádné odpovídající n-tice S.

Pro příklad zvažte tabulky Zaměstnanec a Odd a jejich levý vnější spoj:

Ve výsledném vztahu se n-tice S které nemají společné hodnoty v běžných názvech atributů s n-ticemi v R vzít a nula hodnota, ω.

Protože v něm nejsou žádné n-tice Odd s DeptName z Finance nebo Výkonný, ωVyskytují se ve výsledném vztahu, kde jsou řazeny Zaměstnanec mít DeptName z Finance nebo Výkonný.

Nechat r1, r2, ..., rn být atributy vztahu R a nechť {(ω, ..., ω)} být singletonrelation na atributy, které jsou unikátní do vztahu S (ty, které nejsou atributy R). Potom lze levé vnější spojení popsat z hlediska přirozeného spojení (a tedy pomocí základních operátorů) takto:

Pravý vnější spoj (⟖)

Pravé vnější spojení se chová téměř stejně jako levé vnější spojení, ale role tabulek jsou přepnuty.

Pravé vnější spojení vztahy R a S je psán jako RS.[8] Výsledkem pravého vnějšího spojení je sada všech kombinací n-tic v R a S které jsou stejné jako jejich společné názvy atributů, kromě n-tic v S které nemají žádné odpovídající n-tice R.

Zvažte například tabulky Zaměstnanec a Odd a jejich pravý vnější spoj:

Ve výsledném vztahu se n-tice R které nemají společné hodnoty v běžných názvech atributů s n-ticemi v S vzít a nula hodnota, ω.

Protože v něm nejsou žádné n-tice Zaměstnanec s DeptName z Výroba, ωVyskytují se v atributech Název a EmpId výsledného vztahu, kde jsou řazeny Odd měl DeptName z Výroba.

Nechat s1, s2, ..., sn být atributy vztahu S a nechť {(ω, ..., ω)} být singletonrelation na atributy, které jsou unikátní do vztahu R (ty, které nejsou atributy S). Potom, stejně jako u levého vnějšího spojení, lze pravé vnější spojení simulovat pomocí přirozeného spojení následovně:

Úplné vnější spojení (⟗)

The vnější spojení nebo úplné vnější spojení ve skutečnosti kombinuje výsledky levého a pravého vnějšího spojení.

Celý vnější spoj se píše jako RS kde R a S jsou vztahy.[9] Výsledkem úplného vnějšího spojení je sada všech kombinací n-tic v R a S které jsou stejné jako jejich společné názvy atributů, kromě n-tic v S které nemají žádné odpovídající n-tice R a n-tice dovnitř R které nemají žádné odpovídající n-tice S v jejich běžných názvech atributů.

Pro příklad zvažte tabulky Zaměstnanec a Odd a jejich plné vnější spojení:

Ve výsledném vztahu se n-tice R které nemají společné hodnoty v běžných názvech atributů s n-ticemi v S vzít a nula hodnota, ω. Tuples in S které nemají společné hodnoty v běžných názvech atributů s n-ticemi v R také vzít a nula hodnota, ω.

Úplné vnější spojení lze simulovat pomocí levého a pravého vnějšího spojení (a tedy přirozeného spojení a sjednocení spojení) následujícím způsobem:

RS = (RS) ∪ (RS)

Operace pro výpočty domén

V dosud zavedené relační algebře není nic, co by umožňovalo výpočty v datových doménách (kromě hodnocení výrokových výrazů zahrnujících rovnost). Například není možné pomocí pouze dosud zavedené algebry napsat výraz, který by vynásobil čísla ze dvou sloupců, např. jednotkovou cenu s množstvím k získání celkové ceny. Praktické dotazovací jazyky mají takové možnosti, např. SQL SELECT umožňuje aritmetickým operacím definovat nové sloupce ve výsledku VYBRAT jednotková cena * Množství TAK JAKO Celková cena Z t„a podobné zařízení poskytuje explicitněji Výukový program D je ROZŠÍŘIT klíčové slovo.[10] V teorii databáze se tomu říká prodloužená projekce.[11]:213

Agregace

Kromě toho není možné pomocí dosud zavedené relační algebry počítat různé funkce na sloupci, jako je shrnutí jeho prvků. Je jich pět agregační funkce které jsou součástí většiny systémů relačních databází. Tyto operace jsou součet, počet, průměr, maximum a minimum. V relační algebře je agregační operace nad schématem (A1, A2, ... An) je napsán takto:

kde každý Aj', 1 ≤ jk, je jedním z původních atributů Ai, 1 ≤ in.

Atributy předcházející G jsou seskupovací atributy, které fungují jako klauzule „seskupit podle“ v SQL. Pak existuje libovolný počet agregačních funkcí aplikovaných na jednotlivé atributy. Operace se aplikuje na libovolný vztah r. Atributy seskupení jsou volitelné a pokud nejsou zadány, agregační funkce se použijí v celém vztahu, na který se operace použije.

Předpokládejme, že máme pojmenovanou tabulku Účet se třemi sloupci, a to Account_Number, Branch_Name a Zůstatek. Chtěli bychom najít maximální zůstatek každé pobočky. Toho je dosaženo Jméno pobočkyGMax (Zůstatek)(Účet). Abychom našli nejvyšší zůstatek všech účtů bez ohledu na pobočku, mohli bychom jednoduše napsat GMax (Zůstatek)(Účet).

Přechodné uzavření

Ačkoli se relační algebra zdá být pro většinu praktických účelů dostatečně výkonná, existují některé jednoduché a přirozené operátory vztahy to nelze vyjádřit relační algebrou. Jedním z nich je přechodné uzavření binární relace. Vzhledem k doméně D, nechme binární relaci R být podmnožinou D×D. Tranzitivní uzávěr R+ z R je nejmenší podmnožina D×D který obsahuje R a splňuje následující podmínku:

Neexistuje žádný výraz relační algebry E(R) užívání R jako variabilní argument, který produkuje R+. To lze dokázat pomocí skutečnosti, že vzhledem k relačnímu výrazu E pro které se tvrdí, že E(R) = R+, kde R je proměnná, vždy můžeme najít instanci r z R (a odpovídající doména d) takové, že E(r) ≠ r+.[12]

SQL to však oficiálně podporuje fixpoint dotazy od roku 1999 a měla v tomto směru rozšíření specifická pro dodavatele s dostatečným předstihem.

Použití algebraických vlastností pro optimalizaci dotazu

Dotazy lze reprezentovat jako a strom, kde

  • vnitřní uzly jsou operátory,
  • listy jsou vztahy,
  • podstromy jsou podvýrazy.

Naším hlavním cílem je transformovat expresní stromy na ekvivalentní expresivní stromy, kde průměrná velikost vztahů získaná subexpresemi ve stromu je menší, než byla před optimalizace. Naším sekundárním cílem je pokusit se vytvořit společné dílčí výrazy v rámci jednoho dotazu, nebo pokud je současně vyhodnocován více než jeden dotaz, ve všech těchto dotazech. Důvodem druhého cíle je, že stačí spočítat běžné dílčí výrazy jednou a výsledky lze použít ve všech dotazech, které daný dílčí výraz obsahují.

Zde uvádíme sadu pravidel, která lze při takových transformacích použít.

Výběr

Pravidla týkající se operátorů výběru hrají nejdůležitější roli v optimalizaci dotazů. Výběr je operátor, který velmi efektivně snižuje počet řádků v jeho operandu, takže pokud se nám podaří přesunout výběry ve stromu výrazů směrem k listům, vnitřní vztahy (získáno subexpresemi) se pravděpodobně zmenší.

Vlastnosti základního výběru

Výběr je idempotentní (více aplikací stejného výběru nemá žádný další účinek nad rámec první) a komutativní (výběr pořadí, ve kterém jsou použity, nemá žádný vliv na konečný výsledek).

Rozdělení výběru se složitými podmínkami

Výběr, jehož stav je a spojení jednodušších podmínek odpovídá posloupnosti výběrů se stejnými individuálními podmínkami a výběru, jehož podmínka je a disjunkce je ekvivalentní sjednocení výběrů. Tyto identity lze použít ke sloučení výběrů, takže je třeba vyhodnotit méně výběrů, nebo k jejich rozdělení, aby se výběry komponent mohly přesouvat nebo optimalizovat samostatně.

Výběr a křížový produkt

Křížový produkt je nejnákladnějším operátorem, který lze vyhodnotit. Pokud je vstup vztahy mít N a M řádky, výsledek bude obsahovat řádky. Proto je velmi důležité, abychom se před použitím operátoru křížového produktu snažili zmenšit velikost obou operandů.

To lze efektivně provést, pokud je křížový produkt následován operátorem výběru, např. . Vzhledem k definici spojení je toto nejpravděpodobnější případ. Pokud křížový produkt není následován operátorem výběru, můžeme se pokusit potlačit výběr z vyšších úrovní stromu výrazů pomocí dalších pravidel výběru.

Ve výše uvedeném případě rozbijeme podmínku A do podmínek B, C a D pomocí rozdělených pravidel o složitých podmínkách výběru a B obsahuje atributy pouze z R, C obsahuje atributy pouze z P, a D obsahuje část A který obsahuje atributy z obou R a P. Všimněte si, že B, C nebo D jsou možná prázdné. Pak platí:

Výběr a nastavení operátorů

Výběr je distribuční přes nastavený rozdíl, křižovatku a sjednocující operátory. Následující tři pravidla se používají k odeslání výběru pod množinu operací ve stromu výrazů. Pro množinový rozdíl a operátory průniku je možné použít operátor výběru pouze na jeden z operandů následujících po transformaci. To může být výhodné tam, kde je jeden z operandů malý a režie vyhodnocení operátoru výběru převáží výhody použití menšího vztah jako operand.

Výběr a projekce

Výběr dojíždí s projekcí právě tehdy, jsou-li pole odkazovaná v podmínkách výběru podmnožinou polí v projekci. Provedení výběru před projekcí může být užitečné, pokud je operandem křížový produkt nebo spojení. V ostatních případech, je-li výpočetní podmínka relativně nákladná, může přesunutí výběru mimo projekci snížit počet n-tic, které musí být testovány (protože projekce může způsobit méně n-tic kvůli eliminaci duplikátů vyplývajících z vynechaných polí).

Projekce

Základní vlastnosti projekce

Projekce je idempotentní, takže řada (platných) projekcí je ekvivalentní k nejvzdálenější projekci.

Operátoři projekce a množiny

Projekce je distribuční nad nastavenou unií.

Projekce se nerozdělí přes průnik a nastavený rozdíl. Protiklady jsou dány:

a

kde b se předpokládá, že se liší od b '.

Přejmenovat

Základní vlastnosti přejmenování

Postupné přejmenování proměnné lze sbalit do jednoho přejmenování. Operace přejmenování, které nemají společné žádné proměnné, lze libovolně přeskupit vzhledem k sobě navzájem, což lze využít k vytvoření sousedních přejmenování tak, aby je bylo možné sbalit.

Přejmenovat a nastavit operátory

Přejmenování je distribuční přes nastavený rozdíl, sjednocení a průnik.

Produkt a spojení

Kartézský součin je distribuční přes unii.

Implementace

Prvním dotazovacím jazykem založeným na Coddově algebře byla Alpha, kterou vyvinul sám Dr. Codd. Následně ISBL bylo vytvořeno a toto průkopnické dílo bylo oceněno mnoha úřady [1] jako ukázka způsobu, jak z Coddova nápadu udělat užitečný jazyk. Obchodní systém 12 byl krátkodobý průmyslový relační DBMS, který následoval příklad ISBL.

V roce 1998 Chris Date a Hugh Darwen navrhl jazyk zvaný Výukový program D určený pro použití ve výuce teorie relačních databází a jeho dotazovací jazyk také čerpá z myšlenek ISBL. Rel je implementace Výukový program D.

Dokonce i dotazovací jazyk SQL je volně založený na relační algebře, ačkoli operandy v SQL (tabulky ) nejsou přesně vztahy a několik užitečných vět o relační algebře neplatí v protějšku SQL (pravděpodobně na úkor optimalizátorů a / nebo uživatelů). Model tabulky SQL je taška (multiset ), spíše než sada. Například výraz je věta pro relační algebru na množinách, ale ne pro relační algebru na taškách; léčba relační algebry na pytlích viz kapitola 5 učebnice "Complete" od autora Garcia-Molina, Ullman a Widom.[11]

Viz také

Reference

  1. ^ v Unicode, symbol motýlka je ⋈ (U + 22C8).
  2. ^ v Unicode, počáteční symbol je ⋉ (U + 22C9). Symbol času je ⋊ (U + 22CA)
  3. ^ Codd, E.F. (Červen 1970). "Relační model dat pro velké sdílené datové banky". Komunikace ACM. 13 (6): 377–387. doi:10.1145/362384.362685.
  4. ^ v Unicode, symbol Antijoin je ▷ (U + 25B7).
  5. ^ M. Tamer Özsu; Patrick Valduriez (2011). Principy distribuovaných databázových systémů (3. vyd.). Springer. str. 46. ISBN  978-1-4419-8833-1.
  6. ^ Patrick O'Neil; Elizabeth O'Neil (2001). Databáze: Principy, programování a výkon, druhé vydání. Morgan Kaufmann. str. 120. ISBN  978-1-55860-438-4.
  7. ^ v Unicode, symbol levého vnějšího spojení je ⟕ (U + 27D5).
  8. ^ v Unicode, pravý vnější spojovací symbol je ⟖ (U + 27D6).
  9. ^ v Unicode, symbol Full Outer join je ⟗ (U + 27D7).
  10. ^ C. J. Date (2011). SQL a relační teorie: Jak psát přesný kód SQL. O'Reilly Media, Inc. str. 133–135. ISBN  978-1-4493-1974-8.
  11. ^ A b Hector Garcia-Molina; Jeffrey D. Ullman; Jennifer Widom (2009). Databázové systémy: celá kniha (2. vyd.). Pearson Prentice Hall. ISBN  978-0-13-187325-4.
  12. ^ Aho, Alfred V .; Jeffrey D. Ullman (1979). "Univerzálnost jazyků pro vyhledávání dat". Sborník 6. sympozia ACM SIGACT-SIGPLAN o zásadách programovacích jazyků: 110–119. doi:10.1145/567752.567763.

Další čtení

Prakticky každá akademická učebnice o databázích obsahuje podrobné zpracování klasické relační algebry.

externí odkazy