Relační model - Relational model
The relační model (RM) pro databáze management je přístup k řízení data pomocí struktury a jazyka v souladu s predikátová logika prvního řádu, poprvé popsaný v roce 1969 anglickým počítačovým vědcem Edgar F. Codd,[1][2] kde jsou všechny údaje zastoupeny ve smyslu n-tice, seskupeny do vztahy. Databáze organizovaná z hlediska relačního modelu je a relační databáze.
Účelem relačního modelu je poskytnout a deklarativní metoda pro specifikaci dat a dotazů: uživatelé přímo uvádějí, jaké informace databáze obsahuje a jaké informace od ní chtějí, a nechají software systému pro správu databází, aby se postaral o popis datových struktur pro ukládání dat a postupy získávání odpovědí na dotazy.
Většina relačních databází používá SQL definice dat a dotazovací jazyk; tyto systémy implementují to, co lze považovat za inženýrskou aproximaci relačního modelu. A stůl v SQL databázové schéma odpovídá predikátové proměnné; obsah tabulky ke vztahu; klíčová omezení, další omezení a dotazy SQL odpovídají predikátům. Databáze SQL odchýlit se od relačního modelu v mnoha detailech a Codd ostře argumentovali proti odchylkám, které kompromitují původní principy.[3]
Přehled
Ústřední myšlenkou relačního modelu je popsat databázi jako sbírku predikáty přes konečnou množinu predikátových proměnných, popisující omezení o možných hodnotách a kombinacích hodnot. Obsah databáze je kdykoli konečný (logický) Modelka databáze, tj. soubor vztahy, jedna na proměnnou predikátu, takže jsou splněny všechny predikáty. Žádost o informace z databáze (a databázový dotaz ) je také predikát.
Alternativy
jiný modely patří hierarchický model a model sítě. Nějaký systémy používání těchto starších architektur se v současnosti stále používá datová centra s vysokými požadavky na objem dat nebo tam, kde jsou stávající systémy tak složité a abstraktní, že by bylo nákladné zakázat migraci na systémy využívající relační model. Za zmínku stojí i novější objektově orientované databáze.
Implementace
Došlo k několika pokusům o skutečnou implementaci modelu relační databáze, jak byla původně definována Codde a vysvětlil datum, Darwen a další, ale žádný z nich zatím nebyl populární úspěch. Od října 2015[Aktualizace] Rel je jedním z posledních pokusů o to.
Relační model byl prvním databázovým modelem, který byl popsán formálně matematicky. Hierarchické a síťové databáze existovaly před relačními databázemi, ale jejich specifikace byly relativně neformální. Poté, co byl definován relační model, došlo k mnoha pokusům porovnat a porovnat různé modely, což vedlo ke vzniku přísnějších popisů dřívějších modelů; ačkoli procedurální povaha rozhraní pro manipulaci s daty pro hierarchické a síťové databáze omezila rozsah formalizace.[Citace je zapotřebí ]
Analýzy strukturální databáze využívající protokoly relační modality často používají diferenciály datových sekvencí k udržení označení hierarchické architektury se začleněním nového vstupu. Tyto systémy jsou koncepčně funkčně podobné alternativním reléovým algoritmům, které tvoří základ infrastruktury cloudové databáze.[4]
Dějiny
Relační model vynalezl Edgar F. Codd jako obecný model dat a následně propagován Chris Date a Hugh Darwen mezi ostatními. v Třetí manifest (poprvé publikováno v roce 1995) Date a Darwen se snaží ukázat, jak může relační model údajně pojmout určité „žádoucí“ objektově orientovaný funkce.
Kontroverze
Několik let po zveřejnění jeho modelu z roku 1970 navrhl Codd a tříhodnotová logika (True, False, Missing /NULA ) jeho verze k řešení chybějících informací a v jeho Relační model pro správu databáze verze 2 (1990) šel o krok dále s verzí se čtyřmi hodnotami (True, False, Missing but Applicable, Missing but Inapplicable).[5] Ty nebyly nikdy implementovány, pravděpodobně kvůli složitosti řešení. Konstrukce SQL NULL měla být součástí logického systému se třemi hodnotami, ale nedosáhla toho kvůli logickým chybám ve standardu a v jeho implementacích.[6]
Témata
Základním předpokladem relačního modelu je vše data je reprezentován jako matematický n-ary vztahy, an n-aryní vztah je a podmnožina z kartézský součin z n domén. V matematickém modelu uvažování o těchto údajích se provádí ve dvou hodnotách predikátová logika, což znamená, že jsou možné dva hodnocení pro každého tvrzení: buď skutečný nebo Nepravdivé (a zejména žádná třetí hodnota, jako je neznámýnebo nelze použít, které jsou často spojeny s konceptem NULA ). Data jsou zpracovávána prostřednictvím a relační počet nebo relační algebra, které jsou rovnocenné v expresivní síla.
Relační model dat umožňuje návrháři databáze vytvořit konzistentní a logické znázornění informace. Konzistence je dosažena zahrnutím deklarovaných omezení v návrhu databáze, který se obvykle označuje jako logické schéma. Tato teorie zahrnuje proces normalizace databáze přičemž návrh s určitými žádoucími vlastnostmi lze vybrat ze sady logicky ekvivalentní alternativy. The plány přístupu a další podrobnosti implementace a provozu zpracovává DBMS motor a neprojeví se v logickém modelu. To kontrastuje s běžnou praxí pro SQL DBMS, ve kterých ladění výkonu často vyžaduje změny logického modelu.
Základním relačním stavebním kamenem je doména nebo datový typ, dnes obvykle zkráceno na typ. A n-tice je objednaný soubor z hodnoty atributů. An atribut je objednaný pár název atributu a zadejte název. Hodnota atributu je konkrétní platná hodnota pro typ atributu. Může to být buď skalární hodnota, nebo složitější typ.
Vztah se skládá z a nadpis a a tělo. Nadpis je sada atributů. Tělo (z n-ary relace) je sada n- n-tice. Nadpis relace je také nadpisem každé z jejích n-tic.
Vztah je definován jako a soubor z n- n-tice. V matematice i v modelu relační databáze je množina neuspořádaný sbírka jedinečných, neduplikovaných položek, ačkoli některé DBMS ukládají svým datům objednávku. V matematice, a n-tice má objednávku a umožňuje duplikaci. E. F. Codd původně definované n-tice pomocí této matematické definice.[2] Později to byl jeden z E. F. Codd skvělé postřehy, že používání názvů atributů místo objednávání by bylo pohodlnější (obecně) v počítačovém jazyce založeném na vztazích[Citace je zapotřebí ]. Tento přehled se používá dodnes. Ačkoli se koncept změnil, název „n-tice“ se nezměnil. Okamžitým a důležitým důsledkem tohoto rozlišovacího znaku je, že v relačním modelu kartézský součin se stává komutativní.
A stůl je akceptovaná vizuální reprezentace vztahu; n-tice je podobná konceptu a řádek.
A relvar je pojmenovaná proměnná nějakého konkrétního typu relace, ke které je vždy přiřazen nějaký vztah tohoto typu, ačkoli relace může obsahovat nulové n-tice.
Základním principem relačního modelu je Informační princip: Všechno informace je reprezentován datovými hodnotami ve vztazích. V souladu s tímto principem, a relační databáze je sada relvarů a výsledek každého dotazu je prezentován jako relace.
Konzistence relační databáze není vynucována pravidly zabudovanými do aplikací, které ji používají, ale spíše pomocí omezení, deklarováno jako součást logického schématu a vynuceno DBMS pro všechny aplikace. Obecně jsou omezení vyjádřena pomocí operátorů relačního srovnání, z nichž teoreticky postačuje pouze jeden, „je podmnožina“ (⊆)[Citace je zapotřebí ]. V praxi se očekává, že bude k dispozici několik užitečných zkratek, z nichž nejdůležitější jsou klíč kandidáta (opravdu, superklíč ) a cizí klíč omezení.
Výklad
Abychom plně ocenili relační model dat, je nezbytné porozumět zamýšlenému výklad a vztah.
Tělu relace se někdy říká její rozšíření. Je to proto, že to má být interpretováno jako reprezentace rozšíření některých predikát, což je množina pravdivých propozice které lze vytvořit jejich nahrazením volná proměnná v tom predikátu jménem (termín, který něco označuje).
Tady je osobní korespondence mezi volnými proměnnými predikátu a názvy atributů záhlaví relace. Každá n-tice těla relace poskytuje hodnoty atributů pro vytvoření instance predikátu nahrazením každé z jeho volných proměnných. Výsledkem je návrh, který je považován za pravdivý z důvodu vzhledu n-tice v těle relace. Naopak každá n-tice, jejíž nadpis odpovídá záhlaví relace, ale která se v těle neobjevuje, je považována za nepravdivou. Tento předpoklad je znám jako předpoklad uzavřeného světa: často se porušuje v praktických databázích, kde absence n-tice může znamenat, že pravdivost příslušného tvrzení není známa. Například absence n-tice („John“, „Spanish“) v tabulce jazykových znalostí nemůže být nutně brána jako důkaz toho, že John nemluví španělsky.
Formální výklad těchto myšlenek najdete v části Set-teoretická formulace níže.
Aplikace do databází
A datový typ jak se používá v typické relační databázi, může to být sada celých čísel, sada řetězců znaků, sada dat nebo dvě booleovské hodnoty skutečný a Nepravdivé, a tak dále. Korespondence názvy typů pro tyto typy by to mohly být řetězce „int“, „char“, „date“, „boolean“ atd. Je však důležité si uvědomit, že relační teorie nediktuje, jaké typy mají být podporovány; ve skutečnosti se dnes očekává, že ustanovení budou k dispozici pro definované uživatelem typy kromě vestavěný ty, které poskytuje systém.
Atribut je termín používaný v teorii pro to, co se běžně označuje jako a sloupec. Podobně, stůl se běžně používá místo teoretického termínu vztah (i když v SQL není tento výraz v žádném případě synonymem relace). Struktura dat tabulky je zadána jako seznam definic sloupců, z nichž každá určuje jedinečný název sloupce a typ hodnot, které jsou pro daný sloupec povoleny. An atribut hodnota je položka v konkrétním sloupci a řádku, například „John Doe“ nebo „35“.
A n-tice je v podstatě to samé jako a řádek, s výjimkou SQL DBMS, kde jsou seřazeny hodnoty sloupců v řádku. (Tice nejsou řazeny; místo toho je každá hodnota atributu identifikována pouze pomocí název atributu a nikdy podle jeho pořadové polohy v n-tici.) Název atributu může být „name“ nebo „age“.
A vztah je stůl definice struktury (sada definic sloupců) spolu s údaji, které se v této struktuře objevují. Definice struktury je nadpis a data v něm uvedená jsou tělo, sada řádků. Databáze relvar (relační proměnná) je obecně známá jako a základní stůl. Nadpis její přiřazené hodnoty je kdykoli uveden v deklaraci tabulky a její tělo je to, které jí bylo naposledy přiřazeno vyvoláním některých operátor aktualizace (obvykle INSERT, UPDATE nebo DELETE). Záhlaví a tělo tabulky vyplývající z vyhodnocení nějakého dotazu jsou určeny definicemi operátorů použitých ve výrazu daného dotazu. (Všimněte si, že v SQL není záhlaví vždy sadou definic sloupců, jak je popsáno výše, protože je možné, aby sloupec neměl žádný název a také aby dva nebo více sloupců měl stejný název. Tělo také není vždy sada řádků, protože v SQL je možné, aby se stejný řádek objevil více než jednou ve stejném těle.)
SQL a relační model
SQL, původně tlačil jako Standard jazyk pro relační databáze, se na několika místech odchyluje od relačního modelu. Aktuální ISO Standard SQL nezmiňuje relační model ani nepoužívá relační termíny nebo koncepty. Je však možné vytvořit databázi vyhovující relačnímu modelu pomocí SQL, pokud jeden nepoužívá určité funkce SQL.
Byly zaznamenány následující odchylky od relačního modelu[SZO? ] v SQL. Několik databázových serverů implementuje celý standard SQL a zejména neumožňuje některé z těchto odchylek. Zatímco NULL je všudypřítomný, například povolení duplicitních názvů sloupců v tabulce nebo anonymních sloupcích je neobvyklé.
- Duplicitní řádky
- Stejný řádek se může v tabulce SQL objevit více než jednou. Stejná n-tice se v a nemůže objevit více než jednou vztah.
- Anonymní sloupce
- Sloupec v tabulce SQL může být nepojmenovaný, a proto na něj nelze odkazovat ve výrazech. Relační model vyžaduje, aby byl každý atribut pojmenován a odkazovatelný.
- Duplicitní názvy sloupců
- Dva nebo více sloupců stejné tabulky SQL může mít stejný název, a proto z důvodu zjevné nejednoznačnosti na ně nelze odkazovat. Relační model vyžaduje, aby každý atribut byl odkazovatelný.
- Význam pořadí sloupců
- Pořadí sloupců v tabulce SQL je definováno a významné, jedním důsledkem je, že implementace karteziánského produktu a sjednocení SQL jsou nekomutativní. Relační model vyžaduje, aby nemělo žádný význam pro jakékoli uspořádání atributů relace.
- Pohledy bez KONTROLA MOŽNOSTI
- Aktualizace a Pohled definováno bez KONTROLA MOŽNOSTI lze přijmout, ale výsledná aktualizace databáze nemusí nutně mít vyjádřený účinek na její cíl. Například může být přijato vyvolání INSERT, ale vložené řádky se nemusí v zobrazení zobrazit všechny, nebo vyvolání UPDATE může mít za následek zmizení řádků z pohledu. Relační model vyžaduje aktualizace pohledu, aby měly stejný účinek, jako kdyby byl pohled základním relvarem.
- Nerozpoznané tabulky bez sloupců
- SQL vyžaduje, aby každá tabulka měla alespoň jeden sloupec, ale existují dva vztahy nulového stupně (z mohutnost jedna a nula) a jsou potřebné k reprezentaci rozšíření predikátů, které neobsahují žádné volné proměnné.
- NULA
- Tato speciální značka se může namísto hodnoty objevit všude, kde se v SQL může objevit hodnota, zejména místo hodnoty sloupce v nějakém řádku. Odchylka od relačního modelu vyplývá ze skutečnosti, že implementace tohoto ad hoc koncept v SQL zahrnuje použití tříhodnotová logika, podle kterého srovnání NULL se sebou samým nepřináší skutečný ale místo toho získá třetí pravdivostní hodnota, neznámý; podobně srovnání NULL s něčím jiným než samo o sobě nepřináší Nepravdivé ale místo toho výnosy neznámý. Je to kvůli tomuto chování ve srovnání, že NULL je popsán spíše jako značka než jako hodnota. Relační model závisí na zákon vyloučeného prostředku pod kterým je cokoli, co není pravdivé, nepravdivé a cokoli, co není nepravdivé, je pravda; vyžaduje také, aby každá n-tice v těle relace měla hodnotu pro každý atribut dané relace. Tuto konkrétní odchylku někteří zpochybňují, i když jen proto, že E. Sám F. Codd se nakonec zasazoval o použití zvláštních známek a logiky se 4 hodnotami, ale to bylo založeno na jeho pozorování, že existují dva odlišné důvody, proč by někdo mohl chtít použít speciální známku namísto hodnoty, což vedlo odpůrce použití takové logiky k odhalení odlišnějších důvodů a bylo zaznamenáno alespoň 19, což by vyžadovalo logiku s 21 hodnotami.[Citace je zapotřebí ] Samotný SQL používá NULL k několika jiným účelům než k reprezentaci „neznámé hodnoty“. Například součet prázdné sady je NULL, což znamená nulu, průměr prázdné sady je NULL, což znamená nedefinováno, a NULL, která se objeví ve výsledku LEFT JOIN, může znamenat „žádná hodnota, protože v pravý operand ". Existují způsoby, jak navrhnout tabulky, aby se předešlo potřebě NULL, obvykle toho, co lze považovat za vysoké nebo podobné normalizace databáze, ale mnoho lidí to považuje za nepraktické. Může to být velmi diskutované téma.
Relační operace
Uživatelé (nebo programy) požadují data z relační databáze odesláním a dotaz který je napsán ve zvláštním jazyce, obvykle v dialektu jazyka SQL. Ačkoli SQL byl původně určen pro koncové uživatele, je mnohem běžnější, když se dotazy SQL vkládají do softwaru, který poskytuje jednodušší uživatelské rozhraní. Mnoho webů, například Wikipedia, provádí při generování stránek dotazy SQL.
V reakci na dotaz vrátí databáze sadu výsledků, což je pouze seznam řádků obsahujících odpovědi. Nejjednodušší dotaz je pouze vrátit všechny řádky z tabulky, ale častěji jsou řádky filtrovány nějakým způsobem, aby se vrátila pouze požadovaná odpověď.
Data z více tabulek jsou často kombinována do jedné, a připojit se. Koncepčně se to děje pomocí všech možných kombinací řádků ( kartézský součin ) a poté odfiltruje vše kromě odpovědi. V praxi systémy pro správu relačních databází přepisují („optimalizovat ") dotazy na rychlejší provedení s využitím různých technik.
Kromě připojení existuje celá řada relačních operací. Patří mezi ně projekt (proces eliminace některých sloupců), omezení (proces eliminace některých řádků), sjednocení (způsob kombinace dvou tabulek s podobnými strukturami), rozdíl (který uvádí řádky v jedné tabulce, které jsou not found in the other), intersect (that lists the lines found in both tables), and product (mentioned above, which combine each row of one table with each row of the other). V závislosti na tom, které další zdroje konzultujete, existuje řada dalších operátorů - z nichž mnohé lze definovat z hlediska výše uvedených. Patří sem semi-join, vnější operátory, jako je vnější spojení a vnější unie, a různé formy dělení. Pak existují operátory k přejmenování sloupců a agregaci nebo agregaci operátorů, a pokud to povolíte vztah hodnoty jako atributy (atribut s hodnotou relace), pak operátory, jako je skupina a skupina. Příkaz SELECT v SQL slouží ke zpracování všech těchto kromě operátorů skupiny a skupiny.
Flexibilita relačních databází umožňuje programátorům psát dotazy, které neočekávali návrháři databází. Výsledkem je, že relační databáze mohou být používány více aplikacemi způsoby, které původní návrháři nepředvídali, což je zvláště důležité pro databáze, které by mohly být používány po dlouhou dobu (možná několik desítek let). Díky tomu byla myšlenka a implementace relačních databází v podnicích velmi populární.
Normalizace databáze
Vztahy jsou klasifikovány na základě typů anomálií, vůči nimž jsou zranitelné. Databáze, která je v první normální forma je zranitelný vůči všem typům anomálií, zatímco databáze, která je v normální podobě domény / klíče, nemá žádné anomálie modifikací. Normální formy mají hierarchickou povahu. To znamená, že nejnižší úroveň je první normální forma a databáze nemůže splnit požadavky na vyšší formy normální formy, aniž by nejprve splnila všechny požadavky méně normálních forem.[7]
Příklady
Databáze
Idealizovaný, velmi jednoduchý příklad popisu některých relvars (vztah proměnné) a jejich atributy:
- Zákazník (zákaznické identifikační číslo, DIČ, jméno, adresa, město, stát, PSČ, telefon, e-mail, sex)
- Objednat (Objednávka číslo, zákaznické identifikační číslo, Faktura číslo, Datum vloženo, Datum přislíbeno, Podmínky, Stav)
- Řádek objednávky (Objednávka číslo, Objednací číslo, Kód produktu, Množství)
- Faktura (Faktura číslo, zákaznické identifikační číslo, Objednávka číslo, Datum, stav)
- Řádek faktury (Faktura číslo, Fakturační řádek č, Kód produktu, Množství odesláno)
- Produkt (Kód produktu, Popis výrobku)
V tomhle design máme šest relvarů: Zákazník, Objednávka, Řádek objednávky, Faktura, Řádek faktur a Produkt. Tučně podtržené atributy jsou kandidátské klíče. Netučně podtržené atributy jsou cizí klíče.
Obvykle jeden klíč kandidáta je vybrán, aby se nazýval primární klíč a použitý v přednost přes ostatní kandidátské klíče, které jsou poté volány alternativní klávesy.
A klíč kandidáta je jedinečný identifikátor prosazování toho č n-tice bude duplikován; to by způsobilo vztah do něčeho jiného, jmenovitě a Taška porušením základní definice a soubor. Cizí klíče i superklíče (včetně kandidátních klíčů) mohou být složené, to znamená, že mohou být složeny z několika atributů. Níže je tabelární zobrazení vztahu našeho příkladu Relvar zákazníka; vztah lze považovat za hodnotu, kterou lze připsat relvaru.
Vztah se zákazníkem
zákaznické identifikační číslo | DIČ | název | Adresa | [Více polí…] |
---|---|---|---|---|
1234567890 | 555-5512222 | Ramesh | 323 Southern Avenue | … |
2223344556 | 555-5523232 | Adam | Hlavní ulice 1200 | … |
3334445563 | 555-5533323 | Shweta | 871 Rani Jhansi Road | … |
4232342432 | 555-5325523 | Sarfaraz | 123 Maulana Azad Sarani | … |
Pokud bychom se o to pokusili vložit nový zákazník s ID 1234567890, od té doby by to porušilo design relvaru zákaznické identifikační číslo je primární klíč a už máme zákazníka 1234567890. The DBMS musí odmítnout transakce jako je tento, který by vykreslil databáze nekonzistentní porušením omezení integrity.
Cizí klíče jsou omezení integrity prosazování toho hodnota z sada atributů je čerpáno z a klíč kandidáta v jiném vztah. Například ve vztahu Objednávka atribut zákaznické identifikační číslo je cizí klíč. A připojit se je úkon který čerpá informace z několika vztahů najednou. Spojením relvarů z výše uvedeného příkladu jsme mohli dotaz databáze všech zákazníků, objednávek a faktur. Pokud bychom chtěli n-tice pouze pro konkrétního zákazníka, zadali bychom to pomocí a podmínka omezení.
Pokud bychom chtěli získat všechny objednávky pro zákazníka 1234567890, mohli bychom dotaz databázi vrátit každý řádek v tabulce objednávky s zákaznické identifikační číslo 1234567890 a připojte tabulku Objednávka k tabulce Řádek objednávky na základě Objednávka číslo.
V naší je chyba návrh databáze výše. Relvar faktury obsahuje atribut Objednací číslo. Takže každá n-tice ve verzi faktury bude mít jedno číslo objednávky, což znamená, že pro každou fakturu existuje přesně jedna objednávka. Ve skutečnosti však lze fakturu vytvořit proti mnoha objednávkám, nebo dokonce k žádné konkrétní objednávce. Relvar objednávky dále obsahuje atribut č. Faktury, z čehož vyplývá, že každá objednávka má odpovídající fakturu. Ve skutečném světě to ale vždy neplatí. Objednávka se někdy platí prostřednictvím několika faktur a někdy se platí bez faktury. Jinými slovy, na jednu objednávku může být mnoho faktur a na každou fakturu mnoho objednávek. Tohle je mnoho k mnoha vztah mezi objednávkou a fakturou (nazývaný také a nespecifický vztah). K reprezentaci tohoto vztahu v databázi by měl být zaveden nový relvar jehož role je určit korespondenci mezi Objednávkami a Fakturami:
Objednávka faktura (Objednávka číslo, Faktura číslo)
Nyní má Relvar objednávky a vztah jedna k více do tabulky OrderInvoice, stejně jako Relvar faktury. Pokud chceme načíst každou fakturu pro konkrétní Objednávku, můžeme se dotazovat na všechny objednávky, kde Objednávka číslo v relaci objednávky se rovná Objednávka číslo v OrderInvoice a kde Faktura číslo v OrderInvoice se rovná Faktura číslo ve faktuře.
Set-teoretická formulace
Základní pojmy v relačním modelu jsou vztah jména a názvy atributů. Budeme je reprezentovat jako řetězce jako „Osoba“ a „jméno“ a obvykle použijeme proměnné a pohybovat se nad nimi. Další základní představou je soubor atomové hodnoty který obsahuje hodnoty, jako jsou čísla a řetězce.
Naše první definice se týká pojmu n-tice, který formalizuje pojem řádku nebo záznamu v tabulce:
- Tuple
- N-tice je a částečná funkce od názvů atributů po atomové hodnoty.
- Záhlaví
- Záhlaví je konečná sada názvů atributů.
- Projekce
- Projekce n-tice na konečná množina atributů je .
Další definice definuje vztah který formalizuje obsah tabulky tak, jak je definována v relačním modelu.
- Vztah
- Relace je n-tice s , záhlaví a , tělo, sada n-tic, které všechny mají doménu .
Taková relace úzce odpovídá tomu, co se obvykle nazývá rozšíření predikátu v logika prvního řádu až na to, že zde identifikujeme místa v predikátu jmény atributů. Obvykle v relačním modelu a databázové schéma se říká, že se skládá ze sady názvů relací, hlaviček, které jsou spojeny s těmito názvy a omezení který by měl platit pro každou instanci schématu databáze.
- Vztah vesmíru
- Vztahový vesmír přes záhlaví je neprázdná sada vztahů s hlavičkou .
- Schéma vztahu
- Schéma relace sestává ze záhlaví a predikát který je definován pro všechny vztahy s hlavičkou . Relace vyhovuje schématu relace pokud má záhlaví a uspokojuje .
Klíčová omezení a funkční závislosti
Jeden z nejjednodušších a nejdůležitějších typů vztahů omezení je klíčové omezení. Říká nám, že v každé instanci určitého relačního schématu lze n-tice identifikovat podle jejich hodnot pro určité atributy.
Superklíč je sada záhlaví sloupců, u kterých jsou hodnoty těchto zřetězených sloupců jedinečné ve všech řádcích. Formálně:
- Superklíč je psán jako konečná sada jmen atributů.
- Superklíč drží ve vztahu li:
- a
- neexistují žádné dvě odlišné n-tice takhle .
- Superklíč drží ve vztahu vesmíru pokud platí ve všech vztazích v .
- Teorém: Superklíč drží ve vztahu vesmíru přes kdyby a jen kdyby a drží se .
- Klíč kandidáta
Kandidátský klíč je superklíč, který nelze dále rozdělit a vytvořit tak další superklíč.
- Superklíč drží jako kandidátský klíč pro relační vesmír pokud platí jako superklíč pro a není správná podmnožina z který také platí jako superklíč pro .
- Funkční závislost
Funkční závislost je vlastnost, že hodnotu v n-tici lze odvodit z jiné hodnoty v této n-tici.
- Funkční závislost (zkráceně FD) se zapisuje jako pro konečné sady jmen atributů.
- Funkční závislost drží ve vztahu li:
- a
- n-tice ,
- Funkční závislost drží ve vztahu vesmíru pokud platí ve všech vztazích v .
- Triviální funkční závislost
- Funkční závislost je pod hlavičkou triviální pokud to platí ve všech vztazích vesmírů .
- Teorém: FD je triviální pod hlavičkou kdyby a jen kdyby .
- Uzavření
- Armstrongovy axiomy: Uzavření sady FD pod hlavičkou , psáno jako , je nejmenší nadmnožinou takové, že:
- (reflexivita)
- (tranzitivita) a
- (augmentace)
- Teorém: Armstrongovy axiomy jsou zdravé a úplné; dostal záhlaví a sada FD, které obsahují pouze podmnožiny , kdyby a jen kdyby platí ve všech relačních vesmírech ve kterém jsou všechny FD v držet.
- Dokončení
- Dokončení konečné sady atributů pod konečnou sadou FD , psáno jako , je nejmenší nadmnožinou takové, že:
- Dokončení sady atributů lze použít k výpočtu, pokud je určitá závislost v uzavření sady FD.
- Teorém: Vzhledem k sadě FD, kdyby a jen kdyby .
- Neredukovatelné krytí
- Neredukovatelný kryt sady of FDs is a set FD tak, že:
- neexistuje žádné takhle
- je singletonová sada a
- .
Algoritmus pro odvození kandidátských klíčů z funkčních závislostí
algoritmus odvodit kandidátní klíče z funkčních závislostí je vstup: sada S FD, které obsahují pouze podmnožiny záhlaví H výstup: sada C superklíčů, které drží jako kandidátské klíče ve všech relačních vesmírech H ve kterém jsou všechny FD v S držet C : = ∅ // nalezeny kandidátní klíče Q := { H } // superklíče, které obsahují kandidátské klíče zatímco Q <> ∅ dělat nechat K. být nějaký prvek z Q Q := Q – { K. } minimální := skutečný pro každého X-> Y v S dělat K ' := (K. – Y) ∪ X // odvodit nový superklíč -li K ' ⊂ K. pak minimální := Nepravdivé Q := Q ∪ { K ' } skončit, pokud konec pro -li minimální a neexistuje podmnožina K. v C pak odebrat všechny nadmnožiny z K. z C C := C ∪ { K. } skončit, pokud skončit chvíli
Viz také
Reference
- ^ Codd, E.F (1969), Odvozitelnost, nadbytečnost a konzistence vztahů uložených ve velkých databázích, Výzkumná zpráva, IBM.
- ^ A b Codd, E.F (1970). „Relační model dat pro velké sdílené datové banky“. Komunikace ACM. Klasika. 13 (6): 377–87. doi:10.1145/362384.362685. Archivovány od originál dne 06.06.2007.
- ^ Codd, E. F (1990), Relační model pro správu databáze, Addison-Wesley, str. 371–388, ISBN 978-0-201-14192-4.
- ^ Jatana, N (2012). "Průzkum a srovnání relační a nerelační databáze". International Journal of Engineering Research & Technology. 1 (6).
- ^ Date, C.J (2006). „18. Proč nefunguje tří- a čtyřhodnotová logika“. Datum v databázi: spisy 2000–2006. Apress. 329–41. ISBN 978-1-59059-746-0.
- ^ Date, C.J (2004). Úvod do databázových systémů (8 ed.). Addison Wesley. str.592–97. ISBN 978-0-321-19784-9.
- ^ David M. Kroenke, Zpracování databáze: Základy, návrh a implementace (1997), Prentice-Hall, Inc., strany 130–144
Další čtení
- Date, C. J .; Darwen, Hugh (2000). Nadace pro budoucí databázové systémy: třetí manifest; podrobná studie dopadu teorie typů na relační model dat, včetně komplexního modelu dědičnosti typů (2. vyd.). Čtení, MA: Addison-Wesley. ISBN 978-0-201-70928-5.
- ——— (2007). Úvod do databázových systémů (8 ed.). Boston: Pearson Education. ISBN 978-0-321-19784-9.
externí odkazy
- Childs (1968), Proveditelnost množinové teoretické datové struktury: obecná struktura založená na rekonstituované definici vztahu (výzkum), Rukojeť, hdl:2027.42/4164 citováno v Coddu z roku 1970.
- Darwen, Hugh, Třetí manifest (TTM).
- Relační databáze na Curlie
- "Relační model", C2.
- Binární vztahy a n-tice ve srovnání se sémantickým webem (Celosvětová Síť log), Slunce.