Jak jsou datové trezory budoucností datových skladů[+5 Learning Resources]

S tím, jak společnosti generují stále více dat, je tradiční přístup k datovému skladu stále obtížnější a nákladnější na údržbu. Data Vault, relativně nový přístup k datovým skladům, nabízí řešení tohoto problému tím, že poskytuje škálovatelný, agilní a nákladově efektivní způsob správy velkých objemů dat.

V tomto příspěvku prozkoumáme, jak jsou datové trezory budoucností datových skladů a proč stále více společností přijímá tento přístup. Poskytneme také výukové materiály pro ty, kteří se chtějí do tématu ponořit hlouběji!

Co je Datový trezor?

Data Vault je technika modelování datových skladů, která je zvláště vhodná pro agilní datové sklady. Nabízí vysoký stupeň flexibility pro rozšíření, kompletní jednotkovou časovou historizaci dat a umožňuje silnou paralelizaci procesů načítání dat. Dan Linstedt vyvinul modelování datového trezoru v 90. letech.

Po první publikaci v roce 2000 získala větší pozornost v roce 2002 řadou článků. V roce 2007 Linstedt získal podporu Billa Inmona, který jej popsal jako „optimální volbu“ pro svou architekturu Data Vault 2.0.

Každý, kdo se zabývá pojmem agilní datový sklad, rychle skončí u Data Vaultu. Na technologii je zvláštní, že je zaměřena na potřeby společností, protože umožňuje flexibilní úpravy datového skladu s nízkými náklady.

Data Vault 2.0 bere v úvahu celý proces vývoje a architekturu a skládá se z metody komponent (implementace), architektury a modelu. Výhodou je, že tento přístup při vývoji zohledňuje všechny aspekty business intelligence se základním datovým skladem.

Model Data Vault nabízí moderní řešení pro překonání omezení tradičních přístupů k datovému modelování. Díky své škálovatelnosti, flexibilitě a agilitě poskytuje pevný základ pro budování datové platformy, která se dokáže přizpůsobit složitosti a rozmanitosti moderních datových prostředí.

Architektura hub-and-spoke a oddělení entit a atributů Data Vaultu umožňují integraci a harmonizaci dat napříč různými systémy a doménami, což usnadňuje postupný a agilní vývoj.

Klíčovou rolí datového trezoru při budování datové platformy je vytvoření jediného zdroje pravdy pro všechna data. Jeho jednotný pohled na data a podpora pro zachycování a sledování historických změn dat prostřednictvím satelitních tabulek umožňuje shodu, audit, regulační požadavky a komplexní analýzu a reporting.

Schopnosti datové integrace datového trezoru téměř v reálném čase prostřednictvím delta načítání usnadňují práci s velkými objemy dat v rychle se měnících prostředích, jako jsou aplikace Big Data a IoT.

Datový trezor vs. tradiční modely datových skladů

Third-Normal-Form (3NF) je jeden z nejznámějších tradičních modelů datových skladů, často preferovaný v mnoha velkých implementacích. To mimochodem odpovídá myšlenkám Billa Inmona, jednoho z „předků“ konceptu datového skladu.

  Jak vytvořit Emoji Mini v Klávesnici Google

Architektura Inmon je založena na relačním databázovém modelu a eliminuje redundanci dat rozdělením datových zdrojů do menších tabulek, které jsou uloženy v datových tržištích a jsou vzájemně propojeny pomocí primárního a cizího klíče. Zajišťuje, že data jsou konzistentní a přesná tím, že vynucuje pravidla referenční integrity.

Cílem normální formy bylo vybudovat komplexní celopodnikový datový model pro základní datový sklad; má však problémy se škálovatelností a flexibilitou kvůli vysoce propojeným datovým trhům, potížím s načítáním v téměř reálném čase, pracným požadavkům a návrhu a implementaci shora dolů.

Kimbalův model, používaný pro OLAP (online analytické zpracování) a datové tržiště, je dalším slavným modelem datového skladu, ve kterém tabulky faktů obsahují agregovaná data a tabulky dimenzí popisují uložená data ve hvězdicovém schématu nebo schématu sněhové vločky. V této architektuře jsou data organizována do tabulek faktů a dimenzí, které jsou denormalizovány pro zjednodušení dotazování a analýzy.

Kimbal je založen na dimenzionálním modelu, který je optimalizován pro dotazování a vytváření sestav, takže je ideální pro aplikace business intelligence. Má však problémy s izolací předmětově orientovaných informací, redundancí dat, nekompatibilními strukturami dotazů, problémy se škálovatelností, nekonzistentní granularitou tabulek faktů, problémy se synchronizací a potřebou návrhu shora dolů s implementací zdola nahoru.

Naproti tomu architektura datového trezoru je hybridní přístup, který kombinuje aspekty architektury 3NF i Kimball. Jde o model založený na relačních principech, normalizaci dat a redundantní matematice, který odlišně reprezentuje vztahy mezi entitami a odlišně strukturuje pole tabulky a časová razítka.

V této architektuře jsou všechna data uložena v trezoru nezpracovaných dat nebo datovém jezeře, zatímco běžně používaná data jsou uložena v normalizovaném formátu v obchodním trezoru, který obsahuje historická a kontextově specifická data, která lze použít pro vytváření sestav.

Data Vault řeší problémy tradičních modelů tím, že je efektivnější, škálovatelnější a flexibilnější. Umožňuje načítání téměř v reálném čase, lepší integritu dat a snadné rozšiřování bez ovlivnění stávajících struktur. Model lze také rozšířit bez migrace stávajících tabulek.

Přístup k modelování Struktura datPřístup k návrhu Přístup k modelování 3NF Modelovací tabulky 3NF ve schématu Kimbal ModelingStar nebo schéma sněhové vločky 3NFZdola nahoru

Architektura datového trezoru

Data Vault má architekturu hub-and-spoke a v podstatě se skládá ze tří vrstev:

Staging Layer: Shromažďuje nezpracovaná data ze zdrojových systémů, jako je CRM nebo ERP

Vrstva datového skladu: Při modelování jako model datového trezoru tato vrstva zahrnuje:

  • Raw Data Vault: ukládá nezpracovaná data.
  • Business Data Vault: obsahuje harmonizovaná a transformovaná data založená na obchodních pravidlech (volitelné).
  • Vault metrik: ukládá informace o běhu (volitelné).
  • Operational Vault: ukládá data, která proudí přímo z operačních systémů do datového skladu (volitelné.)

Vrstva Data Mart: Tato vrstva modeluje data jako hvězdicové schéma a/nebo jiné modelovací techniky. Poskytuje informace pro analýzu a reportování.

Zdroj obrázku: Lamia Yessad

Datový trezor nevyžaduje re-architekturu. Nové funkce lze budovat paralelně přímo pomocí konceptů a metod Data Vault a stávající komponenty se neztratí. Frameworky mohou výrazně usnadnit práci: vytvářejí vrstvu mezi datovým skladem a vývojářem a snižují tak složitost implementace.

  Jak zvětšit část fotografie na iPhonu a iPadu

Komponenty datového trezoru

Data Vault při modelování rozděluje veškeré informace patřící k objektu do tří kategorií – na rozdíl od klasického modelování třetí normální formy. Tyto informace jsou pak uloženy přísně odděleně od sebe. Funkční oblasti lze v Data Vault mapovat v takzvaných centrech, linkách a satelitech:

#1. Náboje

Rozbočovače jsou srdcem základního obchodního konceptu, jako je zákazník, prodejce, prodej nebo produkt. Tabulka rozbočovače je vytvořena kolem obchodního klíče (název obchodu nebo umístění), když je do datového skladu poprvé zavedena nová instance tohoto obchodního klíče.

Náboj neobsahuje žádné popisné informace a žádné FK. Skládá se pouze z obchodního klíče se skladem vygenerovanou sekvencí ID nebo hash klíčů, razítkem data/času načtení a zdrojem záznamů.

#2. Odkazy

Odkazy vytvářejí vztahy mezi obchodními klíči. Každý záznam v odkazu modeluje nm vztahy libovolného počtu hubů. Umožňuje datovému trezoru pružně reagovat na změny v obchodní logice zdrojových systémů, jako jsou změny srdečnosti vztahů. Stejně jako hub ani odkaz neobsahuje žádné popisné informace. Skládá se z ID sekvencí hubů, na které odkazuje, ID sekvence vygenerované skladem, razítka data/času načtení a zdroje záznamů.

#3. Satelity

Satelity obsahují popisné informace (kontext) pro obchodní klíč uložený v centru nebo vztah uložený v odkazu. Satelity fungují „pouze vložit“, což znamená, že kompletní historie dat je uložena v satelitu. Více satelitů může popisovat jeden obchodní klíč (nebo vztah). Satelit však může popisovat pouze jeden klíč (rozbočovač nebo spoj).

Zdroj obrázku: Carbidfischer

Jak vytvořit model datového trezoru

Vytvoření modelu datového trezoru zahrnuje několik kroků, z nichž každý je zásadní pro zajištění škálovatelnosti, flexibility a schopnosti vyhovět potřebám podniku:

#1. Identifikujte entity a atributy

Identifikujte podnikatelské subjekty a jejich odpovídající atributy. Zahrnuje úzkou spolupráci s obchodními partnery, abychom pochopili jejich požadavky a data, která potřebují zachytit. Jakmile jsou tyto entity a atributy identifikovány, rozdělte je na rozbočovače, odkazy a satelity.

#2. Definujte vztahy entit a vytvořte odkazy

Jakmile identifikujete entity a atributy, definují se vztahy mezi entitami a vytvoří se vazby, které tyto vztahy reprezentují. Každé vazbě je přiřazen obchodní klíč, který identifikuje vztah mezi entitami. Satelity jsou pak přidány k zachycení atributů a vztahů entit.

#3. Stanovte pravidla a standardy

Po vytvoření propojení by měla být stanovena sada pravidel a standardů pro modelování datového trezoru, aby bylo zajištěno, že model bude flexibilní a zvládne změny v průběhu času. Tato pravidla a normy by měly být pravidelně přezkoumávány a aktualizovány, aby bylo zajištěno, že zůstanou relevantní a budou v souladu s obchodními potřebami.

#4. Naplňte model

Jakmile byl model vytvořen, měl by být naplněn daty pomocí přístupu inkrementálního načítání. Zahrnuje načítání dat do rozbočovačů, spojů a satelitů pomocí delta zatížení. Delta se načte, aby bylo zajištěno, že budou načteny pouze změny provedené v datech, čímž se zkrátí čas a zdroje potřebné pro integraci dat.

#5. Otestujte a ověřte model

Nakonec by měl být model otestován a ověřen, aby bylo zajištěno, že splňuje obchodní požadavky a je dostatečně škálovatelný a flexibilní, aby zvládl budoucí změny. Je třeba provádět pravidelnou údržbu a aktualizace, aby bylo zajištěno, že model zůstane v souladu s obchodními potřebami a bude nadále poskytovat jednotný pohled na data.

  Útěk z Tarkova Nejnovější propagační kódy: Uplatněte nyní

Výukové zdroje datového trezoru

Mastering Data Vault může poskytnout cenné dovednosti a znalosti, které jsou v dnešních odvětvích založených na datech velmi žádané. Zde je úplný seznam zdrojů, včetně kurzů a knih, které vám mohou pomoci naučit se složitosti Data Vault:

#1. Modelování datového skladu pomocí Data Vault 2.0

Tento kurz Udemy je komplexním úvodem do přístupu k modelování Data Vault 2.0, agilního řízení projektů a integrace velkých dat. Kurz pokrývá základy a základy Data Vault 2.0, včetně jeho architektury a vrstev, obchodních a informačních trezorů a pokročilých technik modelování.

Naučí vás, jak navrhnout model Data Vault od nuly, převést tradiční modely jako 3NF a dimenzionální modely na Data Vault a porozumět principům dimenzionálního modelování v Data Vault. Kurz vyžaduje základní znalost databází a základů SQL.

S vysokým hodnocením 4,4 z 5 a více než 1 700 recenzemi je tento nejprodávanější kurz vhodný pro každého, kdo chce vybudovat pevné základy v Data Vault 2.0 a integraci Big Data.

#2. Modelování datového trezoru vysvětleno s případem použití

Tento kurz Udemy je zaměřen na to, aby vás provedl při vytváření modelu datového trezoru pomocí praktického obchodního příkladu. Slouží jako příručka pro začátečníky k modelování datového trezoru, která zahrnuje klíčové koncepty, jako jsou vhodné scénáře pro použití modelů datového trezoru, omezení konvenčního modelování OLAP a systematický přístup ke konstrukci modelu datového trezoru. Kurz je přístupný osobám s minimální znalostí databáze.

#3. The Data Vault Guru: pragmatický průvodce

Data Vault Guru od pana Patricka Cuby je komplexním průvodcem metodologie datového trezoru, který nabízí jedinečnou příležitost modelovat podnikový datový sklad pomocí principů automatizace podobných těm, které se používají při dodávání softwaru.

Kniha poskytuje přehled moderní architektury a poté nabízí důkladný návod, jak dodat flexibilní datový model, který se přizpůsobí změnám v podniku, datový trezor.

Kniha navíc rozšiřuje metodiku datového trezoru tím, že poskytuje automatické opravy časové osy, auditní záznamy, kontrolu metadat a integraci s agilními nástroji pro doručování.

#4. Vybudování škálovatelného datového skladu s Data Vault 2.0

Tato kniha poskytuje čtenářům komplexního průvodce vytvořením škálovatelného datového skladu od začátku do konce pomocí metodologie Data Vault 2.0.

Tato kniha pokrývá všechny základní aspekty budování škálovatelného datového skladu, včetně techniky modelování Data Vault, která je navržena tak, aby zabránila typickým selháním datových skladů.

Kniha obsahuje mnoho příkladů, které čtenářům pomohou pochopit pojmy jasně. Díky svým praktickým poznatkům a příkladům z reálného světa je tato kniha nezbytným zdrojem pro každého, kdo se zajímá o datové sklady.

#5. Slon v lednici: Řízené kroky k úspěchu v datovém trezoru

The Elephant in the Fridge od Johna Gilese je praktická příručka, jejímž cílem je pomoci čtenářům dosáhnout úspěchu Data Vault tím, že začne podnikáním a skončí podnikáním.

Kniha se zaměřuje na důležitost podnikové ontologie a modelování obchodních konceptů a poskytuje podrobné pokyny, jak tyto koncepty aplikovat k vytvoření solidního datového modelu.

Prostřednictvím praktických rad a vzorových vzorů nabízí autor jasné a nekomplikované vysvětlení komplikovaných témat, díky čemuž je kniha vynikajícím průvodcem pro ty, kteří s Datovým trezorem začínají.

Závěrečná slova

Data Vault představuje budoucnost datových skladů a společnostem nabízí významné výhody z hlediska agility, škálovatelnosti a efektivity. Je zvláště vhodný pro podniky, které potřebují rychle načítat velké objemy dat, a pro ty, které chtějí vyvíjet své aplikace business intelligence agilním způsobem.

Společnosti, které mají existující architekturu sil, mohou navíc velmi těžit z implementace upstreamového základního datového skladu pomocí Data Vault.

Možná vás také bude zajímat informace o datové řadě.