Data Lakehouse je nová a vznikající architektura správy dat, která kombinuje nejlepší části datového jezera a datového skladu. Pomocí data lakehouse získáte možnost ukládat různé typy dat na jediné platformě a provádět dotazy a analýzy v souladu s ACID.
Proč tedy používat datové jezero? Jako starší softwarový inženýr chápu, jak obtížné je, když musíte spravovat a udržovat dva samostatné systémy a z jednoho do druhého proudí velké objemy dat.
Pokud chcete svá data používat pro provádění obchodních analýz a generování sestav, musíte strukturovaná data uložit do datového skladu. Na druhou stranu pro uložení všech dat pocházejících z různých datových zdrojů a v jejich původním formátu potřebujete datové jezero. Jediný dům u jezera eliminuje potřebu udržovat různé systémy, protože přináší to nejlepší z obou světů.
Table of Contents
Význam Data Lakehouse
Chcete-li růst vaší organizace a podnikání, musíte být schopni ukládat a analyzovat data bez ohledu na formát nebo strukturu. Data lakehouse jsou významná pro moderní správu dat, protože řeší omezení jak datových jezer, tak datových skladů.
Vaše datová jezera se často mohou proměnit v datové bažiny, kde jsou data ukládána bez jakékoli struktury nebo správy. To ztěžuje vyhledávání a používání dat a může to také vést k problémům s kvalitou dat. Na druhou stranu, mít datový sklad často vede k přílišné rigiditě. Stává se také drahým.
Data lakehouse má svůj vlastní soubor charakteristik. Pojďme se na ně podívat.
Charakteristika Data Lakehouse
Než se ponoříte do architektury datového jezera, podívejme se na nejdůležitější vlastnosti nebo charakteristiky datového jezera.
Architektura Data Lakehouse
Nyní je čas podívat se na architekturu datového jezera. Pochopení architektury datového jezera je klíčem k pochopení toho, jak funguje. Architektura datového jezera má primárně pět hlavních komponent. Podívejme se na ně jeden po druhém.
Vrstva příjmu dat
Toto je vrstva, kde jsou zachycena všechna různá data v různých formátech. Mohou to být změny dat ve vaší primární databázi, data z různých IoT senzorů nebo uživatelská data v reálném čase proudící datovými toky.
Vrstva úložiště dat
Jakmile jsou data zpracována z různých zdrojů, je čas je uložit ve správných formátech. Zde přichází na řadu vaše úložná vrstva. Data lze ukládat na různá média, jako je AWS S3. Ve skutečnosti je to vaše datové jezero.
Metadata a mezipaměťová vrstva
Nyní, když máte vrstvu úložiště dat, potřebujete vrstvu metadat a správy dat. To poskytuje jednotný pohled na všechna data přítomná v datovém jezeře. Toto je také vrstva, která přidává transakce ACID do existujícího datového jezera, aby jej přeměnila na datové jezero.
Vrstva API
K indexovaným datům z vrstvy metadat můžete přistupovat pomocí vrstvy API. Ty mohou být ve formě databázových ovladačů, které vám umožňují spouštět dotazy prostřednictvím kódu. Nebo mohou být vystaveny ve formě koncových bodů, ke kterým lze přistupovat z jakéhokoli klienta.
Vrstva spotřeby dat
Tato vrstva zahrnuje vaše analytické nástroje a nástroje Business Intelligence, které jsou hlavními uživateli dat z datového jezera. Zde můžete spouštět své programy strojového učení, abyste získali cenné poznatky z dat, která jste uložili a indexovali.
Takže nyní máte jasnou představu o architektuře Lakehouse. Ale jak si ho postavit?
Kroky pro vybudování Data Lakehouse
Podívejme se, jak si můžete postavit svůj vlastní datový jezerní dům. Bez ohledu na to, zda máte existující datové jezero nebo sklad, nebo stavíte dům u jezera od nuly, kroky zůstávají podobné.
Dále se podívejme na to, jak můžete migrovat do datového jezera, pokud máte existující řešení správy dat.
Kroky pro migraci do Data Lakehouse
Když migrujete svou datovou zátěž na řešení Data Lakehouse, měli byste mít na paměti určité kroky. Mít akční plán vám umožní vyhnout se problémům na poslední chvíli.
Krok 1: Analyzujte data
Prvním a jedním z nejdůležitějších kroků pro úspěšnou migraci je analýza dat. Správnou analýzou můžete definovat rozsah migrace. Navíc vám umožňuje identifikovat všechny další závislosti, které můžete mít. Nyní máte větší přehled o svém prostředí a o tom, co se chystáte migrovat. To vám umožní lépe stanovit priority vašich úkolů.
Krok 2: Připravte data pro migraci
Dalším krokem pro úspěšnou migraci je příprava dat. To zahrnuje data, která budete migrovat, a také podpůrné datové rámce, které budete potřebovat. Namísto slepého čekání, až budou všechna vaše data dostupná ve vašem Lakehouse, můžete vědět, které datové sady a sloupce skutečně potřebujete, ušetřit cenný čas a zdroje.
Krok 3: Převeďte data do požadovaného formátu
Můžete využít automatickou konverzi. Ve skutečnosti byste měli co nejvíce preferovat nástroje pro automatickou konverzi. Konverze dat při migraci na data lakehouse mohou být složité. Naštěstí většina nástrojů přichází se snadno čitelným kódem SQL nebo řešeními s nízkým obsahem kódu. Nástroje jako Alchymista pomoci s tím.
Krok 4: Ověřte data po migraci
Po dokončení migrace je čas ověřit data. Zde byste se měli pokusit proces ověřování co nejvíce zautomatizovat. V opačném případě bude ruční migrace únavná a zpomalí vás. Mělo by se používat pouze jako poslední možnost. Je důležité ověřit, že vaše obchodní procesy a datové úlohy zůstanou po migraci nedotčeny.
Klíčové vlastnosti Data Lakehouse
🔷 Kompletní správa dat – Získáte funkce správy dat, které vám pomohou vytěžit z vašich dat maximum. Patří mezi ně čištění dat, proces ETL nebo Extract-Transform-Load a vynucení schématu. Svá data tak můžete snadno očistit a připravit pro další analýzy a nástroje BI (Business Intelligence).
🔷 Formáty otevřeného úložiště – Formát úložiště, ve kterém jsou vaše data uložena, je otevřený a standardizovaný. To znamená, že data, která shromažďujete z různých zdrojů dat, jsou všechna uložena podobně a můžete s nimi pracovat hned od začátku. Podporuje formáty jako AVRO, ORC nebo Parkety. Kromě toho podporují také tabulkové formáty dat.
🔷 Oddělení úložiště – Úložiště můžete oddělit od výpočetních zdrojů. Toho je dosaženo použitím samostatných clusterů pro oba. Úložiště tak můžete podle potřeby samostatně škálovat, aniž byste museli zbytečně provádět jakékoli změny ve svých výpočetních prostředcích.
🔷 Podpora streamování dat – rozhodování na základě dat často zahrnuje spotřebu datových toků v reálném čase. Ve srovnání se standardním datovým skladem vám Data Lakehouse poskytuje podporu příjmu dat v reálném čase.
🔷 Data Governance – Podporuje silnou správu. Navíc získáte také možnosti auditu. Ty jsou zvláště důležité pro zachování integrity dat.
🔷 Snížené náklady na data – Provozní náklady na provoz datového jezera jsou srovnatelně nižší než u datového skladu. Můžete získat úložiště cloudových objektů pro vaše rostoucí potřeby dat za nižší cenu. Navíc získáte hybridní architekturu. Můžete tak eliminovat potřebu udržovat více systémů pro ukládání dat.
Data Lake vs. Data Warehouse vs. Data Lakehouse
FeatureData LakeData WarehouseData LakehouseData StorageUkládá nezpracovaná nebo nestrukturovaná dataUkládá zpracovaná a strukturovaná dataUkládá surová i strukturovaná data Schéma datNemá pevné schémaMá pevné schémaPoužívá k integraci schéma open sourceData TransformationData nejsou transformovánaRozsáhlá shoda s ETL podle potřeby ACIDACETL Compulance -compliantACID-CompliantQuery PerformanceTypicky pomalejší, protože data jsou nestrukturovanáVelmi rychlá díky strukturovaným datůmRychlá díky polostrukturovaným datůmCostStorage je nákladově efektivníVyšší náklady na úložiště a dotazy Náklady na úložiště a dotazy jsou vyvážené Správa datVyžaduje pečlivou správuPotřebná analýza v reálném časePodpora řízení-Limi-Limimiance-Analytics opatření Time analyticsPodporuje analýzu v reálném časePoužívejte CasesData ukládání, průzkum, ML a AIReporting a analýzu pomocí BIBoth strojové učení a analytika
Závěr
Bezproblémovým spojením silných stránek jak datových jezer, tak datových skladů řeší Data lakehouse důležité výzvy, kterým můžete čelit při správě a analýze dat.
Nyní víte o vlastnostech a architektuře domu u jezera. Význam datového jezera je zřejmý v jeho schopnosti pracovat se strukturovanými i nestrukturovanými daty a nabízí jednotnou platformu pro ukládání, dotazy a analýzy. Navíc získáte také shodu s ACID.
Pomocí kroků uvedených v tomto článku o budování a migraci do datového jezera můžete odemknout výhody jednotné a nákladově efektivní platformy pro správu dat. Udržujte si přehled o moderním prostředí správy dat a řiďte rozhodování založené na datech, analýzy a obchodní růst.
Dále si přečtěte náš podrobný článek o replikaci dat.