Data Lakehouse: Napájení vaší cesty řízené daty

Data Lakehouse je nová a vznikající architektura správy dat, která kombinuje nejlepší části datového jezera a datového skladu. Pomocí data lakehouse získáte možnost ukládat různé typy dat na jediné platformě a provádět dotazy a analýzy v souladu s ACID.

Proč tedy používat datové jezero? Jako starší softwarový inženýr chápu, jak obtížné je, když musíte spravovat a udržovat dva samostatné systémy a z jednoho do druhého proudí velké objemy dat.

Pokud chcete svá data používat pro provádění obchodních analýz a generování sestav, musíte strukturovaná data uložit do datového skladu. Na druhou stranu pro uložení všech dat pocházejících z různých datových zdrojů a v jejich původním formátu potřebujete datové jezero. Jediný dům u jezera eliminuje potřebu udržovat různé systémy, protože přináší to nejlepší z obou světů.

Význam Data Lakehouse

Chcete-li růst vaší organizace a podnikání, musíte být schopni ukládat a analyzovat data bez ohledu na formát nebo strukturu. Data lakehouse jsou významná pro moderní správu dat, protože řeší omezení jak datových jezer, tak datových skladů.

Vaše datová jezera se často mohou proměnit v datové bažiny, kde jsou data ukládána bez jakékoli struktury nebo správy. To ztěžuje vyhledávání a používání dat a může to také vést k problémům s kvalitou dat. Na druhou stranu, mít datový sklad často vede k přílišné rigiditě. Stává se také drahým.

Data lakehouse má svůj vlastní soubor charakteristik. Pojďme se na ně podívat.

Charakteristika Data Lakehouse

Než se ponoříte do architektury datového jezera, podívejme se na nejdůležitější vlastnosti nebo charakteristiky datového jezera.

  • Podporuje transakce – Když provozujete datový lakehouse ve středně velkém měřítku, bude probíhat více čtení a zápisů současně. Kompatibilita s ACID zajišťuje, že souběžné čtení a zápis neomezuje data.
  • Podpora Business Intelligence – Nástroje BI můžete přidat přímo k indexovaným datům. Odpadá nutnost kopírovat data někam jinam. Navíc získáte nejnovější data ve zkráceném čase a za nižší náklady.
  • Úložiště dat a výpočetní vrstva jsou oddělené – když jsou tyto dvě vrstvy odděleny, můžete škálovat jednu z nich, aniž byste ovlivnili druhou. Pokud potřebujete více úložiště, můžete jej přidat, aniž byste museli zvětšovat výpočetní kapacitu.
  • Podpora různých typů dat – Protože je datové jezero postaveno na datovém jezeře, podporuje různé typy a formáty dat. Můžete ukládat a analyzovat různé typy dat, jako je zvuk, video, obrázky a text.
  • Otevřenost ve formátech úložiště – Data lakehouses používají otevřené a standardizované formáty úložiště, např Parkety Apache. To vám umožní připojit různé nástroje a knihovny pro přístup k datům.
  • Jsou podporovány různé pracovní zátěže – Pomocí dat uložených v datovém Lakehouse můžete provádět širokou škálu úloh. To zahrnuje dotazy prostřednictvím SQL, stejně jako BI, analytiku a strojové učení.
  • Podpora streamování v reálném čase – Pro analýzu v reálném čase nemusíte vytvářet samostatné úložiště dat a provozovat samostatný kanál.
  • Schema Governance – Data lakehouses podporují robustní správu dat a audit.
  • Architektura Data Lakehouse

    Nyní je čas podívat se na architekturu datového jezera. Pochopení architektury datového jezera je klíčem k pochopení toho, jak funguje. Architektura datového jezera má primárně pět hlavních komponent. Podívejme se na ně jeden po druhém.

    Vrstva příjmu dat

    Toto je vrstva, kde jsou zachycena všechna různá data v různých formátech. Mohou to být změny dat ve vaší primární databázi, data z různých IoT senzorů nebo uživatelská data v reálném čase proudící datovými toky.

    Vrstva úložiště dat

    Jakmile jsou data zpracována z různých zdrojů, je čas je uložit ve správných formátech. Zde přichází na řadu vaše úložná vrstva. Data lze ukládat na různá média, jako je AWS S3. Ve skutečnosti je to vaše datové jezero.

    Metadata a mezipaměťová vrstva

    Nyní, když máte vrstvu úložiště dat, potřebujete vrstvu metadat a správy dat. To poskytuje jednotný pohled na všechna data přítomná v datovém jezeře. Toto je také vrstva, která přidává transakce ACID do existujícího datového jezera, aby jej přeměnila na datové jezero.

    Vrstva API

    K indexovaným datům z vrstvy metadat můžete přistupovat pomocí vrstvy API. Ty mohou být ve formě databázových ovladačů, které vám umožňují spouštět dotazy prostřednictvím kódu. Nebo mohou být vystaveny ve formě koncových bodů, ke kterým lze přistupovat z jakéhokoli klienta.

    Vrstva spotřeby dat

    Tato vrstva zahrnuje vaše analytické nástroje a nástroje Business Intelligence, které jsou hlavními uživateli dat z datového jezera. Zde můžete spouštět své programy strojového učení, abyste získali cenné poznatky z dat, která jste uložili a indexovali.

    Takže nyní máte jasnou představu o architektuře Lakehouse. Ale jak si ho postavit?

    Kroky pro vybudování Data Lakehouse

    Podívejme se, jak si můžete postavit svůj vlastní datový jezerní dům. Bez ohledu na to, zda máte existující datové jezero nebo sklad, nebo stavíte dům u jezera od nuly, kroky zůstávají podobné.

  • Identifikujte požadavky – To zahrnuje identifikaci toho, jaké typy dat budete ukládat a na jaké případy použití se chcete zaměřit. Mohou to být vaše modely strojového učení, obchodní výkazy nebo analýzy.
  • Vytvoření kanálu příjmu dat – kanál příjmu dat je zodpovědný za přenos dat do vašeho systému. Na základě zdrojových systémů, které generují data, možná budete chtít použít sběrnice pro zasílání zpráv, jako je Apache Kafka, nebo mít odhalené koncové body API.
  • Vytvořte vrstvu úložiště – Pokud již máte datové jezero, může to fungovat jako vrstva úložiště. Jinak si můžete vybrat z různých možností jako AWS S3, HDFS, popř Delta jezero.
  • Použít zpracování dat – zde získáváte a transformujete data na základě vašich obchodních požadavků. Můžete použít open-source nástroje jako např Apache Spark ke spouštění předem určených periodických úloh, které budou přijímat a zpracovávat data z vaší úložné vrstvy.
  • Vytvoření správy metadat – Potřebujete sledovat a ukládat různé druhy dat a jejich odpovídající vlastnosti, aby je bylo možné v případě potřeby snadno katalogizovat a vyhledávat. Můžete také chtít vytvořit vrstvu mezipaměti.
  • Poskytněte možnosti integrace – Nyní, když je váš primární lakehouse připraven, budete muset poskytnout integrační háčky, kam se mohou externí nástroje připojit a získat přístup k datům. Mohou to být SQL dotazy, nástroje strojového učení nebo řešení Business Intelligence.
  • Implementujte správu dat – protože budete pracovat s různými druhy dat z různých zdrojů, musíte vytvořit zásady správy dat, včetně řízení přístupu, šifrování a auditování. To má zajistit kvalitu dat, konzistenci a soulad s předpisy.
  • Dále se podívejme na to, jak můžete migrovat do datového jezera, pokud máte existující řešení správy dat.

    Kroky pro migraci do Data Lakehouse

    Když migrujete svou datovou zátěž na řešení Data Lakehouse, měli byste mít na paměti určité kroky. Mít akční plán vám umožní vyhnout se problémům na poslední chvíli.

    Krok 1: Analyzujte data

    Prvním a jedním z nejdůležitějších kroků pro úspěšnou migraci je analýza dat. Správnou analýzou můžete definovat rozsah migrace. Navíc vám umožňuje identifikovat všechny další závislosti, které můžete mít. Nyní máte větší přehled o svém prostředí a o tom, co se chystáte migrovat. To vám umožní lépe stanovit priority vašich úkolů.

    Krok 2: Připravte data pro migraci

    Dalším krokem pro úspěšnou migraci je příprava dat. To zahrnuje data, která budete migrovat, a také podpůrné datové rámce, které budete potřebovat. Namísto slepého čekání, až budou všechna vaše data dostupná ve vašem Lakehouse, můžete vědět, které datové sady a sloupce skutečně potřebujete, ušetřit cenný čas a zdroje.

    Krok 3: Převeďte data do požadovaného formátu

    Můžete využít automatickou konverzi. Ve skutečnosti byste měli co nejvíce preferovat nástroje pro automatickou konverzi. Konverze dat při migraci na data lakehouse mohou být složité. Naštěstí většina nástrojů přichází se snadno čitelným kódem SQL nebo řešeními s nízkým obsahem kódu. Nástroje jako Alchymista pomoci s tím.

    Krok 4: Ověřte data po migraci

    Po dokončení migrace je čas ověřit data. Zde byste se měli pokusit proces ověřování co nejvíce zautomatizovat. V opačném případě bude ruční migrace únavná a zpomalí vás. Mělo by se používat pouze jako poslední možnost. Je důležité ověřit, že vaše obchodní procesy a datové úlohy zůstanou po migraci nedotčeny.

    Klíčové vlastnosti Data Lakehouse

    🔷 Kompletní správa dat – Získáte funkce správy dat, které vám pomohou vytěžit z vašich dat maximum. Patří mezi ně čištění dat, proces ETL nebo Extract-Transform-Load a vynucení schématu. Svá data tak můžete snadno očistit a připravit pro další analýzy a nástroje BI (Business Intelligence).

    🔷 Formáty otevřeného úložiště – Formát úložiště, ve kterém jsou vaše data uložena, je otevřený a standardizovaný. To znamená, že data, která shromažďujete z různých zdrojů dat, jsou všechna uložena podobně a můžete s nimi pracovat hned od začátku. Podporuje formáty jako AVRO, ORC nebo Parkety. Kromě toho podporují také tabulkové formáty dat.

    🔷 Oddělení úložiště – Úložiště můžete oddělit od výpočetních zdrojů. Toho je dosaženo použitím samostatných clusterů pro oba. Úložiště tak můžete podle potřeby samostatně škálovat, aniž byste museli zbytečně provádět jakékoli změny ve svých výpočetních prostředcích.

    🔷 Podpora streamování dat – rozhodování na základě dat často zahrnuje spotřebu datových toků v reálném čase. Ve srovnání se standardním datovým skladem vám Data Lakehouse poskytuje podporu příjmu dat v reálném čase.

    🔷 Data Governance – Podporuje silnou správu. Navíc získáte také možnosti auditu. Ty jsou zvláště důležité pro zachování integrity dat.

    🔷 Snížené náklady na data – Provozní náklady na provoz datového jezera jsou srovnatelně nižší než u datového skladu. Můžete získat úložiště cloudových objektů pro vaše rostoucí potřeby dat za nižší cenu. Navíc získáte hybridní architekturu. Můžete tak eliminovat potřebu udržovat více systémů pro ukládání dat.

    Data Lake vs. Data Warehouse vs. Data Lakehouse

    FeatureData LakeData WarehouseData LakehouseData StorageUkládá nezpracovaná nebo nestrukturovaná dataUkládá zpracovaná a strukturovaná dataUkládá surová i strukturovaná data Schéma datNemá pevné schémaMá pevné schémaPoužívá k integraci schéma open sourceData TransformationData nejsou transformovánaRozsáhlá shoda s ETL podle potřeby ACIDACETL Compulance -compliantACID-CompliantQuery PerformanceTypicky pomalejší, protože data jsou nestrukturovanáVelmi rychlá díky strukturovaným datůmRychlá díky polostrukturovaným datůmCostStorage je nákladově efektivníVyšší náklady na úložiště a dotazy Náklady na úložiště a dotazy jsou vyvážené Správa datVyžaduje pečlivou správuPotřebná analýza v reálném časePodpora řízení-Limi-Limimiance-Analytics opatření Time analyticsPodporuje analýzu v reálném časePoužívejte CasesData ukládání, průzkum, ML a AIReporting a analýzu pomocí BIBoth strojové učení a analytika

    Závěr

    Bezproblémovým spojením silných stránek jak datových jezer, tak datových skladů řeší Data lakehouse důležité výzvy, kterým můžete čelit při správě a analýze dat.

    Nyní víte o vlastnostech a architektuře domu u jezera. Význam datového jezera je zřejmý v jeho schopnosti pracovat se strukturovanými i nestrukturovanými daty a nabízí jednotnou platformu pro ukládání, dotazy a analýzy. Navíc získáte také shodu s ACID.

    Pomocí kroků uvedených v tomto článku o budování a migraci do datového jezera můžete odemknout výhody jednotné a nákladově efektivní platformy pro správu dat. Udržujte si přehled o moderním prostředí správy dat a řiďte rozhodování založené na datech, analýzy a obchodní růst.

    Dále si přečtěte náš podrobný článek o replikaci dat.