Amazon Glue si získává stále větší oblibu, jelikož mnoho firem začíná využívat jeho spravované služby pro integraci dat.
ETL proces, který spočívá v přesunu dat ze zdrojové databáze do datového skladu, bývá složitý a obtížně implementovatelný pro rozsáhlá firemní data. Společnost Amazon přišla s AWS Glue jako řešením tohoto problému.
Vývojáři a datoví inženýři specializující se na ETL využívají Glue k tvorbě, monitorování a spouštění pracovních postupů ETL.
Co je AWS Glue?
AWS Glue představuje bezserverovou službu pro integraci dat, která usnadňuje objevování, přípravu, přesun a integraci dat z různých zdrojů. Je velmi užitečná pro účely strojového učení (ML) a analytiky.
Tato služba výrazně zkracuje čas potřebný pro přípravu dat k analýze. Automaticky identifikuje a katalogizuje data, generuje kód v jazycích Scala nebo Python pro přenos dat ze zdroje a spouští a transformuje úlohy na základě časových událostí.
Umožňuje flexibilní plánování a vytváří prostředí Apache Spark, které je škálovatelné pro cílené načítání dat. AWS Glue navíc poskytuje komplexní monitorování a možnosti úprav datového toku. Jako bezserverová služba AWS Glue zjednodušuje komplexní operace při vývoji aplikací.
Poskytuje rychlou integraci různých relevantních dat a zajišťuje jejich rychlé rozdělení a autorizaci.
K čemu se AWS Glue používá?
Je důležité znát nejvhodnější oblasti pro využití Amazon Glue. Následuje několik příkladů, kde lze AWS Glue efektivně využít:
- Glue umožňuje spouštět bezserverové dotazy nad datovými jezery Amazon S3. Amazon Glue je výborný nástroj, který usnadňuje začátky. Zpřístupňuje veškerá vaše data v jednom rozhraní, což umožňuje jejich analýzu bez nutnosti přesouvání.
- Amazon Glue lze využít k lepšímu pochopení vašich datových aktiv. Služba Amazon Glue usnadňuje vyhledávání různých datových sad v rámci AWS prostřednictvím katalogu dat. S použitím katalogu dat můžete také ukládat data napříč různými službami AWS a zároveň si uchovat konzistentní přehled.
- Glue může být užitečný při vytváření pracovních postupů ETL řízených událostmi. Své operace ETL můžete spouštět z Amazon S3 vyvoláním úloh Glue ETL prostřednictvím služby AWS Lambda.
- AWS Glue je také vhodný pro čištění, ověřování, formátování a organizaci dat před jejich uložením do datového jezera nebo skladu.
Jaké jsou komponenty AWS Glue?
Následují hlavní komponenty AWS Glue:
- Katalog dat: Obsahuje metadata a datovou strukturu.
- Databáze: Slouží pro přístup a vytváření databází pro zdroje a cíle.
- Tabulka: V databázi vytvoří jednu nebo více tabulek použitelných pro zdroj i cíl.
- Prohledávač a klasifikátor: Prohledávač extrahuje data ze zdroje pomocí vestavěných nebo vlastních klasifikací a vytváří/používá předdefinované tabulky metadat v katalogu dat.
- Úloha: Reprezentuje úlohu obchodní logiky, která provádí ETL operace. Tato logika je interně napsána v Apache Spark s použitím jazyků Python a Scala.
- Spouštěč: Zařízení spouštějící provádění úloh ETL na vyžádání nebo v určený čas.
- Vývojový koncový bod: Vytváří prostředí pro testování, vývoj a ladění skriptů úloh ETL.
Výhody AWS Glue
Následují výhody, které plynou z používání AWS Glue ve vašem pracovním prostředí nebo v rámci organizace.
- AWS Glue prostřednictvím prohledávače prozkoumá všechna dostupná data.
- Zpracovaná data lze ukládat na různých místech (např. Amazon RDS, Amazon Redshift, Amazon S3).
- Jedná se o cloudovou službu, takže není třeba investovat do lokální infrastruktury.
- Díky tomu, že se jedná o bezserverovou ETL službu, je cenově výhodná.
- Je rychlá. Okamžitě generuje ETL kód v jazycích Python/Scala.
Klíčové vlastnosti AWS Glue
Amazon Glue má všechny potřebné funkce pro integraci dat, které vám pomohou získat lepší přehled a využít vaše znalosti k dalším inovacím během několika minut, nikoli měsíců. Níže jsou uvedeny některé klíčové funkce, které byste měli znát.
- Rozhraní Drag and Drop: Editor úloh s funkcí přetahování umožňuje vytvořit proces ETL. AWS Glue okamžitě vygeneruje potřebný kód pro extrahování, transformaci a nahrání dat.
- Automatické zjišťování schématu: K vytvoření prohledávačů, které se připojují k různým zdrojům dat, můžete použít službu Glue. Organizuje data a získává relevantní informace, které pak lze využít k monitorování procesů ETL pomocí úloh ETL.
- Plánování úloh: Glue lze použít na vyžádání nebo podle nastaveného rozvrhu. Plánovač umožňuje vytvářet komplexní ETL kanály s definovanými závislostmi mezi úlohami.
- Generování kódu: Glue Elastic Views usnadňuje vytváření materializovaných pohledů, které kombinují a replikují data z různých zdrojů bez nutnosti psát proprietární kód.
- Vestavěné strojové učení: Glue nabízí vestavěnou funkci strojového učení s názvem „FindMatches“, která slouží k deduplikaci záznamů, které nejsou dokonalými kopiemi.
- Vývojářské koncové body: Pokud aktivně vyvíjíte ETL kód, Glue nabízí vývojářské koncové body, kde můžete upravovat, ladit a testovat generovaný kód.
- Glue DataBrew: Jedná se o nástroj pro přípravu dat, který mohou využít datoví analytici a vědci k čištění a normalizaci dat. Využívá aktivní a vizuální rozhraní Glue DataBrew.
Jak funguje cenová politika AWS Glue?
AWS Glue účtuje hodinový poplatek, který je účtován za sekundu pro prohledávače (zjišťování dat) a úlohy ETL (zpracování a načítání dat). Za přístup a uložení metadat v katalogu AWS Glue Data Catalog se účtuje jednoduchý měsíční poplatek.
Ceny Amazon Glue začínají na 0,44 USD. Můžete si vybrat ze čtyř plánů:
- Úlohy ETL, vývojové koncové body a další úlohy ETL jsou dostupné za 0,44 USD
- Interaktivní relace prohledávačů jsou k dispozici za 0,44 USD
- Úlohy DataBrew začínají na 0,48 USD
- Měsíční úložiště a požadavky pro katalog dat stojí 1,00 USD
AWS nenabízí bezplatný plán pro Glue. Každá hodina vás bude stát 0,44 USD za DPU. V průměru vás to bude stát 21 USD za den. Ceny se mohou lišit v závislosti na regionu, kde se nacházíte.
Kroky k nastavení AWS Glue
Katalog dat lze použít k rychlému nalezení a prohledání více datových sad AWS, aniž byste museli data přesouvat. Jakmile jsou data katalogizována, jsou okamžitě k dispozici pro dotazování a vyhledávání pomocí Amazon Athena a Amazon EMR.
Ref: https://aws.amazon.com/glue/
- Amazon Redshift, Amazon S3, Amazon RDS a databáze na Amazon EC2 – Objevte svá data, uložte metadata a použijte AWS Glue Data Catalog k jejich zpřístupnění.
- AWS Glue Data Catalog – Spravujte data pomocí datového katalogu, který funguje jako centrální úložiště metadat.
- AWS Glue ETL – Čtení a zápis metadat do vašeho datového katalogu.
- Amazon Athena a Amazon Redshift, Amazon EMR, Amazon ETL – Využijte katalog dat pro ETL, analytiku a další.
Jak nastavit AWS Glue?
Nejprve se přihlaste do konzole pro správu AWS a otevřete konzoli IAM. Klikněte na Vytvořit roli. Poté v typu role vyhledejte Glue a vyberte Oprávnění.
Vyberte AWSGlueServiceRole pro obecná oprávnění AWS Glue Studio a AWS Glue a zásadu AmazonS3FullAccess spravovanou AWS pro přístup ke zdrojům Amazon S3.
Zadejte název role.
Klikněte na Vytvořit roli.
Vytvořte kbelík v Amazon S3.
Vytvořte složku uvnitř kbelíku S3.
Vyberte soubor, který chcete nahrát.
Nakonec nahrajte soubor do kbelíku.
Dále otevřete AWS Glue z konzole pro správu AWS a vytvořte databázi.
Nyní, když máte databázi v AWS Glue, vytvořte prohledávač.
Ve zdroji dat vyberte segment S3, který jste vytvořili.
Dále vyberte roli IAM pro AWS Glue, kterou jste vytvořili na začátku.
Nakonec ve výstupu vyberte lepidlo, které jste vytvořili.
Zkontrolujte všechna nastavení a vytvořte prohledávač.
Jakmile je prohledávač vytvořen, vyberte jej a klikněte na Spustit. Po nějaké době bude mít stav Připraveno.
Po spuštění prohledávače získá databáze tabulku se všemi daty z CSV souboru.
Když kliknete na Zobrazit data, budete přesměrováni na Amazon Athena (editor dotazů). Když spustíte dotaz, zobrazí se data tabulky.
Nyní můžete tento prohledávač AWS Glue úspěšně používat v jakékoli úloze ETL.
Co je AWS Glue Databrew?
AWS Glue DataBrew umožňuje uživatelům normalizovat a čistit data bez psaní jakéhokoli kódu. DataBrew dokáže zkrátit čas potřebný k přípravě dat pro strojové učení a analytiku až o 80 % ve srovnání s vlastní přípravou dat.
Nabízí více než 250 předem připravených transformací dat, které lze použít k automatizaci úloh přípravy dat, jako je filtrování anomálií, oprava neplatných hodnot a převod dat do standardních formátů.
DataBrew usnadňuje datovým vědcům, obchodním analytikům a inženýrům spolupráci při získávání informací z nezpracovaných dat. DataBrew je bezserverová služba, takže není nutné spravovat infrastrukturu ani vytvářet clustery pro zkoumání a transformaci velkých objemů nezpracovaných dat.
Funkce DataBrew pro podniky
Vizualizovaná příprava dat
DataBrew nabízí odlišný způsob zobrazení dat, která se obvykle zobrazují ve sloupcových databázích jako alfanumerická čísla. Vizualizuje všechny načtené zdroje dat, aby pomohl lépe porozumět datovým vztahům a hierarchii.
Více než 250 automatizací pro přípravu dat
Od datových vědců se očekává, že jako součást své práce budou sledovat různé opakovatelné a izolované pracovní postupy. Tyto pracovní postupy byly společností AWS modelovány jako jazykově a datově agnostické modulové moduly. Tato knihovna zahrnuje akce, které mohou koncoví uživatelé používat.
Data Lineage
Podobně jako protokoly auditu, které se používají ke sledování aktivity zákazníků v IT sítích, umožňuje datová linie sledovat aktivity transformace dat v rámci AWS DataBrew. Tyto informace zahrnují zdroj dat, použité transformace a výstup dat, včetně cílového umístění.
Mapování dat
Databrew umožňuje najít odpovídající pole ve dvou zdrojích dat. Jakmile jsou odpovídající pole identifikována, lze je načíst do schématu.
AWS Glue DataBrew: Výhody
Níže jsou uvedeny výhody AWS Glue DataBrew:
- Nižší bariéra vstupu pro přípravu dat
- Automatické generování datového profilu
- Automatizace více než 250 procesů přípravy dat
- Inteligentní návrhy
Alternativy k AWS Glue
Airflow
Airflow patří do sekce Správců pracovních postupů v technologickém stacku. Je to nástroj s otevřeným zdrojovým kódem, který je podporován hvězdami a forky na GitHubu a dalšími funkcemi. Airflow umožňuje vytvářet pracovní postupy pomocí orientovaných acyklických grafů (DAG). Plánovač Airflow provádí vaše úlohy pomocí sady pracovníků a podle definovaných závislostí.
Matillion
Matillion ETL, nástroj ETL/ELT, byl navržen speciálně pro cloudové databázové platformy, jako jsou Amazon Redshift a Google BigQuery. Má moderní uživatelské rozhraní založené na prohlížeči s pokročilými funkcemi ETL/ELT. Díky rychlému nastavení můžete být v provozu během několika minut.
Stitch
Stitch je open-source služba ETL, která propojuje různé zdroje dat a replikuje data do preferovaných cílů. Je velmi snadno použitelná, protože k přesunu dat mezi zdroji a cíli v Stitch nepotřebujete žádné znalosti kódování. Má uživatelsky přívětivé GUI a je rychlá.
Na rozdíl od jiných ETL nástrojů vám Stitch neumožňuje vybrat si předem připravený dashboard. Místo toho je potřeba integrovat data do otevřených datových skladů, které si vyberete jako cíl. Může být obtížné orientovat se v nabídkách.
Alteryx
Alteryx je analytická automatizační platforma, která pomáhá s přípravou a propojováním dat. Tato data lze použít k urychlení procesů a poskytnutí obchodních vhledů. Jedná se o nástroj s funkcí přetahování, takže nepotřebujete žádné programovací znalosti. Alteryx je skvělé místo pro vyhledávání rad a odpovědí od odborníků z oboru.
Závěr
To je vše, co se týká AWS Glue, cloudového řešení, které vám umožňuje pracovat s ETL kanály. Stručně řečeno, proces interakce uživatele s AWS Glue se skládá ze tří fází. Nejprve pomocí prohledávačů dat vytvořte datový katalog. Dále vytvoříte ETL kód potřebný datovým kanálem AWS. Nakonec se vytvoří rozvrh ETL. Doufám, že vám tento blog poskytl dobrý přehled o Amazon Glue.
Můžete také prozkoumat nejlepší tipy pro zabezpečení úložiště AWS S3.