Úvod do Amazon EMR (Elastic MapReduce) pro začátečníky
Výpočetní technika je v těchto dnech na vrcholu a stále stoupá. Během posledních 3 desetiletí se stroje hodně vyvinuly a zlepšily, zejména pokud jde o výpočetní výkon a multitasking.
Dokážete si vůbec představit, jak šílené může být zvýšení výkonu, pokud jsou úkoly sdíleny mezi více stroji a prováděny paralelně? Toto se nazývá distribuované počítání. Je to jako týmová práce pro počítače.
Možná se však divíte, proč diskutujeme o této záležitosti s distribuovanými počítači. Protože distribuované výpočty a Amazon EMR (Elastic MapReduce) jsou velmi příbuzné. To znamená, že EMR by AWS využívá principy distribuovaného počítání ke zpracování a analýze velkého množství dat v cloudu.
S Amazon EMR nyní můžete analyzovat a zpracovávat velká data pomocí distribuovaného rámce zpracování dle vašeho výběru na instancích S3.
Table of Contents
Jak funguje Amazon EMR?
Zdroj: aws.amazon.com
Nejprve vložte data do libovolného úložiště dat, jako je Amazon S3, DynamoDB nebo jiné úložné platformy AWS, protože všechny se dobře integrují s EMR.
Nyní budete potřebovat rámec velkých dat pro zpracování a analýzu těchto dat. Díky různým rámcům velkých dat, ze kterých si můžete vybrat, jako je Apache Spark, Hadoop, Hive a Presto, si můžete vybrat ten, který vyhovuje vašim požadavkům, a nahrát jej do vybraného úložiště dat.
Pro paralelní zpracování a analýzu dat je vytvořen shluk EMR instancí EC2. Můžete nakonfigurovat počet uzlů a další podrobnosti pro vytvoření clusteru.
Vaše primární úložiště distribuuje data a rámce do těchto uzlů, kde se jednotlivé části dat zpracovávají a výsledky se spojují.
Jakmile jsou výsledky k dispozici, můžete cluster ukončit a uvolnit všechny přidělené prostředky.
Výhody Amazon EMR
Podniky, ať už malé nebo velké, vždy zvažují přijetí nákladově efektivních řešení. Tak proč ne cenově dostupný Amazon EMR? Když to může zjednodušit provoz různých rámců velkých dat na AWS, což poskytuje pohodlný způsob zpracování a analýzy vašich dat a zároveň ušetří nějaké peníze.
✅ Elasticita: Její povahu můžete odhadnout pomocí termínu „Elastic MapReduce“. Termín říká – Na základě požadavků vám Amazon EMR umožňuje snadno ručně nebo automaticky měnit velikost clusterů. Například můžete nyní potřebovat 200 instancí ke zpracování vašich požadavků a po hodině nebo dvou to může být 600 instancí. Amazon EMR je tedy nejlepší, když potřebujete pouze škálovatelnost, abyste se mohli přizpůsobit rychlým změnám poptávky.
✅ Úložiště dat: Ať už se jedná o Amazon S3, distribuovaný systém souborů Hadoop, Amazon DynamoDB nebo jiná úložiště dat AWS, Amazon EMR se s ním hladce integruje.
✅ Nástroje pro zpracování dat: Amazon EMR podporuje různé rámce velkých dat, včetně Apache Spark, Hive, Hadoop a Presto. Kromě toho můžete v tomto rámci spouštět algoritmy a nástroje hlubokého učení a strojového učení.
✅ Nákladově efektivní: Na rozdíl od jiných komerčních produktů vám Amazon EMR umožňuje platit pouze za zdroje, které používáte na hodinové bázi. Navíc si můžete vybrat z různých cenových modelů, které odpovídají vašemu rozpočtu.
✅ Přizpůsobení clusteru: Rámec vám umožňuje přizpůsobit každou instanci vašeho clusteru. Také můžete spárovat rámec velkých dat s dokonalým typem clusteru. Například instance Apache Spark a Graviton2 jsou smrtící kombinací pro optimalizovaný výkon v EMR.
✅ Řízení přístupu: Ke kontrole oprávnění v EMR můžete využít nástroje AWS Identity and Access Management (IAM). Můžete například povolit konkrétním uživatelům upravovat cluster, zatímco ostatní mohou cluster pouze prohlížet.
✅ Integrace: Integrace EMR se všemi ostatními službami AWS je bezproblémová. Díky tomu můžete získat výkon virtuálních serverů, robustní zabezpečení, rozšiřitelnou kapacitu a analytické schopnosti v EMR.
Případy použití Amazon EMR
#1. Strojové učení
Analyzujte data pomocí strojového učení a hlubokého učení v Amazon EMR. Například spuštění různých algoritmů na datech souvisejících se zdravím ke sledování různých zdravotních metrik, jako je index tělesné hmotnosti, srdeční frekvence, krevní tlak, procento tuku atd., je zásadní pro vývoj fitness trackeru. To vše lze na instancích EMR provést rychleji a efektivněji.
#2. Provádějte velké transformace
Maloobchodníci obvykle stahují velké množství digitálních dat, aby analyzovali chování zákazníků a zlepšili podnikání. Ve stejné linii bude Amazon EMR efektivní při stahování velkých dat a provádění velkých transformací pomocí Spark.
#3. Dolování dat
Chcete řešit datovou sadu, jejíž zpracování trvá dlouho? Amazon EMR je exkluzivní pro dolování dat a prediktivní analýzu komplexních datových sad, zejména v případech nestrukturovaných dat. Jeho clusterová architektura je navíc skvělá pro paralelní zpracování.
#4. Výzkumné účely
Proveďte svůj výzkum pomocí tohoto nákladově efektivního a efektivního rámce nazvaného Amazon EMR. Vzhledem k jeho škálovatelnosti se zřídkakdy setkáte s problémy s výkonem při spouštění velkých souborů dat na EMR. Tento rámec je tedy vysoce přizpůsoben ve výzkumných a analytických laboratořích velkých dat.
#5. Streamování v reálném čase
Další velkou výhodou Amazon EMR je podpora streamování v reálném čase. Vytvářejte škálovatelné datové kanály pro streamování v reálném čase pro online hraní her, streamování videa, sledování provozu a obchodování s akciemi pomocí Apache Kafka a Apache Flink na Amazon EMR.
Jak se EMR liší od Amazon Glue a Redshift?
AWS EMR vs. Lepidlo
Dvě výkonné služby AWS – Amazon EMR a Amazon Glue získaly loajální poznámku při nakládání s vašimi daty.
Extrahování dat z různých zdrojů, jejich transformace a načítání do datových skladů je s Amazon Glue rychlé a efektivní, zatímco Amazon EMR vám pomůže zpracovat vaše velké datové aplikace pomocí Hadoop, Spark, Hive atd.,
AWS Glue vám v podstatě umožňuje shromažďovat a připravovat data pro analýzu a Amazon EMR vám umožňuje je zpracovávat.
EMR vs. Redshift
Představte si, že důsledně procházíte svými daty a snadno se na ně dotazujete. SQL je něco, co k tomu často používáte. Ve stejném duchu nabízí Redshift optimalizované online analytické služby pro snadné dotazování na velké objemy dat pomocí SQL.
Při ukládání dat budete mít přístup k vysoce škálovatelnému, zabezpečenému a dostupnému Amazon EMR využívá poskytovatele úložiště třetích stran, jako jsou S3 a DynamoDB. Naproti tomu Redshift má svou vlastní datovou vrstvu, která umožňuje ukládat data ve sloupcovém formátu.
Přístupy k optimalizaci nákladů Amazon EMR
#1. Přijďte s formátovanými daty
Čím větší data, tím déle trvá jejich zpracování. Navíc dodávání nezpracovaných dat přímo do clusteru jej ještě více komplikuje a hledání součásti, kterou chcete zpracovat, zabere více času.
Formátovaná data tedy přicházejí s metadaty o sloupcích, datovém typu, velikosti a dalších, pomocí kterých můžete ušetřit čas při hledání a agregaci.
Snižte také velikost svých dat využitím technik komprese dat, protože je poměrně snazší zpracovávat menší datové sady.
#2. Využijte cenově dostupné služby úložiště
Využití nákladově efektivních služeb primárního úložiště snižuje vaše hlavní výdaje na EMR. Amazon s3 je jednoduchá a cenově dostupná služba úložiště pro ukládání vstupních a výstupních dat. Jeho průběžný model účtuje pouze skutečně využité úložiště.
#3. Správná velikost instance
Použití vhodných instancí se správnými velikostmi může výrazně snížit váš rozpočet vynaložený na EMR. Instance EC2 jsou obvykle účtovány za sekundu a cena závisí na jejich velikosti, ale ať už používáte 0,7x velký cluster nebo 0,36x velký cluster, náklady na jejich správu jsou stejné. Efektivní využití větších strojů je tedy nákladově efektivní ve srovnání s používáním více malých strojů.
#4. Spot instance
Spotové instance jsou skvělou možností, jak koupit nevyužité zdroje EC2 se slevami. Ve srovnání s instancemi na vyžádání jsou levnější, ale nejsou trvalé, protože je lze získat zpět, když poptávka stoupne. Jsou tedy flexibilní z hlediska odolnosti proti chybám, ale nejsou vhodné pro dlouhotrvající úlohy.
#5. Automatické škálování
Jeho funkce automatického škálování je vše, co potřebujete, abyste se vyhnuli příliš velkým nebo poddimenzovaným clusterům. To vám umožní vybrat správný počet a typ instancí ve vašem clusteru na základě pracovní zátěže a optimalizovat náklady.
Závěrečná slova
Cloud a technologie velkých dat nemají konce, takže vám zbývají nekonečné nástroje a rámce, které se můžete učit a implementovat. Jednou takovou jedinou platformou pro využití jak velkých dat, tak cloudu je Amazon EMR, protože zjednodušuje provozování rámců velkých dat pro zpracování a analýzu velkých dat.
Abychom vám pomohli začít s EMR, tento článek vám ukáže, co to je, jaké jsou jeho výhody, jak funguje, jeho případy použití a nákladově efektivní přístupy.
Dále se podívejte na vše, co potřebujete vědět o AWS Athena.