Ensemble Learning vysvětlený v nejjednodušších možných termínech

Ensemble learning vám může pomoci lépe se rozhodovat a řešit mnoho výzev v reálném životě kombinací rozhodnutí z několika modelů.

Strojové učení (ML) nadále rozšiřuje svá křídla v mnoha sektorech a odvětvích, ať už jde o finance, medicínu, vývoj aplikací nebo bezpečnost.

Správné školení modelů ML vám pomůže dosáhnout většího úspěchu ve vašem podnikání nebo pracovní roli a existují různé metody, jak toho dosáhnout.

V tomto článku se budu zabývat souborovým učením, jeho důležitostí, případy použití a technikami.

Zůstaňte naladěni!

Co je Ensemble Learning?

Ve strojovém učení a statistice se „soubor“ týká metod generujících různé hypotézy při použití společného základního studenta.

A souborové učení je přístup strojového učení, kde se strategicky vytváří a kombinuje více modelů (jako experti nebo klasifikátory) s cílem vyřešit výpočetní problém nebo vytvořit lepší předpovědi.

Tento přístup se snaží zlepšit predikci, aproximaci funkcí, klasifikaci atd. výkonu daného modelu. Používá se také k vyloučení možnosti, že si z mnoha vyberete špatný nebo méně hodnotný model. K dosažení zlepšeného prediktivního výkonu se používá několik algoritmů učení.

Význam Ensemble Learning v ML

V modelech strojového učení existují některé zdroje, jako je zkreslení, rozptyl a šum, které mohou způsobit chyby. Ensemble learning může pomoci omezit tyto zdroje způsobující chyby a zajistit stabilitu a přesnost vašich algoritmů ML.

Zde je důvod, proč se souborové učení používá v různých scénářích:

Výběr správného klasifikátoru

Ensemble learning vám pomůže vybrat lepší model nebo klasifikátor a zároveň snížit riziko, které může vzniknout v důsledku špatného výběru modelu.

Pro různé problémy se používají různé typy klasifikátorů, jako jsou podpůrné vektorové stroje (SVM), vícevrstvý perceptron (MLP), naivní Bayesovy klasifikátory, rozhodovací stromy atd. Kromě toho existují různé realizace klasifikačních algoritmů, které si musíte vybrat . Výkon různých tréninkových dat se může také lišit.

Ale namísto výběru pouze jednoho modelu, pokud použijete soubor všech těchto modelů a zkombinujete jejich jednotlivé výstupy, můžete se vyhnout výběru horších modelů.

Objem dat

Mnoho metod a modelů ML není ve svých výsledcích tak efektivních, pokud jim dodáváte neadekvátní data nebo velký objem dat.

Na druhou stranu může souborové učení fungovat v obou scénářích, i když je objem dat příliš malý nebo příliš velký.

  • Pokud jsou data neadekvátní, můžete použít bootstrapping k trénování různých klasifikátorů pomocí různých vzorků dat bootstrapu.
  • Pokud existuje velký objem dat, který může ztížit trénování jednoho klasifikátoru, lze data strategicky rozdělit na menší podmnožiny.

Složitost

Jeden klasifikátor nemusí být schopen vyřešit některé velmi složité problémy. Jejich rozhodovací hranice oddělující data různých tříd mohou být velmi složité. Pokud tedy použijete lineární klasifikátor na nelineární, komplexní hranici, nebude se ji moci naučit.

  Jak založit dětský účet Spotify

Pokud však správně zkombinujete soubor vhodných lineárních klasifikátorů, můžete jej přimět, aby se naučil danou nelineární hranici. Klasifikátor rozdělí data do mnoha snadno pochopitelných a menších oddílů a každý klasifikátor se naučí pouze jeden jednodušší oddíl. Dále budou kombinovány různé klasifikátory, aby se získal cca. hranice rozhodnutí.

Odhad spolehlivosti

V souborovém učení je rozhodnutí, které systém učinil, přiřazeno hlasování o důvěře. Předpokládejme, že máte soubor různých klasifikátorů vyškolených na daný problém. Pokud většina klasifikátorů souhlasí s přijatým rozhodnutím, lze jeho výsledek považovat za soubor s vysoce spolehlivým rozhodnutím.

Na druhou stranu, pokud polovina klasifikátorů nesouhlasí s přijatým rozhodnutím, jde prý o soubor s nedůvěryhodným rozhodnutím.

Nízká nebo vysoká důvěra však není vždy správným rozhodnutím. Existuje však velká šance, že rozhodnutí s vysokou jistotou bude správné, pokud je soubor řádně vyškolen.

Přesnost s Data Fusion

Data shromážděná z více zdrojů mohou při strategické kombinaci zlepšit přesnost rozhodnutí o klasifikaci. Tato přesnost je vyšší než přesnost dosažená pomocí jediného zdroje dat.

Jak Ensemble Learning funguje?

Ensemble learning přebírá více mapovacích funkcí, které se naučili různí klasifikátoři, a poté je kombinuje do jedné mapovací funkce.

Zde je příklad, jak funguje souborové učení.

Příklad: Vytváříte potravinářskou aplikaci pro koncové uživatele. Chcete-li nabídnout vysoce kvalitní uživatelskou zkušenost, chcete shromáždit jejich zpětnou vazbu ohledně problémů, kterým čelí, nápadných mezer, chyb, chyb atd.

Za tímto účelem se můžete zeptat na názory své rodiny, přátel, spolupracovníků a dalších lidí, se kterými často komunikujete, ohledně jejich výběru potravin a jejich zkušeností s objednáváním jídla online. Můžete také vydat svou aplikaci ve verzi beta a sbírat zpětnou vazbu v reálném čase bez zkreslení nebo šumu.

Takže to, co zde ve skutečnosti děláte, je zvažování více nápadů a názorů od různých lidí, které pomáhají zlepšit uživatelský dojem.

Obdobně funguje souborové učení a jeho modely. Využívá sadu modelů a kombinuje je, aby vytvořil konečný výstup pro zlepšení přesnosti a výkonu predikce.

Základní techniky učení v souboru

#1. Režim

„Režim“ je hodnota objevující se v datové sadě. V souborovém učení používají profesionálové ML několik modelů k vytváření předpovědí o každém datovém bodu. Tyto předpovědi jsou považovány za jednotlivé hlasy a předpověď, kterou učinila většina modelů, se považuje za konečnou předpověď. Nejčastěji se používá v klasifikačních problémech.

Příklad: Čtyři lidé ohodnotili vaši aplikaci 4, zatímco jeden z nich ji ohodnotil 3, režim by pak byl 4, protože většina hlasovala 4.

#2. Průměr/průměr

Pomocí této techniky berou profesionálové v úvahu všechny předpovědi modelu a vypočítají jejich průměr, aby dospěli ke konečné předpovědi. Většinou se používá při vytváření předpovědí pro regresní problémy, počítání pravděpodobností v klasifikačních problémech a další.

Příklad: Ve výše uvedeném příkladu, kde čtyři lidé ohodnotili vaši aplikaci 4, zatímco jedna osoba ji ohodnotila 3, by průměr byl (4+4+4+4+3)/5=3,8

#3. Vážený průměr

V této metodě souborového učení profesionálové přidělují různé váhy různým modelům pro vytváření predikcí. Zde přidělená váha popisuje význam každého modelu.

Příklad: Předpokládejme, že 5 osob poskytlo zpětnou vazbu k vaší žádosti. 3 z nich jsou vývojáři aplikací, zatímco 2 nemají žádné zkušenosti s vývojem aplikací. Takže zpětná vazba těchto 3 lidí bude mít větší váhu než zbývající 2.

  Jak střídat stínování řádků nebo sloupců v Tabulkách Google

Pokročilé techniky učení Ensemble

#1. Pytlování

Bagging (Bootstrap AGGregatING) je vysoce intuitivní a jednoduchá technika skupinového učení s dobrým výkonem. Jak název napovídá, je vytvořen kombinací dvou pojmů „Bootstrap“ a „agregace“.

Bootstrapping je další metoda vzorkování, kde budete muset vytvořit podmnožiny několika pozorování převzatých z původního souboru dat s nahrazením. Zde bude velikost podmnožiny stejná jako velikost původní sady dat.

Zdroj: Buggy programátor

Takže v pytlování se podmnožiny nebo pytle používají k pochopení distribuce kompletní sady. Podmnožiny však mohou být menší než původní datový soubor v pytlování. Tato metoda zahrnuje jediný algoritmus ML. Cílem kombinace výsledků různých modelů je získat zobecněný výsledek.

Takto funguje pytlování:

  • Z původní sady se vygeneruje několik podmnožin a vyberou se pozorování s náhradami. Podmnožiny se používají při trénování modelů nebo rozhodovacích stromů.
  • Pro každou podmnožinu je vytvořen slabý nebo základní model. Modely budou na sobě nezávislé a poběží paralelně.
  • Konečná předpověď bude provedena kombinací každé předpovědi z každého modelu pomocí statistik, jako je průměrování, hlasování atd.

Populární algoritmy používané v této technice souboru jsou:

  • Náhodný les
  • Sbalené rozhodovací stromy

Výhodou této metody je, že pomáhá udržovat chyby rozptylu na minimu v rozhodovacích stromech.

#2. Stohování

Zdroj obrázku: OpenGenus IQ

Při skládání nebo zobecňování skládaných předpovědí z různých modelů, jako je rozhodovací strom, se používají k vytvoření nového modelu pro předpovědi na této testovací sadě.

Stacking zahrnuje vytvoření bootstrapped podmnožin dat pro tréninkové modely, podobně jako pytlování. Zde je však výstup modelů brán jako vstup, který má být přiveden do jiného klasifikátoru, známého jako metaklasifikátor pro konečnou předpověď vzorků.

Důvodem, proč se používají dvě klasifikační vrstvy, je určit, zda jsou trénovací datové sady správně naučeny. Přestože je dvouvrstvý přístup běžný, lze použít i více vrstev.

Můžete například použít 3–5 modelů v první vrstvě nebo úrovni 1 a jeden model ve vrstvě 2 nebo úrovni 2. Druhá z nich zkombinuje předpovědi získané v úrovni 1 a vytvoří konečnou předpověď.

Kromě toho můžete pro agregaci předpovědí použít jakýkoli model učení ML; lineární model jako lineární regrese, logistická regrese atd. je běžný.

Populární algoritmy ML používané při stohování jsou:

  • Míchání
  • Super soubor
  • Naskládané modely

Poznámka: Prolnutí používá pro vytváření předpovědí validační nebo holdout sadu z tréninkové datové sady. Na rozdíl od vrstvení zahrnuje prolnutí předpovědi, které se mají dělat pouze z vyložení.

#3. Posílení

Boosting je iterativní souborová metoda učení, která upravuje váhu konkrétního pozorování v závislosti na jeho poslední nebo předchozí klasifikaci. To znamená, že každý následující model se zaměřuje na opravu chyb nalezených v předchozím modelu.

Pokud pozorování není klasifikováno správně, pak zesílení zvyšuje váhu pozorování.

Při posilování profesionálové trénují první algoritmus pro posílení na kompletní datové sadě. Dále sestaví následující ML algoritmy pomocí reziduí extrahovaných z předchozího posilovacího algoritmu. Větší váha je tak přikládána nesprávným pozorováním předpovídaným předchozím modelem.

Postupně to funguje takto:

  • Z původní datové sady bude vygenerována podmnožina. Každý datový bod bude mít zpočátku stejnou váhu.
  • Vytvoření základního modelu probíhá na podmnožině.
  • Predikce bude provedena na úplném datovém souboru.
  • Pomocí skutečných a předpokládaných hodnot budou vypočteny chyby.
  • Nesprávně předpovězená pozorování budou mít větší váhu
  • Bude vytvořen nový model a na tomto souboru dat bude provedena konečná predikce, přičemž se model pokusí opravit dříve provedené chyby. Podobným způsobem bude vytvořeno více modelů, přičemž každý opraví předchozí chyby
  • Konečná předpověď bude provedena z konečného modelu, který je váženým průměrem všech modelů.
  Jak obejít dvoufaktorovou autentizaci na Instagramu

Populární posilovací algoritmy jsou:

  • CatBoost
  • Lehký GBM
  • AdaBoost

Výhodou posílení je, že generuje lepší předpovědi a snižuje chyby způsobené zkreslením.

Další techniky souboru

Směs expertů: používá se k trénování více klasifikátorů a jejich výstupy jsou soubory s obecným lineárním pravidlem. Zde jsou váhy dané kombinacím určeny trénovatelným modelem.

Většinové hlasování: zahrnuje výběr lichého klasifikátoru a pro každý vzorek se vypočítávají předpovědi. Třída, která obdrží maximální třídu z fondu klasifikátorů, bude předpokládanou třídou souboru. Používá se pro řešení problémů, jako je binární klasifikace.

Maximální pravidlo: používá rozdělení pravděpodobnosti každého klasifikátoru a využívá spolehlivost při vytváření předpovědí. Používá se pro vícetřídní klasifikační problémy.

Případy použití souborového učení v reálném životě

#1. Detekce obličeje a emocí

Ensemble learning využívá techniky, jako je analýza nezávislých komponent (ICA) k provádění detekce obličeje.

Souborové učení se navíc používá při zjišťování emocí osoby prostřednictvím detekce řeči. Navíc jeho schopnosti pomáhají uživatelům provádět detekci emocí obličeje.

#2. Bezpečnostní

Detekce podvodů: Učení v souboru pomáhá zvýšit výkon modelování normálního chování. To je důvod, proč je považován za účinný při odhalování podvodných aktivit, například v systémech kreditních karet a bankovnictví, telekomunikačních podvodech, praní špinavých peněz atd.

DDoS: Distribuované odmítnutí služby (DDoS) je smrtící útok na ISP. Klasifikátory souborů mohou omezit detekci chyb a také rozlišit útoky od skutečného provozu.

Detekce narušení: Ensemble learning lze použít v monitorovacích systémech, jako jsou nástroje detekce narušení, k detekci kódů narušitelů monitorováním sítí nebo systémů, hledáním anomálií a tak dále.

Detekce malwaru: Ensemble learning je poměrně účinný při odhalování a klasifikaci malwarového kódu, jako jsou počítačové viry a červi, ransomware, trojské koně, spyware atd. pomocí technik strojového učení.

#3. Přírůstkové učení

V přírůstkovém učení se algoritmus ML učí z nové datové sady, přičemž si zachovává předchozí učení, ale bez přístupu k předchozím datům, která viděl. Systémy Ensemble se používají v přírůstkovém učení tím, že se učí přidaný klasifikátor pro každou datovou sadu, jakmile bude k dispozici.

#4. Lék

Ensemble klasifikátory jsou užitečné v oblasti lékařské diagnostiky, jako je detekce neuro-kognitivních poruch (jako je Alzheimerova choroba). Provádí detekci tím, že jako vstupy bere soubory dat MRI a klasifikuje cervikální cytologii. Kromě toho se používá v proteomice (studium proteinů), neurovědě a dalších oblastech.

#5. Dálkový průzkum Země

Detekce změn: Ensemble klasifikátory se používají k provádění detekce změn pomocí metod, jako je bayesovské průměrné a většinové hlasování.

Mapování krajinného pokryvu: K efektivnímu zjišťování a mapování krajinného pokryvu se používají metody učení souboru, jako je posilování, rozhodovací stromy, analýza hlavních komponent jádra (KPCA) atd.

#6. Finance

Přesnost je kritickým aspektem financí, ať už jde o kalkulace nebo predikce. Velmi to ovlivňuje výstup vašich rozhodnutí. Mohou také analyzovat změny v datech akciového trhu, odhalit manipulaci s cenami akcií a další.

Další učební zdroje

#1. Ensemble Methods for Machine Learning

Tato kniha vám pomůže naučit se a implementovat důležité metody souborového učení od nuly.

#2. Ensemble Methods: Základy a algoritmy

Tato kniha obsahuje základy souborového učení a jeho algoritmů. Také nastiňuje, jak se používá v reálném světě.

#3. Ensemble Learning

Nabízí úvod do metody jednotného souboru, výzev, aplikací atd.

#4. Ensemble Machine Learning: Metody a aplikace:

Poskytuje široké pokrytí pokročilých technik souborového učení.

Závěr

Doufám, že nyní máte nějakou představu o souborovém učení, jeho metodách, případech použití a proč může být jeho použití prospěšné pro váš případ použití. Má potenciál vyřešit mnoho skutečných výzev, od oblasti zabezpečení a vývoje aplikací po finance, medicínu a další. Jeho použití se rozšiřuje, takže je pravděpodobné, že v blízké budoucnosti dojde k dalšímu vylepšení tohoto konceptu.

Můžete také prozkoumat některé nástroje pro generování syntetických dat pro trénování modelů strojového učení