Co je posilovací učení?

V oblasti moderní umělé inteligence (AI) je posilování učení (RL) jedním z nejúžasnějších výzkumných témat. Vývojáři AI a strojového učení (ML) se také zaměřují na postupy RL k improvizaci inteligentních aplikací nebo nástrojů, které vyvíjejí.

Strojové učení je principem všech produktů AI. Lidští vývojáři používají různé metodologie ML k výcviku svých inteligentních aplikací, her atd. ML je vysoce diverzifikovaná oblast a různé vývojové týmy přicházejí s novými metodami školení stroje.

Jednou z takových lukrativních metod ML je hluboké učení. Zde trestáte nežádoucí chování stroje a odměňujete požadované akce inteligentního stroje. Odborníci se domnívají, že tato metoda ML musí přimět umělou inteligenci, aby se učila z vlastních zkušeností.

Pokud uvažujete o kariéře v oblasti umělé inteligence a strojového učení, pokračujte ve čtení tohoto dokonalého průvodce metodami posílení učení pro inteligentní aplikace a stroje.

Table of Contents

Co je posilovací učení ve strojovém učení?

RL je výuka modelů strojového učení pro počítačové programy. Poté může aplikace provést řadu rozhodnutí na základě modelů učení. Software se učí dosáhnout cíle v potenciálně složitém a nejistém prostředí. V tomto typu modelu strojového učení AI čelí scénáři podobnému hře.

Aplikace AI využívá pokusů a omylů k vymýšlení kreativního řešení daného problému. Jakmile se aplikace AI naučí správné modely ML, dá pokyn stroji, který ovládá, aby provedl některé úkoly, které programátor požaduje.

Na základě správného rozhodnutí a splnění úkolu získá AI odměnu. Pokud se však AI rozhodne špatně, čelí penalizacím, jako je ztráta bodů za odměnu. Konečným cílem aplikace AI je nashromáždit maximální počet bodů odměn za výhru ve hře.

Programátor aplikace AI nastavuje pravidla hry nebo zásady odměn. Programátor také poskytuje problém, který AI potřebuje vyřešit. Na rozdíl od jiných modelů ML nedostává program AI žádnou nápovědu od softwarového programátora.

Umělá inteligence musí přijít na to, jak vyřešit herní výzvy, aby získala maximální odměny. Aplikace může k dosažení řešení používat pokusy a omyly, náhodné pokusy, superpočítačové dovednosti a sofistikované taktiky myšlenkových procesů.

Program AI musíte vybavit výkonnou výpočetní infrastrukturou a propojit jeho systém myšlení s různými paralelními a historickými hrami. Umělá inteligence pak může prokázat kritickou kreativitu na vysoké úrovni, kterou si lidé nedokážou představit.

Jak zjistit, zda se váš MacBook nabíjí

Populární příklady posilovacího učení

#1. Poražení nejlepšího lidského hráče Go

AlphaGo AI od DeepMind Technologies, dceřiné společnosti Google, je jedním z předních příkladů strojového učení založeného na RL. AI hraje čínskou deskovou hru s názvem Go. Jde o 3000 let starou hru, která se zaměřuje na taktiku a strategie.

Programátoři použili pro AlphaGo metodu výuky RL. Odehrálo tisíce herních sezení Go s lidmi i se sebou samým. Poté v roce 2016 porazilo nejlepšího hráče Go na světě Lee Se-dola v zápase jeden na jednoho.

#2. Robotika skutečného světa

Lidé již dlouhou dobu používají robotiku ve výrobních linkách, kde jsou úkoly předem naplánované a opakující se. Pokud však potřebujete vytvořit univerzálního robota pro skutečný svět, kde akce nejsou předem naplánované, pak je to velká výzva.

Ale umělá inteligence s podporou učení by mohla objevit hladkou, splavnou a krátkou cestu mezi dvěma místy.

#3. Samořídící vozidla

Výzkumníci autonomních vozidel široce používají metodu RL k výuce svých AI pro:

Dynamická cesta
Optimalizace trajektorie
Plánování pohybu, jako je parkování a změna jízdního pruhu
Optimalizace ovladačů, (elektronické řídicí jednotky) ECU, (mikrokontroléry) MCU atd.
Učení založené na scénářích na dálnicích

#4. Automatizované chladicí systémy

Umělá inteligence založená na RL může pomoci minimalizovat spotřebu energie chladicích systémů v obřích kancelářských budovách, obchodních centrech, nákupních centrech a, což je nejdůležitější, v datových centrech. AI shromažďuje data z tisíců tepelných senzorů.

Shromažďuje také údaje o lidských a strojních činnostech. Z těchto údajů může AI předvídat budoucí potenciál výroby tepla a vhodně zapínat a vypínat chladicí systémy, aby šetřila energii.

Jak nastavit výukový model posilování

RL model můžete nastavit na základě následujících metod:

#1. Na základě zásad

Tento přístup umožňuje programátorovi AI najít ideální politiku pro maximální odměny. Zde programátor nepoužívá funkci value. Jakmile nastavíte metodu založenou na zásadách, agent posilování učení se pokusí aplikovat zásady tak, aby akce, které provádí v každém kroku, umožnily AI maximalizovat body odměn.

Existují především dva typy zásad:

#1. Deterministický: Politika může produkovat stejné akce v jakémkoli daném stavu.

#2. Stochastické: Produkované akce jsou určeny pravděpodobností výskytu.

#2. Hodnotově založené

Přístup založený na hodnotách naopak pomáhá programátorovi najít optimální hodnotovou funkci, což je maximální hodnota v rámci politiky v jakémkoli daném stavu. Po aplikaci RL agent očekává dlouhodobou návratnost v jednom nebo více státech v rámci uvedené politiky.

#3. Na základě modelu

V přístupu založeném na modelu RL programátor AI vytváří virtuální model prostředí. Poté se RL agent pohybuje po prostředí a učí se z něj.

Typy posilovacího učení

#1. Pozitivní posilování učení (PRL)

Pozitivní učení znamená přidání některých prvků ke zvýšení pravděpodobnosti, že se očekávané chování bude opakovat. Tato metoda učení pozitivně ovlivňuje chování RL agenta. PRL také zlepšuje sílu určitého chování vaší AI.

Jak blokovat Red Shell na vašem PC nebo Mac

Posílení učení typu PRL by mělo připravit AI na to, aby se přizpůsobila změnám po dlouhou dobu. Příliš mnoho pozitivního učení však může vést k přetížení stavů, které mohou snížit efektivitu AI.

#2. Negativní posilovací učení (NRL)

Když algoritmus RL pomáhá AI vyhnout se nebo zastavit negativní chování, učí se z něj a zlepšuje své budoucí akce. To je známé jako negativní učení. Poskytuje AI pouze omezenou inteligenci, aby splnila určité požadavky na chování.

Případy použití posilovacího učení v reálném životě

#1. Vývojáři eCommerce řešení vytvořili personalizované nástroje pro navrhování produktů nebo služeb. Rozhraní API tohoto nástroje můžete propojit se svým webem pro online nakupování. Poté se AI bude učit od jednotlivých uživatelů a navrhovat vlastní zboží a služby.

#2. Videohry s otevřeným světem přicházejí s neomezenými možnostmi. Za herním programem je však program AI, který se učí ze vstupů hráčů a upravuje kód videohry, aby se přizpůsobil neznámé situaci.

#3. Platformy pro obchodování s akciemi a investiční platformy založené na umělé inteligenci používají model RL k učení se z pohybu akcií a globálních indexů. V souladu s tím formulují pravděpodobnostní model, který navrhne akcie pro investici nebo obchodování.

#4. Online videotéky jako YouTube, Metacafe, Dailymotion atd. využívají roboty AI vyškolené na modelu RL, aby svým uživatelům navrhovali přizpůsobená videa.

Posílení učení vs. Učení pod dohledem

Posílení učení se zaměřuje na výcvik agenta AI, aby se rozhodoval postupně. Stručně řečeno, můžete zvážit, že výstup AI závisí na stavu současného vstupu. Podobně další vstup do RL algoritmu bude záviset na výstupu minulých vstupů.

Robotický stroj založený na umělé inteligenci, který hraje šachovou hru proti lidskému šachistovi, je příkladem modelu strojového učení RL.

Naopak, při učení pod dohledem programátor trénuje agenta AI, aby se rozhodoval na základě vstupů zadaných na začátku nebo jakéhokoli jiného počátečního vstupu. Umělá inteligence pro autonomní řízení auta rozpoznávající objekty prostředí je vynikajícím příkladem učení pod dohledem.

Posílení učení vs. Učení bez dozoru

Zatím jste pochopili, že metoda RL tlačí agenta AI k tomu, aby se učil ze zásad modelu strojového učení. Umělá inteligence udělá hlavně ty kroky, za které získá maximální odměnu. RL pomáhá AI improvizovat pomocí pokusů a omylů.

Na druhou stranu, při učení bez dozoru programátor AI představí software AI s neoznačenými daty. Instruktor ML také neříká AI nic o struktuře dat nebo o tom, co má v datech hledat. Algoritmus se učí různá rozhodnutí katalogizací svých vlastních pozorování na daných neznámých souborech dat.

Posilovací vzdělávací kurzy

Nyní, když jste se naučili základy, zde jsou některé online kurzy, ve kterých se naučíte pokročilé posilování. Získáte také certifikát, který můžete předvést na LinkedIn nebo jiných sociálních platformách:

Jak sledovat filmy Rychle a zběsile na Netflixu odkudkoli?

Specializace posilového učení: Coursera

Chcete si osvojit základní koncepty posilovacího učení s kontextem ML? Můžete to zkusit Kurz Coursera RL který je k dispozici online a přichází s možností samostudia a certifikace. Kurz pro vás bude vhodný, pokud si přinesete následující dovednosti:

Znalost programování v Pythonu
Základní statistické pojmy
Pseudokódy a algoritmy můžete převést na kódy Pythonu
Zkušenosti s vývojem softwaru dva až tři roky
Způsobilí jsou také studenti druhého ročníku oboru informatiky

Kurz má 4,8hvězdičkové hodnocení a do kurzu se již zapsalo více než 36 000 studentů v různých časových kursech. Kromě toho je kurz spojen s finanční pomocí za předpokladu, že kandidát splní určitá kritéria způsobilosti Coursera.

Konečně, Alberta Machine Intelligence Institute University of Alberta nabízí tento kurz (bez udělení kreditu). Jako lektoři vašich kurzů budou fungovat vážení profesoři v oblasti informatiky. Po absolvování kurzu získáte certifikát Coursera.

Učení o posílení AI v Pythonu: Udemy

Pokud se pohybujete na finančním trhu nebo v digitálním marketingu a chcete vyvíjet inteligentní softwarové balíčky pro uvedené obory, musíte se podívat na toto Kurz Udemy na RL. Kromě základních principů RL vás obsah školení také naučí, jak vyvinout řešení RL pro online reklamu a obchodování s akciemi.

Některá pozoruhodná témata, která kurz pokrývá, jsou:

Přehled RL na vysoké úrovni
Dynamické programování
Monet Carlo
Aproximační metody
Projekt obchodování s akciemi s RL

Kurzu se dosud zúčastnilo přes 42 tisíc studentů. Online výukový zdroj má v současné době 4,6hvězdičkové hodnocení, což je docela působivé. Kromě toho je cílem kurzu uspokojit globální studentskou komunitu, protože výukový obsah je k dispozici ve francouzštině, angličtině, španělštině, němčině, italštině a portugalštině.

Deep Reinforcement Learning in Python: Udemy

Pokud máte zvědavost a základní znalosti o hlubokém učení a umělé inteligenci, můžete zkusit toto pokročilé RL kurz v Pythonu z Udemy. Se 4,6hvězdičkovým hodnocením od studentů je to další oblíbený kurz pro výuku RL v kontextu AI/ML.

Kurz má 12 sekcí a pokrývá následující důležitá témata:

OpenAI Gym a základní techniky RL
TD Lambda
A3C
Základy Theano
Základy Tensorflow
Python kódování pro začátečníky

Celý kurz bude vyžadovat investici 10 hodin a 40 minut. Kromě textů obsahuje také 79 odborných přednášek.

Expert na hluboké posilování: Udacity

Chcete se naučit pokročilé strojové učení od světových lídrů v oblasti AI/ML, jako jsou Nvidia Deep Learning Institute a Unity? Udacity vám umožní splnit si svůj sen. Podívejte se na toto Hluboké posilování učení kurz stát se expertem na ML.

Musíte však pocházet z pokročilého Pythonu, středně pokročilé statistiky, teorie pravděpodobnosti, TensorFlow, PyTorch a Keras.

Dokončení kurzu bude trvat pilné učení po dobu až 4 měsíců. V průběhu kurzu se naučíte životně důležité RL algoritmy jako Deep Deterministic Policy Gradients (DDPG), Deep Q-Networks (DQN) atd.

Závěrečná slova

Posílení učení je dalším krokem ve vývoji AI. Agentury pro vývoj umělé inteligence a IT společnosti investují do tohoto sektoru, aby vytvořily spolehlivé a důvěryhodné školicí metodologie umělé inteligence.

Ačkoli RL hodně pokročila, existuje více oblastí vývoje. Například samostatní RL agenti mezi sebou nesdílejí znalosti. Pokud tedy trénujete aplikaci k řízení auta, proces učení se zpomalí. Protože agenti RL, jako je detekce objektů, reference silnic atd., nebudou sdílet data.

Existují příležitosti, jak do takových výzev investovat svou kreativitu a odborné znalosti v oblasti ML. Přihlášení do online kurzů vám pomůže prohloubit vaše znalosti pokročilých RL metod a jejich aplikací v reálných projektech.

Dalším souvisejícím učením pro vás jsou rozdíly mezi umělou inteligencí, strojovým učením a hlubokým učením.