EITC/AI/ARL Advanced Reinforcement Learning je európsky IT certifikačný program o prístupe DeepMind k posilňovaniu vzdelávania v umelej inteligencii.
Učebné osnovy EITC/AI/ARL Advanced Reinforcement Learning sa zameriavajú na teoretické aspekty a praktické zručnosti v technikách posilňovacieho vzdelávania z pohľadu DeepMind organizované v rámci nasledujúcej štruktúry, zahŕňajúce komplexný videodidaktický obsah ako referenciu pre túto EITC certifikáciu.
Výstužné učenie (RL) je oblasť strojového učenia zaoberajúca sa tým, ako by mali inteligentní agenti konať v prostredí, aby maximalizovali predstavu o kumulatívnej odmene. Posilňovanie je jedným z troch základných paradigiem strojového učenia, spolu s učením pod dohľadom a učením bez dozoru.
Posilňovacie učenie sa líši od učenia pod dohľadom v tom, že nevyžaduje predloženie označených vstupno/výstupných párov a nepotrebuje výslovnú opravu suboptimálnych opatrení. Namiesto toho sa zameriavame na nájdenie rovnováhy medzi prieskumom (nezmapovaného územia) a využívaním (súčasných poznatkov).
Prostredie sa zvyčajne uvádza vo forme Markovovho rozhodovacieho procesu (MDP), pretože veľa výučbových algoritmov učenia pre tento kontext využíva techniky dynamického programovania. Hlavný rozdiel medzi metódami klasického dynamického programovania a algoritmami zosilňovacieho učenia je v tom, že algoritmy nepredpokladajú znalosť presného matematického modelu MDP a zameriavajú sa na veľké MDP, kde sú presné metódy nemožné.
Vďaka svojej všeobecnosti sa učenie posilňovania študuje v mnohých odboroch, ako je teória hier, teória riadenia, operačný výskum, teória informácií, optimalizácia na základe simulácie, systémy viacerých agentov, inteligencia rojov a štatistika. V literatúre o operačnom výskume a riadení sa učenie posilňovania nazýva aproximatívne dynamické programovanie alebo neurodynamické programovanie. Problémy záujmu o zosilňovacie učenie sa študovali aj v teórii optimálneho riadenia, ktorá sa zaoberá väčšinou existenciou a charakterizáciou optimálnych riešení a algoritmami na ich presný výpočet, a menej učením alebo aproximáciou, najmä pri absencii matematický model prostredia. V ekonómii a teórii hier sa učenie zosilnenia môže použiť na vysvetlenie toho, ako môže pri obmedzenej racionalite nastať rovnováha.
Základné vystuženie je modelované ako Markovov rozhodovací proces (MDP). V matematike je Markovov rozhodovací proces (MDP) diskrétnym stochastickým riadiacim procesom. Poskytuje matematický rámec pre modelovanie rozhodovania v situáciách, keď sú výsledky čiastočne náhodné a čiastočne pod kontrolou subjektu s rozhodovacou právomocou. MDP sú užitočné na štúdium optimalizačných problémov riešených pomocou dynamického programovania. MDP boli známe minimálne už v 1950. rokoch. Jadro výskumu Markovových rozhodovacích procesov bolo výsledkom knihy Ronalda Howarda z roku 1960 s názvom Dynamické programovanie a Markovove procesy. Používajú sa v mnohých disciplínach vrátane robotiky, automatického riadenia, ekonomiky a výroby. Názov MDP pochádza od ruského matematika Andreja Markova, pretože je rozšírením markovských reťazcov.
V každom časovom kroku je proces v nejakom stave S a rozhodujúci pracovník môže zvoliť akúkoľvek akciu, ktorá je k dispozícii v stave S. Proces reaguje v nasledujúcom kroku náhodným prechodom do nového stavu S 'a zadaním rozhodovateľovi zodpovedajúca odmena Ra (S, S ').
Pravdepodobnosť, že sa proces dostane do nového stavu S ', ovplyvňuje zvolená akcia a. Konkrétne je to dané funkciou prechodu stavu Pa (S, S '). Budúci stav S 'teda závisí od aktuálneho stavu S a od konania osoby s rozhodovacími právomocami a. Ale vzhľadom na S a a je podmienene nezávislý od všetkých predchádzajúcich stavov a činov. Inými slovami, prechod štátu MDP uspokojuje Markovov majetok.
Markovské rozhodovacie procesy sú rozšírením markovských reťazcov; rozdiel je pridanie akcií (umožnenie voľby) a odmien (poskytnutie motivácie). Naopak, ak pre každý štát existuje iba jedna akcia (napr. „Počkajte“) a všetky odmeny sú rovnaké (napr. „Nula“), Markovov rozhodovací proces sa redukuje na Markovov reťazec.
Agent na posilnenie učenia interaguje so svojím prostredím v diskrétnych časových krokoch. Zakaždým t dostane agent aktuálny stav S (t) a odmenu r (t). Potom vyberie akciu a (t) z množiny dostupných akcií, ktorá sa následne odošle do prostredia. Prostredie sa presunie do nového stavu S (t + 1) a určí sa odmena r (t + 1) spojená s prechodom. Cieľom agenta učiaceho sa pri posilňovaní je naučiť sa politiku, ktorá maximalizuje očakávanú kumulatívnu odmenu.
Formulovanie problému ako MDP predpokladá, že agent priamo sleduje aktuálny stav životného prostredia. V takom prípade sa hovorí, že problém je úplne pozorovateľný. Pokiaľ má agent prístup iba k podmnožine stavov, alebo ak sú pozorované stavy narušené šumom, má agent čiastočnú pozorovateľnosť a formálne musí byť problém formulovaný ako čiastočne pozorovateľný Markovov rozhodovací proces. V obidvoch prípadoch možno obmedziť množinu akcií, ktoré má agent k dispozícii. Napríklad stav zostatku na účte by mohol byť obmedzený na pozitívny; ak je aktuálna hodnota stavu 3 a prechod stavu sa pokúsi hodnotu znížiť o 4, prechod nebude povolený.
Keď sa porovnáva výkon agenta s výkonom agenta, ktorý koná optimálne, rozdiel vo výkone vedie k pocitu ľútosti. Ak má agent konať optimálne, musí uvažovať o dlhodobých následkoch svojich činov (tj maximalizovať budúci príjem), hoci okamžitá odmena s tým spojená môže byť negatívna.
Posilňovacie učenie je teda zvlášť vhodné na problémy, ktoré zahŕňajú kompromis medzi dlhodobou a krátkodobou odmenou. Úspešne sa aplikuje na rôzne problémy vrátane riadenia robotov, plánovania výťahov, telekomunikácií, backgammonu, dám a Go (AlphaGo).
Vďaka dvom prvkom je učenie zosilnenia silné: použitie vzoriek na optimalizáciu výkonu a použitie aproximácie funkcií na zvládnutie veľkých prostredí. Vďaka týmto dvom kľúčovým komponentom sa dá učenie posilnenia použiť vo veľkých prostrediach v nasledujúcich situáciách:
- Model prostredia je známy, ale analytické riešenie nie je k dispozícii.
- Uvádzaný je iba simulačný model prostredia (predmet optimalizácie na základe simulácie).
- Jediným spôsobom, ako zhromažďovať informácie o životnom prostredí, je interakcia s ním.
Prvé dva z týchto problémov by sa mohli považovať za problémy s plánovaním (keďže je k dispozícii určitá forma modelu), zatiaľ čo posledný z nich by sa mohol považovať za skutočný problém s učením. Posilnenie učenia však premení oba problémy s plánovaním na problémy so strojovým učením.
Kompromis prieskumu a využívania bol najdôkladnejšie študovaný prostredníctvom problému viacrukých banditov a MDP konečných stavov v priestore v Burnetas a Katehakis (1997).
Posilňovanie si vyžaduje chytré prieskumné mechanizmy; náhodný výber akcií bez odkazu na odhadované rozdelenie pravdepodobnosti vykazuje slabý výkon. Prípad (malých) konečných Markovových rozhodovacích procesov je pomerne dobre pochopený. Avšak kvôli nedostatku algoritmov, ktoré sa dobre prispôsobujú počtu stavov (alebo sa prispôsobujú problémom s nekonečnými stavovými priestormi), sú najpraktickejšie jednoduché metódy prieskumu.
Aj keď sa otázka prieskumu nebude brať do úvahy a aj keby bol stav pozorovateľný, zostáva problémom využiť minulé skúsenosti na zistenie, ktoré kroky vedú k vyšším kumulatívnym prínosom.
Aby ste sa podrobne oboznámili s certifikačným učebným plánom, môžete rozšíriť a analyzovať tabuľku nižšie.
Certifikačný kurikulum EITC/AI/ARL Advanced Reinforcement Learning sa odvoláva na didaktické materiály s otvoreným prístupom vo forme videa. Učebný proces je rozdelený na štruktúru krok za krokom (programy -> lekcie -> témy), ktorá pokrýva príslušné časti kurikula. Poskytuje sa aj neobmedzené poradenstvo s odborníkmi na domény.
Podrobnosti o kontrole postupu certifikácie Ako funguje CBD Factum Pet Solution?.
Referenčné zdroje učebných osnov
Kontrola na ľudskej úrovni prostredníctvom publikácie Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Kurz otvoreného prístupu k štúdiu hlbokého posilňovania na UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL sa vzťahovala na problém banditov s K-armbedom zo stránky Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Stiahnite si kompletné offline samovzdelávacie prípravné materiály pre program EITC/AI/ARL Advanced Reinforcement Learning v súbore PDF
Prípravné materiály EITC/AI/ARL – štandardná verzia
Prípravné materiály EITC/AI/ARL – rozšírená verzia o recenzné otázky