Ang EITC/AI/ARL Advanced Reinforcement Learning ay ang European IT Certification program sa diskarte ng DeepMind sa reinforcement learning sa artificial intelligence.
Ang kurikulum ng EITC/AI/ARL Advanced Reinforcement Learning ay nakatuon sa mga teoretikal na aspeto at praktikal na kasanayan sa mga diskarte sa reinforcement na pag-aaral mula sa pananaw ng DeepMind na nakaayos sa loob ng sumusunod na istraktura, na sumasaklaw sa komprehensibong video didactic na nilalaman bilang isang sanggunian para sa EITC Certification na ito.
Ang reinforcement Learning (RL) ay isang lugar ng pag-aaral ng machine na nag-aalala tungkol sa kung paano dapat gumawa ng mga aksyon ang mga intelihente na ahente sa isang kapaligiran upang ma-maximize ang paniwala ng pinagsama-samang gantimpala. Ang pagpapalakas ng pag-aaral ay isa sa tatlong pangunahing mga paradahan ng pag-aaral ng makina, kasama ang pinangangasiwaang pag-aaral at hindi suportadong pag-aaral.
Ang pagpapatibay ng pagkatuto ay naiiba mula sa pinangangasiwaang pag-aaral na hindi nangangailangan ng naka-label na input/output na mga pares na maipakita, at sa hindi nangangailangan ng mga sub-optimal na aksyon na malinaw na naitama. Sa halip ang pokus ay sa paghahanap ng isang balanse sa pagitan ng paggalugad (ng hindi naka-chart na teritoryo) at pagsasamantala (ng kasalukuyang kaalaman).
Ang kapaligiran ay karaniwang nakasaad sa anyo ng isang proseso ng pagpapasya ng Markov (MDP), sapagkat maraming mga pampalakas na algorithm sa pag-aaral para sa kontekstong ito ang gumagamit ng mga diskarteng dinamikong programa. Ang pangunahing pagkakaiba sa pagitan ng mga klasikal na dinamikong pamamaraan ng pagprograma at pampalakas na pag-aaral ng mga algorithm ay ang huli ay hindi ipinapalagay ang kaalaman sa isang eksaktong modelo ng matematika ng MDP at target nila ang malalaking MDP kung saan ang mga eksaktong pamamaraan ay hindi mabibigyan ng kakayahan.
Dahil sa pagiging pangkalahatan nito, pinag-aaralan ang pampatibay na pag-aaral sa maraming mga disiplina, tulad ng teorya ng laro, teorya ng kontrol, pananaliksik sa pagpapatakbo, teorya ng impormasyon, pag-optimize na batay sa simulasi, mga system ng multi-ahente, kumpol na katalinuhan, at istatistika. Sa pagsasaliksik ng operasyon at pagkontrol ng panitikan, ang pag-aaral ng pampatibay ay tinatawag na tinatayang dynamic na programa, o neuro-dynamic na programa. Ang mga problema sa interes sa pag-aaral ng pampatibay ay pinag-aralan din sa teorya ng pinakamainam na kontrol, na higit na nag-aalala sa pagkakaroon at paglalarawan ng pinakamainam na mga solusyon, at mga algorithm para sa kanilang eksaktong pagkalkula, at mas mababa sa pag-aaral o paglapit, lalo na sa kawalan ng isang modelo ng matematika ng kapaligiran. Sa teorya ng ekonomiya at laro, ang pag-aaral ng pampatibay ay maaaring magamit upang ipaliwanag kung paano maaaring lumitaw ang balanse sa ilalim ng limitadong katuwiran.
Ang pangunahing pagpapatibay ay na-modelo bilang isang proseso ng pagpapasya ng Markov (MDP). Sa matematika, ang isang proseso ng pagpapasya ng Markov (MDP) ay isang discrete-time na proseso ng kontrol na stochastic. Nagbibigay ito ng isang balangkas ng matematika para sa pagmomodelo ng paggawa ng desisyon sa mga sitwasyon kung saan ang mga kinalabasan ay bahagyang sapalaran at bahagyang nasa ilalim ng kontrol ng isang gumagawa ng desisyon. Ang mga MDP ay kapaki-pakinabang para sa pag-aaral ng mga problema sa pag-optimize na nalutas sa pamamagitan ng pabagu-bagong programa. Ang mga MDP ay kilala kahit papaano noong 1950s. Isang pangunahing katawan ng pagsasaliksik sa mga proseso ng pagpapasya ni Markov na nagresulta mula sa aklat ni Ronald Howard noong 1960, ang Dynamic Programming at Markov Processes. Ginagamit ang mga ito sa maraming disiplina, kabilang ang robotics, awtomatikong kontrol, ekonomiya at pagmamanupaktura. Ang pangalan ng MDPs ay nagmula sa Russian matematiko na si Andrey Markov dahil ang mga ito ay isang extension ng mga chain ng Markov.
Sa bawat hakbang sa oras, ang proseso ay nasa ilang estado S, at ang tagagawa ng desisyon ay maaaring pumili ng anumang aksyon a na magagamit sa estado S. Ang proseso ay tumutugon sa susunod na hakbang na hakbang sa pamamagitan ng sapalarang paglipat sa isang bagong estado na S ', at pagbibigay sa gumagawa ng desisyon ng kaukulang gantimpala Ra (S, S ').
Ang posibilidad na ang proseso ay lumipat sa kanyang bagong estado na S 'ay naiimpluwensyahan ng napiling aksyon a. Sa partikular, ito ay ibinigay ng pagpapaandar ng paglipat ng estado na Pa (S, S '). Kaya, ang susunod na estado na S 'ay nakasalalay sa kasalukuyang estado ng S at pagkilos ng gumagawa ng desisyon a. Ngunit binigyan ng S at a, ito ay may kondisyon na independiyente sa lahat ng mga nakaraang estado at pagkilos. Sa madaling salita, ang mga paglipat ng estado ng isang MDP ay nasiyahan ang pag-aari ng Markov.
Ang mga proseso ng desisyon ng Markov ay isang extension ng mga chain ng Markov; ang pagkakaiba ay ang pagdaragdag ng mga aksyon (pinapayagan ang pagpipilian) at gantimpala (pagbibigay pagganyak). Sa kabaligtaran, kung mayroon lamang isang pagkilos para sa bawat estado (hal. "Maghintay") at lahat ng mga gantimpala ay pareho (hal. "Zero"), ang isang proseso ng desisyon ng Markov ay binabawasan sa isang kadena ng Markov.
Ang isang ahente ng pampalakas na natututo ay nakikipag-ugnay sa kapaligiran nito sa mga discrete na hakbang sa oras. Sa bawat oras t, natanggap ng ahente ang kasalukuyang estado ng S (t) at gantimpala r (t). Pinipili nito ang isang aksyon na (t) mula sa hanay ng mga magagamit na pagkilos, na pagkatapos ay ipinapadala sa kapaligiran. Ang kapaligiran ay lumilipat sa isang bagong estado S (t + 1) at ang gantimpala r (t + 1) na nauugnay sa paglipat ay natutukoy. Ang layunin ng isang ahente ng pampalakas na natututo ay upang malaman ang isang patakaran na kung saan pinapakinabangan ang inaasahang pinagsama-samang gantimpala.
Ang pagbubuo ng problema bilang isang MDP ay ipinapalagay na ang ahente ay direktang nagmamasid sa kasalukuyang estado sa kapaligiran. Sa kasong ito ang problema ay sinasabing may ganap na pagmamasid. Kung ang ahente ay may access lamang sa isang subset ng mga estado, o kung ang mga naobserbahang estado ay napinsala ng ingay, ang ahente ay sinasabing may bahagyang pagmamasid, at pormal na ang problema ay dapat na formulate bilang isang Bahagyang napapansin na proseso ng Markov na desisyon. Sa parehong mga kaso, ang hanay ng mga aksyon na magagamit sa ahente ay maaaring limitahan. Halimbawa, ang estado ng isang balanse ng account ay maaaring limitahan upang maging positibo; kung ang kasalukuyang halaga ng estado ay 3 at pagtatangka ng paglipat ng estado na bawasan ang halaga ng 4, hindi papayagan ang paglipat.
Kapag ang pagganap ng ahente ay inihambing sa isang ahente na kumikilos nang mahusay, ang pagkakaiba sa pagganap ay nagbubunga ng paniwala ng panghihinayang. Upang kumilos nang malapit sa optimally, ang ahente ay dapat mangatuwiran tungkol sa pangmatagalang kahihinatnan ng mga pagkilos nito (ie, i-maximize ang kita sa hinaharap), kahit na ang agarang gantimpala na nauugnay dito ay maaaring maging negatibo.
Sa gayon, ang pag-aaral ng pampalakas ay partikular na angkop sa mga problema na kasama ang isang pangmatagalang kumpara sa panandaliang pag-trade-off ng gantimpala. Matagumpay itong na-apply sa iba't ibang mga problema, kabilang ang kontrol ng robot, pag-iiskedyul ng elevator, telecommunication, backgammon, checkers at Go (AlphaGo).
Dalawang elemento ang nagpapalakas sa pag-aaral ng pampatibay: ang paggamit ng mga sample upang ma-optimize ang pagganap at ang paggamit ng function na approximation upang makitungo sa malalaking kapaligiran. Salamat sa dalawang pangunahing sangkap na ito, ang pag-aaral ng pampatibay ay maaaring magamit sa malalaking kapaligiran sa mga sumusunod na sitwasyon:
- Ang isang modelo ng kapaligiran ay kilala, ngunit ang isang analytic solution ay hindi magagamit.
- Ang isang modelo ng simulation lamang ng kapaligiran ang ibinibigay (ang paksa ng simulate-based optimization).
- Ang tanging paraan lamang upang mangolekta ng impormasyon tungkol sa kapaligiran ay ang makipag-ugnay dito.
Ang unang dalawa sa mga problemang ito ay maaaring isaalang-alang sa mga problema sa pagpaplano (dahil magagamit ang ilang uri ng modelo), habang ang huli ay maaaring maituring na isang tunay na problema sa pag-aaral. Gayunman, ang pampatibay na pag-aaral ay nagko-convert sa parehong mga problema sa pagpaplano sa mga problema sa pag-aaral ng makina.
Ang paggalugad kumpara sa pagsasamantala sa kalakal ay masusing pinag-aralan sa pamamagitan ng multi-armadong problema ng bandido at para sa may limitadong state space MDPs sa Burnetas at Katehakis (1997).
Ang pagpapatibay ng pag-aaral ay nangangailangan ng matalinong mga mekanismo ng paggalugad; sapalarang pagpili ng mga aksyon, nang walang pagtukoy sa isang tinantyang pamamahagi ng posibilidad, ay nagpapakita ng mahinang pagganap. Ang kaso ng (maliit) may hangganan na mga proseso ng desisyon ng Markov ay medyo nauunawaan. Gayunpaman, dahil sa kakulangan ng mga algorithm na sukatan ng maayos sa bilang ng mga estado (o sukat sa mga problema sa mga walang katapusang puwang ng estado), ang mga simpleng pamamaraan ng paggalugad ay ang pinaka praktikal.
Kahit na ang isyu ng pagsaliksik ay hindi pinapansin at kahit na ang estado ay napapansin, ang problema ay nananatili upang magamit ang nakaraang karanasan upang malaman kung aling mga aksyon ang humahantong sa mas mataas na pinagsama-samang gantimpala.
Upang makilala ang iyong sarili nang detalyado sa kurikulum ng sertipikasyon maaari mong palawakin at suriin ang talahanayan sa ibaba.
Ang EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum ay tumutukoy sa open-access na mga didactic na materyales sa isang video form. Ang proseso ng pagkatuto ay nahahati sa isang hakbang-hakbang na istraktura (mga programa -> mga aralin -> mga paksa) na sumasaklaw sa mga nauugnay na bahagi ng kurikulum. Ang walang limitasyong pagkonsulta sa mga eksperto sa domain ay ibinibigay din.
Para sa mga detalye sa pamamaraan ng Certification check Paano ito Works.
Mga Mapagkukunang Sanggunian sa Kurikulum
Pagkontrol sa antas ng tao sa pamamagitan ng publication ng Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Open-access course sa pag-aaral ng malalim na pampatibay sa UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
Nag-apply ang RL sa K-armbed bandit problem mula sa Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
I-download ang kumpletong offline na self-learning preparatory materials para sa EITC/AI/ARL Advanced Reinforcement Learning program sa isang PDF file
Mga materyales sa paghahanda ng EITC/AI/ARL – karaniwang bersyon
Mga materyales sa paghahanda ng EITC/AI/ARL – pinahabang bersyon na may mga tanong sa pagsusuri