Reinforcement Learning (RL) má systém odměn a trestů. Posílení učení je širší než monitorované nebo nekontrolované učení, jehož cílem je dosáhnout cíle nebo jen získat z pobídek a trestů z kontaktu s prostředím.
Jaký typ odměn a trestů se poskytuje jako zpětná vazba?
První je hodnotící zpětná vazba jako posílení, kde se odměny a tresty používají k formování chování žáka prostřednictvím posilovacích mechanismů učení.
Jaké jsou druhy odměn a trestů?
Nyní spojme tyto čtyři pojmy: pozitivní posílení, negativní posílení, pozitivní trest a negativní trest (Tabulka 1). Něco se přidává, aby se zvýšila pravděpodobnost chování. Něco je přidáno, aby se snížila pravděpodobnost chování.
Jaký typ učení je založen na přístupu odměn a trestů?
Implicitně, bez vědomého zpracování, se jednotlivci dozvídají o hodnotě odměny a trestu každého kontextu a činnosti. Tyto procesy asociativního učení zase ovlivňují pravděpodobnost, že se jednotlivci znovu zapojí do takových aktivit nebo vyhledávají daný kontext.
Jak odměna a trest ovlivňují učení?
Celkově jsme zaznamenali malý vliv odměny na učení nebo udržení. Trest neměl žádný vliv na udržení dovedností, ale měl významnýúčinky na učení závislé na úkolu. V trestu SRTT vylepšená rychlost s minimálním dopadem na přesnost. Naproti tomu trest snížil výkon na FTT.