Forstærkningsindlæring

Biologien bag forstærkningsindlæring kan findes på Operant konditionering og Belønning

Reinforcement learning (RL) er at lære en softwareagent, hvordan den skal opføre sig i et miljø ved at fortælle den, hvor godt den klarer sig. Det er et område inden for maskinindlæring, der er inspireret af adfærdspsykologi.

Forstærket indlæring adskiller sig fra overvåget indlæring, fordi de korrekte input og output aldrig bliver vist. Desuden lærer forstærkende læring normalt undervejs (online-læring) i modsætning til superviseret læring. Det betyder, at en agent skal vælge mellem at udforske og holde sig til det, den kender bedst.

Indledning

Et system til forstærket læring består af en politik ( π {{\displaystyle \pi }{\displaystyle \pi } ), en belønningsfunktion ( R {\displaystyle R}{\displaystyle R} ), en værdifunktion ( v {\displaystyle v}{\displaystyle v} ) og en valgfri model af omgivelserne.

En police fortæller agenten, hvad han skal gøre i en bestemt situation. Det kan være en simpel tabel med regler eller en kompliceret søgning efter den korrekte handling. Politikker kan endda være stokastiske, hvilket betyder, at politikken i stedet for regler tildeler sandsynligheder til hver handling. En politik kan i sig selv få en agent til at gøre noget, men den kan ikke lære det selv.

En belønningsfunktion definerer målet for en agent. Den modtager en tilstand (eller en tilstand og den handling, der er udført i den pågældende tilstand) og giver et tal tilbage, der kaldes belønningen, og som fortæller agenten, hvor godt det er at være i den pågældende tilstand. Agentens opgave er at opnå den størst mulige belønning på lang sigt. Hvis en handling giver en lav belønning, vil agenten sandsynligvis foretage en bedre handling i fremtiden. Biologien bruger belønningssignaler som glæde eller smerte til at sikre, at organismer forbliver i live og kan reproducere sig. Belønningssignaler kan også være stokastiske, ligesom en spilleautomat på et kasino, hvor de nogle gange giver gevinst, og nogle gange giver de ikke gevinst.

En værdifunktion fortæller en agent, hvor stor belønning den vil få ved at følge en politik π {\displaystyle \pi }{\displaystyle \pi } med udgangspunkt i tilstand s {\displaystyle s}{\displaystyle s} . Den repræsenterer, hvor ønskværdigt det er at være i en bestemt tilstand. Da værdifunktionen ikke er givet direkte til agenten, skal den komme med et godt gæt eller skøn baseret på den belønning, den har fået indtil nu. Estimation af værdifunktionen er den vigtigste del af de fleste algoritmer for forstærket læring.

En model er agentens mentale kopi af omgivelserne. Den bruges til at planlægge fremtidige handlinger.

Når vi ved dette, kan vi tale om hovedloopet for en forstærkende indlæringsepisode. Agenten interagerer med omgivelserne i diskrete tidstrin. Tænk på det som et urets "tick-tock". Med diskret tid sker der kun ting i løbet af "tikkene" og "takterne" og ikke i mellemtiden. På hvert tidspunkt t = 0 , 1 , 2 , 2 , 3 , . . . {\displaystyle t=0,1,2,3,... } {\displaystyle t=0,1,2,3,...}observerer agenten omgivelsernes tilstand S t {\displaystyle S_{t}}{\displaystyle S_{t}} og vælger en handling A t {\displaystyle A_{t}}{\displaystyle A_{t}} baseret på en politik π {\displaystyle \pi } {\displaystyle \pi }. I det næste tidstrin modtager agenten et belønningssignal R t + 1 {\displaystyle R_{t+1}}}{\displaystyle R_{t+1}} og en ny observation S t + 1 {\displaystyle S_{t+1}}} {\displaystyle S_{t+1}}. Værdifunktionen v ( S t ) {\displaystyle v(S_{t})}{\displaystyle v(S_{t})} opdateres ved hjælp af belønningssignalet. Dette fortsætter, indtil en terminaltilstand S T {\displaystyle S_{T}} {\displaystyle S_{T}}{\displaystyle S_{T}} er nået.

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3