Forstærkningslæring (Reinforcement Learning): Definition og grundprincipper

Lær forstærkningslæring: definition, grundprincipper, belønningsmekanismer, udforskning vs. udnyttelse og praktiske eksempler for at anvende RL i AI-projekter.

Forfatter: Leandro Alegsa

Biologien bag forstærkningsindlæring kan findes på Operant konditionering og Belønning

Reinforcement learning (RL) er at lære en softwareagent, hvordan den skal opføre sig i et miljø ved at fortælle den, hvor godt den klarer sig. Det er et område inden for maskinindlæring, der er inspireret af adfærdspsykologi.

Forstærket indlæring adskiller sig fra overvåget indlæring, fordi de korrekte input og output aldrig bliver vist. Desuden lærer forstærkende læring normalt undervejs (online-læring) i modsætning til superviseret læring. Det betyder, at en agent skal vælge mellem at udforske og holde sig til det, den kender bedst.

Grundprincipper og nøglebegreber

  • Agent: Den lærende enhed, som træffer handlinger.
  • Miljø: Alt det, agenten interagerer med; det giver observationer og belønninger.
  • Tilstand (state): En beskrivelse af miljøets aktuelle situation set fra agentens perspektiv.
  • Handling (action): Et valg agenten foretager i en given tilstand.
  • Belønning (reward): Et signal fra miljøet, som fortæller agenten, hvor god en handling var i forhold til målet.
  • Politik (policy): En strategi, der beskriver, hvordan agenten vælger handlinger fra tilstande (kan være deterministisk eller stokastisk).
  • Værdi-funktion (value): Estimat af, hvor god en tilstand eller handling er i forventet fremtidig belønning (f.eks. V(s) eller Q(s,a)).
  • Return og diskonteringsfaktor (gamma): Samlet fremtidig belønning; gamma bruges til at vægte nærmeste belønninger højere end fjerne.

Udfordringen: udforskning vs. udnyttelse

Et centralt problem i RL er exploration vs. exploitation: agenten skal afveje at prøve nye handlinger for at lære mere (udforskning) mod at bruge den viden, den allerede har, for at få høj belønning (udnyttelse). Almindelige strategier inkluderer epsilon-greedy, softmax og mere avancerede metoder som Upper Confidence Bound eller Bayesian approaches.

Typer af metoder

Man skelner ofte mellem:

  • Model-free: Agenten lærer direkte en politik eller værdi-funktion uden at forsøge at modellere miljøets dynamik (f.eks. Q-learning, SARSA, Policy Gradient).
  • Model-based: Agenten bygger eller lærer en model af miljøet og planlægger herefter (kan være mere sample-effektiv, men kræver en god model).
  • Dyb forstærkning (Deep RL): Kombination af RL-algoritmer med dybe neurale netværk som funktionstilnærmere (f.eks. DQN, DDPG, PPO), hvilket muliggør håndtering af store, komplekse tilstandsrum.

Almindelige algoritmer

  • Q-learning: En off-policy værdibaseret metode til at lære Q(s,a).
  • SARSA: En on-policy værdibaseret metode.
  • DQN (Deep Q-Network): Bruger neurale netværk til at approksimere Q-funktionen; kendt fra spil som Atari.
  • Policy Gradient / REINFORCE: Lærer politikken direkte ved at optimere forventet return.
  • Actor-Critic: Kombinerer en aktør (policy) og en kritiker (value-estimat) for mere stabil læring.
  • Proximal Policy Optimization (PPO) og Trust Region Policy Optimization (TRPO): Moderne, stabile policy-optimiseringsmetoder.

Anvendelser

  • Spil (fra klassiske bræt- og computerspil til komplekse realtids-spil).
  • Robotik (bevægelseskontrol, manipulation, navigation).
  • Autonome køretøjer og droner.
  • Optimering i industrien (f.eks. styring af energiforbrug, logistik).
  • Finansielle strategier og anbefalingssystemer.
  • Simulerede miljøer for forskning og træning, hvor sikker eksperimentering er nødvendig.

Udfordringer og bedste praksis

  • Prøveeffektivitet: RL kræver ofte mange prøver/interaktioner; simulering og transfer learning bruges ofte til at reducere omkostninger.
  • Sparse belønninger: Når belønninger er sjældne, kan agenten have svært ved at finde meningsfuld læring uden reward shaping eller curriculum learning.
  • Kredittildeling: At finde ud af hvilke handlinger i fortiden der førte til en fremtidig belønning kan være svært.
  • Stabilitet og konvergens: Funktionstilnærmelse med neurale netværk kan gøre træningen ustabil; teknikker som replay buffers, target networks og fordelbaserede estimater hjælper.
  • Sikkerhed og etik: I virkelige anvendelser er det væsentligt at sikre, at agentens adfærd er sikker, pålidelig og ikke udnytter utilsigtede måder at opnå belønning på.

Relation til biologien

Som indledningen antyder, har forstærkningslæring stærke paralleller til biologiske læringsmekanismer som Operant konditionering og Belønning. Neurovidenskabelige studier peger på dopamins rolle i belønningssignalering og midlertidig kodning af forventede værdier, hvilket inspirerer både teorier og algoritmer inden for RL.

Afsluttende bemærkninger

Forstærkningslæring er et kraftfuldt værktøj til at løse sekventielle beslutningsproblemer, især når målet kan formuleres som optimering af langsigtet belønning. Samtidig kræver succesfuld anvendelse forståelse for problemformulering, valg af algoritme, simulering versus real-world træning samt omtanke omkring sikkerhed og etik.

Indledning

Et system til forstærket læring består af en politik ( π {{\displaystyle \pi }{\displaystyle \pi } ), en belønningsfunktion ( R {\displaystyle R}{\displaystyle R} ), en værdifunktion ( v {\displaystyle v}{\displaystyle v} ) og en valgfri model af omgivelserne.

En police fortæller agenten, hvad han skal gøre i en bestemt situation. Det kan være en simpel tabel med regler eller en kompliceret søgning efter den korrekte handling. Politikker kan endda være stokastiske, hvilket betyder, at politikken i stedet for regler tildeler sandsynligheder til hver handling. En politik kan i sig selv få en agent til at gøre noget, men den kan ikke lære det selv.

En belønningsfunktion definerer målet for en agent. Den modtager en tilstand (eller en tilstand og den handling, der er udført i den pågældende tilstand) og giver et tal tilbage, der kaldes belønningen, og som fortæller agenten, hvor godt det er at være i den pågældende tilstand. Agentens opgave er at opnå den størst mulige belønning på lang sigt. Hvis en handling giver en lav belønning, vil agenten sandsynligvis foretage en bedre handling i fremtiden. Biologien bruger belønningssignaler som glæde eller smerte til at sikre, at organismer forbliver i live og kan reproducere sig. Belønningssignaler kan også være stokastiske, ligesom en spilleautomat på et kasino, hvor de nogle gange giver gevinst, og nogle gange giver de ikke gevinst.

En værdifunktion fortæller en agent, hvor stor belønning den vil få ved at følge en politik π {\displaystyle \pi }{\displaystyle \pi } med udgangspunkt i tilstand s {\displaystyle s}{\displaystyle s} . Den repræsenterer, hvor ønskværdigt det er at være i en bestemt tilstand. Da værdifunktionen ikke er givet direkte til agenten, skal den komme med et godt gæt eller skøn baseret på den belønning, den har fået indtil nu. Estimation af værdifunktionen er den vigtigste del af de fleste algoritmer for forstærket læring.

En model er agentens mentale kopi af omgivelserne. Den bruges til at planlægge fremtidige handlinger.

Når vi ved dette, kan vi tale om hovedloopet for en forstærkende indlæringsepisode. Agenten interagerer med omgivelserne i diskrete tidstrin. Tænk på det som et urets "tick-tock". Med diskret tid sker der kun ting i løbet af "tikkene" og "takterne" og ikke i mellemtiden. På hvert tidspunkt t = 0 , 1 , 2 , 2 , 3 , . . . {\displaystyle t=0,1,2,3,... } {\displaystyle t=0,1,2,3,...}observerer agenten omgivelsernes tilstand S t {\displaystyle S_{t}}{\displaystyle S_{t}} og vælger en handling A t {\displaystyle A_{t}}{\displaystyle A_{t}} baseret på en politik π {\displaystyle \pi } {\displaystyle \pi }. I det næste tidstrin modtager agenten et belønningssignal R t + 1 {\displaystyle R_{t+1}}}{\displaystyle R_{t+1}} og en ny observation S t + 1 {\displaystyle S_{t+1}}} {\displaystyle S_{t+1}}. Værdifunktionen v ( S t ) {\displaystyle v(S_{t})}{\displaystyle v(S_{t})} opdateres ved hjælp af belønningssignalet. Dette fortsætter, indtil en terminaltilstand S T {\displaystyle S_{T}} {\displaystyle S_{T}}{\displaystyle S_{T}} er nået.

Zoom




Søge
AlegsaOnline.com - 2020 / 2025 - License CC3