
Wat is Reinforcement Learning?
Reinforcement learning (RL) is een machine learning-paradigma waarbij een agent leert beslissingen te nemen door te interacteren met een omgeving en beloningssignalen te ontvangen voor goede acties en straffen voor slechte. In plaats van te leren van gelabelde voorbeelden, leert de agent door trial-and-error welk gedrag de cumulatieve beloning maximaliseert.
Waarom het ertoe doet
Reinforcement learning drijft enkele van de meest indrukwekkende AI-prestaties aan: AlphaGo versloeg de wereldkampioen Go, ChatGPT werd afgestemd op menselijke voorkeuren via RLHF, en autonome systemen leren navigeren in complexe omgevingen. RL is cruciaal voor problemen waar geen "correct antwoord" voorhanden is, maar er wél een doel is om te optimaliseren.
Hoe het werkt
Kerncomponenten:
- Agent — het systeem dat leert en beslissingen neemt
- Omgeving — de wereld waarmee de agent interacteert
- State — de huidige situatie van de omgeving
- Actie — een keuze die de agent maakt
- Beloning — feedback van de omgeving (positief of negatief)
- Policy — de strategie die de agent volgt (state → actie)
Het leerproces:
- Agent observeert de huidige state
- Agent kiest een actie op basis van zijn policy
- Omgeving reageert met een nieuwe state en een beloning
- Agent past zijn policy aan om toekomstige beloningen te maximaliseren
- Herhaal miljoenen keren
Belangrijke RL-methoden:
- Q-learning — leer de waarde van elke actie in elke state
- Policy gradient — optimaliseer de policy direct
- RLHF — menselijke voorkeuren als beloningssignaal (gebruikt voor ChatGPT, Claude)
Voorbeeld
AlphaGo van DeepMind leerde Go spelen via reinforcement learning: het speelde miljoenen potjes tegen zichzelf, ontving een beloning (+1 voor winst, -1 voor verlies), en verfijnde zijn strategie tot het beter speelde dan elke menselijke speler — inclusief bewegingen die nooit eerder vertoond waren.