
Wat is Reinforcement Learning?
Reinforcement learning (RL) is een machine learning-paradigma waarbij een agent leert beslissingen te nemen door te interacteren met een omgeving en beloningssignalen te ontvangen voor goede acties en straffen voor slechte. In plaats van te leren van gelabelde voorbeelden, leert de agent door trial-and-error welk gedrag de cumulatieve beloning maximaliseert.
Waarom het ertoe doet
Reinforcement learning drijft enkele van de meest indrukwekkende AI-prestaties aan: AlphaGo versloeg de wereldkampioen Go, ChatGPT werd afgestemd op menselijke voorkeuren via RLHF, en autonome systemen leren navigeren in complexe omgevingen. RL is cruciaal voor problemen waar geen "correct antwoord" voorhanden is, maar er wél een doel is om te optimaliseren.
Hoe het werkt
Kerncomponenten:
- Agent — het systeem dat leert en beslissingen neemt
- Omgeving — de wereld waarmee de agent interacteert
- State — de huidige situatie van de omgeving
- Actie — een keuze die de agent maakt
- Beloning — feedback van de omgeving (positief of negatief)
- Policy — de strategie die de agent volgt (state → actie)
Het leerproces: