Wat is Reinforcement Learning?

Reinforcement learning (RL) is een machine learning-paradigma waarbij een agent leert beslissingen te nemen door te interacteren met een omgeving en beloningssignalen te ontvangen voor goede acties en straffen voor slechte. In plaats van te leren van gelabelde voorbeelden, leert de agent door trial-and-error welk gedrag de cumulatieve beloning maximaliseert.

Waarom het ertoe doet

Reinforcement learning drijft enkele van de meest indrukwekkende AI-prestaties aan: AlphaGo versloeg de wereldkampioen Go, ChatGPT werd afgestemd op menselijke voorkeuren via RLHF, en autonome systemen leren navigeren in complexe omgevingen. RL is cruciaal voor problemen waar geen "correct antwoord" voorhanden is, maar er wél een doel is om te optimaliseren.

Hoe het werkt

Kerncomponenten:

Agent — het systeem dat leert en beslissingen neemt
Omgeving — de wereld waarmee de agent interacteert
State — de huidige situatie van de omgeving
Actie — een keuze die de agent maakt
Beloning — feedback van de omgeving (positief of negatief)
Policy — de strategie die de agent volgt (state → actie)

Het leerproces:

Agent observeert de huidige state
Agent kiest een actie op basis van zijn policy
Omgeving reageert met een nieuwe state en een beloning
Agent past zijn policy aan om toekomstige beloningen te maximaliseren
Herhaal miljoenen keren

Belangrijke RL-methoden:

Q-learning — leer de waarde van elke actie in elke state
Policy gradient — optimaliseer de policy direct
RLHF — menselijke voorkeuren als beloningssignaal (gebruikt voor ChatGPT, Claude)

Voorbeeld

AlphaGo van DeepMind leerde Go spelen via reinforcement learning: het speelde miljoenen potjes tegen zichzelf, ontving een beloning (+1 voor winst, -1 voor verlies), en verfijnde zijn strategie tot het beter speelde dan elke menselijke speler — inclusief bewegingen die nooit eerder vertoond waren.