Wat is GRPO (Group Relative Policy Optimization)?

Group Relative Policy Optimization (GRPO) is een reinforcement learning post-training algoritme voor taalmodellen dat groepen gegenereerde outputs ten opzichte van elkaar evalueert — in plaats van een apart reward-model te gebruiken — om het beleid van het model efficiënter bij te werken.

Eerst voorgesteld in het DeepSeekMath-paper en geadopteerd door de Hugging Face TRL-bibliotheek in 2026, is GRPO een belangrijk alternatief geworden voor PPO (Proximal Policy Optimization) voor het aligneren van taalmodellen, met vergelijkbare prestaties tegen aanzienlijk lagere computationele kosten.

Waarom het belangrijk is

Traditionele RLHF-pipelines met PPO vereisen het trainen en onderhouden van een apart reward-model, wat substantiële geheugenoverhead en trainingscomplexiteit toevoegt. GRPO elimineert deze vereiste door outputs binnen een batch tegen elkaar te vergelijken, waarbij de relatieve kwaliteit van de groep als optimalisatiesignaal dient. Dit maakt reinforcement learning from human feedback toegankelijk voor teams met beperkte GPU-resources en vereenvoudigt de trainingspipeline.

Hoe het werkt

Gegeven een prompt genereert GRPO een groep kandidaat-antwoorden van het huidige beleid. Elk antwoord wordt gescoord (met een regelgebaseerde verifier, menselijke voorkeurslabels of een lichtgewicht scoringsfunctie). In plaats van een absolute reward te berekenen, normaliseert GRPO scores binnen de groep — het berekent het voordeel van elk antwoord relatief ten opzichte van het groepsgemiddelde. Het beleid wordt vervolgens bijgewerkt om de waarschijnlijkheid van bovengemiddelde antwoorden te verhogen en ondergemiddelde te verlagen, met een geclipte objective vergelijkbaar met PPO voor stabiliteit. Dit groepsrelatieve signaal is zowel goedkoper te berekenen als empirisch stabieler dan absolute rewardschatting.

Voorbeeld

Een team dat een open-weight model fine-tunet voor wiskundig redeneren genereert 8 kandidaat-oplossingen per probleem. Een regelgebaseerde verifier controleert welke oplossingen het juiste antwoord bereiken. GRPO berekent relatieve voordelen binnen elke groep van 8 en werkt het model bij om oplossingsstrategieën te bevorderen die consistent correcte antwoorden produceren — geen apart reward-model nodig.

Waarom het belangrijk is

Hoe het werkt

Voorbeeld

Verwante concepten

Bronnen

Wat is GRPO (Group Relative Policy Optimization)?

Waarom het belangrijk is

Hoe het werkt

Voorbeeld

Verwante concepten

Bronnen