
Group Relative Policy Optimization (GRPO) is een reinforcement learning post-training algoritme voor taalmodellen dat groepen gegenereerde outputs ten opzichte van elkaar evalueert — in plaats van een apart reward-model te gebruiken — om het beleid van het model efficiënter bij te werken.
Eerst voorgesteld in het DeepSeekMath-paper en geadopteerd door de Hugging Face TRL-bibliotheek in 2026, is GRPO een belangrijk alternatief geworden voor PPO (Proximal Policy Optimization) voor het aligneren van taalmodellen, met vergelijkbare prestaties tegen aanzienlijk lagere computationele kosten.
Waarom het belangrijk is
Traditionele RLHF-pipelines met PPO vereisen het trainen en onderhouden van een apart reward-model, wat substantiële geheugenoverhead en trainingscomplexiteit toevoegt. GRPO elimineert deze vereiste door outputs binnen een batch tegen elkaar te vergelijken, waarbij de relatieve kwaliteit van de groep als optimalisatiesignaal dient. Dit maakt reinforcement learning from human feedback toegankelijk voor teams met beperkte GPU-resources en vereenvoudigt de trainingspipeline.
Hoe het werkt
Gegeven een prompt genereert GRPO een groep kandidaat-antwoorden van het huidige beleid. Elk antwoord wordt gescoord (met een regelgebaseerde verifier, menselijke voorkeurslabels of een lichtgewicht scoringsfunctie). In plaats van een absolute reward te berekenen, normaliseert GRPO scores binnen de groep — het berekent het voordeel van elk antwoord relatief ten opzichte van het groepsgemiddelde. Het beleid wordt vervolgens bijgewerkt om de waarschijnlijkheid van bovengemiddelde antwoorden te verhogen en ondergemiddelde te verlagen, met een geclipte objective vergelijkbaar met PPO voor stabiliteit. Dit groepsrelatieve signaal is zowel goedkoper te berekenen als empirisch stabieler dan absolute rewardschatting.
Voorbeeld
Een team dat een open-weight model fine-tunet voor wiskundig redeneren genereert 8 kandidaat-oplossingen per probleem. Een regelgebaseerde verifier controleert welke oplossingen het juiste antwoord bereiken. GRPO berekent relatieve voordelen binnen elke groep van 8 en werkt het model bij om oplossingsstrategieën te bevorderen die consistent correcte antwoorden produceren — geen apart reward-model nodig.
Verwante concepten
- RLHF (Reinforcement Learning from Human Feedback)
- Fine-Tuning
- Large Language Model (LLM)