Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Modellen & Architectuur
  4. Wat Is RLHF (Reinforcement Learning from Human Feedback)?
brainModellen & Architectuur
Advanced

Wat Is RLHF (Reinforcement Learning from Human Feedback)?

Een trainingstechniek die menselijke voorkeursbeoordelingen gebruikt om LLM-gedrag af te stemmen op menselijke waarden

Ook bekend als:
Reinforcement Learning from Human Feedback
RLHF-training
RLHF (Reinforcement Learning from Human Feedback)

Reinforcement Learning from Human Feedback (RLHF) is een trainingstechniek die LLM-gedrag afstemt op menselijke waarden en voorkeuren door mensen model-outputs te laten beoordelen, een beloningsmodel te trainen op die beoordelingen, en vervolgens het LLM te fine-tunen om de score van het beloningsmodel te maximaliseren. RLHF is de sleuteltechnologie die basis-LLM's — die in essentie next-token-voorspellers zijn zonder gevoel voor behulpzaamheid, veiligheid of instructie-opvolging — transformeerde tot de bruikbare assistenten waarmee mensen vandaag interacteren. Zonder RLHF (of opvolgtechnieken zoals DPO en RLAIF) zou een onbewerkt LLM op "Hoe maak ik een taart?" reageren door de tekst statistisch voort te zetten in plaats van een behulpzaam recept te geven.

Waarom het belangrijk is

RLHF is wat het verschil maakt tussen een onbewerkt taalmodel en een bruikbare AI-assistent. Het leert modellen om behulpzaam te zijn in plaats van alleen plausibel, om schadelijke verzoeken te weigeren, onzekerheid te erkennen en instructies nauwkeurig op te volgen. Voor organisaties die LLM's inzetten verklaart het begrijpen van RLHF waarom verschillende modellen verschillende 'persoonlijkheden' en veiligheidsgedragingen hebben — dit zijn directe gevolgen van de menselijke voorkeursdata en het beloningsmodel dat tijdens training is gebruikt. Het verklaart ook het fenomeen van reward hacking, waarbij modellen leren het beloningssignaal te manipuleren door outputs te produceren die hoog scoren op het beloningsmodel maar niet oprecht beter zijn voor de gebruiker, zoals buitensporig uitgebreid of vleierig zijn.

Hoe het werkt

RLHF verloopt in drie fasen. Eerste fase, supervised fine-tuning (SFT): het basismodel wordt getraind op hoogwaardige demonstratiedata die ideaal assistentgedrag toont. Tweede fase, beloningsmodel-training: menselijke evaluatoren vergelijken paren van model-outputs (voor dezelfde prompt) en geven aan welk antwoord beter is. Deze voorkeursparen trainen een apart beloningsmodel dat leert menselijke voorkeuren te voorspellen. Derde fase, reinforcement learning: het SFT-model genereert antwoorden, het beloningsmodel scoort ze, en de gewichten van het taalmodel worden bijgewerkt via Proximal Policy Optimization (PPO) of vergelijkbare RL-algoritmen om de waarschijnlijkheid van hoogscorende antwoorden te verhogen. Deze lus draait duizenden iteraties, waardoor het model geleidelijk specialiseert naar door mensen gewenst gedrag met behoud van brede taalvaardigheden.

Voorbeeld

Een modelaanbieder wil het vermogen van hun LLM verbeteren om wiskundevragen eerlijk te behandelen — toegeven wanneer problemen buiten zijn betrouwbaarheid vallen in plaats van zelfverzekerd te gokken. Menselijke evaluatoren beoordelen paren antwoorden op wiskundevragen op twee criteria: correctheid en kalibratie (drukt het model gepast vertrouwen uit?). Antwoord A: "Het antwoord is 42" (correct maar te zelfverzekerd). Antwoord B: "Ik geloof dat het antwoord 42 is, hoewel dit een meerstapsberekening betreft waar ik fouten kan maken — ik raad aan dit te verifiëren." Evaluatoren kiezen consistent voor B. Na duizenden van dergelijke vergelijkingen en RLHF-training leert het model zijn vertrouwen te kalibreren — duidelijke antwoorden geven voor eenvoudige problemen terwijl het passende voorbehouden toevoegt voor complexe problemen. Dit vermindert te grote afhankelijkheid van het model voor taken waar het waarschijnlijk fouten in maakt.

Bronnen

  1. Ouyang et al. — InstructGPT: Training Language Models with Human Feedback
    arXiv
  2. Hugging Face — Illustrating RLHF
    Web
  3. Bai et al. — Training a Helpful and Harmless Assistant with RLHF
    arXiv
  4. Wikipedia

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Reward Hacking bij AI-agents
AI-agents die hun benchmarks gamen — evaluator-manipulatie in 50% van de episodes, erger bij capabelere modellen.
LoRA (Low-Rank Adaptation)
Een efficiënte fine-tuningmethode die alleen kleine adapterlagen traint in plaats van het volledige model
AI-alignment
Zorgen dat AI-systemen handelen in overeenstemming met menselijke waarden, intenties en veiligheidseisen
Fine-tuning
Een voorgetraind LLM verder trainen op domeinspecifieke data om het gedrag te specialiseren
Constitutional AI (CAI)
Een trainingsaanpak waarbij AI-modellen hun eigen output bekritiseren en herzien aan de hand van een set principes, met AI-gegenereerde feedback voor schaalbare alignment

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Reward Hacking bij AI-agents

Volgende

Schalingswetten voor LLM's

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid