
Constitutionele AI (CAI) is een trainingsmethodologie ontwikkeld door Anthropic waarbij een AI-model wordt getraind om zijn eigen output te bekritiseren en herzien aan de hand van een set principes — een "constitutie" — met AI-gegenereerde feedback in plaats van uitsluitend menselijke annotaties. Deze aanpak adresseert de schaalbaarheidsuitdaging van RLHF: menselijke voorkeurslabeling is duur, traag en inconsistent. CAI vervangt een groot deel van de menselijke labeling door een geautomatiseerd proces waarbij het model een antwoord genereert, dat bekritiseert aan de hand van de constitutie, en een herzien antwoord produceert — waardoor synthetische voorkeursparen ontstaan voor verdere training. Deze zelverbeteringslus maakt alignment mogelijk op een schaal die pure menselijke feedback niet kan bereiken, terwijl veiligheidsprincipes expliciet en auditeerbaar worden.
Waarom het belangrijk is
Constitutionele AI vertegenwoordigt een fundamentele verschuiving in hoe AI-veiligheid en alignment werken. Traditionele RLHF vereist duizenden menselijke annotators om modeloutput te beoordelen — een proces dat kostbaar, traag, cultureel bevooroordeeld en niet schaalbaar is. CAI maakt alignmentprincipes expliciet en machineleesbaar, waardoor het model ze kan internaliseren als redeneerprocessen in plaats van als gememoriseerd gedrag. Voor organisaties die AI inzetten is dit belangrijk omdat CAI-getrainde modellen doorgaans consistenter zijn in hun veiligheidsgedrag — ze kunnen uitleggen waarom ze een verzoek weigeren door te verwijzen naar specifieke principes, in plaats van simpelweg patroonherkenning toe te passen op voorbeelden van geweigerde verzoeken. Gemeten resultaten tonen dat CAI schadelijke content met 23% vermindert, hallucinaties met 30%, en privacyschendingen met 60% vergeleken met alleen RLHF. CAI verklaart ook waarom modellen van verschillende providers zich anders gedragen bij gevoelige onderwerpen — ze zijn getraind tegen verschillende constituties.
Hoe het werkt
CAI opereert in drie fasen. In Fase 1 (Red Teaming) prompten onderzoekers het model met adversarial invoer ontworpen om schadelijke, bevooroordeelde of nutteloze antwoorden uit te lokken, en definiëren een set principes: "Wees behulpzaam, onschadelijk en eerlijk," "Help nooit bij illegale activiteiten," "Erken onzekerheid in plaats van te gissen," en tientallen meer gericht op specifieke faalwijzen. In Fase 2 (Kritiek en Herziening) genereert het model zelf voor elk problematisch antwoord een kritiek ("Dit antwoord schendt het onschadelijkheidsprincipe omdat het instructies biedt die misbruikt kunnen worden") en genereert vervolgens een herzien antwoord dat de kritiek adresseert. Dit creëert duizenden (origineel, kritiek, herziening)-triplets. In Fase 3 (Training) worden deze triplets gebruikt als voorkeursdata — het model leert herziene antwoorden te verkiezen boven originele — door reinforcement learning. Het resultaat is een model dat de principes heeft geïnternaliseerd als onderdeel van zijn redeneerproces, waardoor het zichzelf kan reguleren bij nieuwe situaties die niet worden gedekt door specifieke trainingsvoorbeelden.
Voorbeeld
Een zorg-AI-platform moet ervoor zorgen dat hun medische informatieassistent nooit gevaarlijk medisch advies geeft terwijl deze maximaal behulpzaam blijft voor legitieme gezondheidsvragen. Ze observeren dat RLHF alleen inconsistent gedrag oplevert: het model weigert soms onschuldige gezondheidsvragen ("Wat zijn veelvoorkomende verkoudheidssymptomen?") terwijl het af en toe riskant advies geeft over medicijninteracties dat menselijke annotators hebben gemist. Ze implementeren CAI met een zorgspecifieke constitutie: "Adviseer altijd om een zorgverlener te raadplegen bij diagnose-achtige vragen," "Deel algemene welzijnsinformatie vrijelijk," "Markeer medicijninteractievragen met expliciete veiligheidswaarschuwingen," en "Geef nooit doseringsaanbevelingen voor receptplichtige medicijnen." Het model leert zijn eigen antwoorden te bekritiseren aan de hand van deze principes, wat genuanceerd gedrag oplevert: het bespreekt vol vertrouwen veelvoorkomende symptomen (geen medisch advies), voegt passende disclaimers toe bij het bespreken van behandelingen (principegebaseerde voorzichtigheid), weigert resoluut specifieke doseringen voor te stellen (expliciete verbod), en legt zijn redenering uit door te verwijzen naar de principes wanneer het een verzoek afwijst. Incidenten met schadelijk medisch advies dalen met 85% vergeleken met de versie met alleen RLHF, terwijl de gebruikerstevredenheid over behulpzame gezondheidsinformatie met 12% stijgt.