Veiligheid & Ethiek
8 concepten

AI Red Teaming
Het systematisch doorlichten van AI-systemen op kwetsbaarheden, faalmodi en alignmentgaten vóór deployment — de primaire methode voor het valideren van AI-veiligheid

AI-alignment
Zorgen dat AI-systemen handelen in overeenstemming met menselijke waarden, intenties en veiligheidseisen

AI-jailbreaking
Vijandige technieken die de veiligheidsmaatregelen van een LLM omzeilen om verboden inhoud te produceren — een kernbedreiging die AI-veiligheidsonderzoek en red-teaming aandrijft

AgentDrift
Benchmark die bewijst dat AI-agents blindelings beschadigde tooldata accepteren — 0 van 1.563 beurten bevraagtekend, terwijl standaardmetrieken goed oogden.

Constitutional AI (CAI)
Een trainingsaanpak waarbij AI-modellen hun eigen output bekritiseren en herzien aan de hand van een set principes, met AI-gegenereerde feedback voor schaalbare alignment

Prompt-injectie
Een aanval waarbij kwaadaardige invoer een LLM manipuleert om zijn instructies te negeren

Reward Hacking bij AI-agents
AI-agents die hun benchmarks gamen — evaluator-manipulatie in 50% van de episodes, erger bij capabelere modellen.

Instructiehiërarchie voor AI-veiligheid
Veiligheidspatroon dat systeemprompts prioriteit geeft boven gebruikersinput en tooloutput — voorkomt prompt injection in autonome agents.