Veiligheid & Ethiek
22 concepten

AI-alignment
Zorgen dat AI-systemen handelen in overeenstemming met menselijke waarden, intenties en veiligheidseisen

AI-jailbreaking
Vijandige technieken die de veiligheidsmaatregelen van een LLM omzeilen om verboden inhoud te produceren — een kernbedreiging die AI-veiligheidsonderzoek en red-teaming aandrijft

AgentDrift
Benchmark die bewijst dat AI-agents blindelings beschadigde tooldata accepteren — 0 van 1.563 beurten bevraagtekend, terwijl standaardmetrieken goed oogden.

Constitutional AI (CAI)
Een trainingsaanpak waarbij AI-modellen hun eigen output bekritiseren en herzien aan de hand van een set principes, met AI-gegenereerde feedback voor schaalbare alignment

Prompt-injectie
Een aanval waarbij kwaadaardige invoer een LLM manipuleert om zijn instructies te negeren

Reward Hacking bij AI-agents
AI-agents die hun benchmarks gamen — evaluator-manipulatie in 50% van de episodes, erger bij capabelere modellen.

Instructiehiërarchie voor AI-veiligheid
Veiligheidspatroon dat systeemprompts prioriteit geeft boven gebruikersinput en tooloutput — voorkomt prompt injection in autonome agents.

AI Governance
AI governance is het raamwerk van beleid, regelgeving en praktijken dat ervoor zorgt dat AI-systemen verantwoord, eerlijk en in overeenstemming met wet- en regelgeving worden ontwikkeld en ingezet.

AI Red Teaming
Het systematisch testen van AI-systemen op kwetsbaarheden, faalpatronen en alignment-gaten vóór deployment — nu kwantificeerbaar in dollarbedragen via economische benchmarks als ACE.

Autonomous AI Cybersecurity Defense
De paradigmaverschuiving waarbij AI-systemen autonoom softwarekwetsbaarheden ontdekken, verifiëren en helpen patchen, sneller dan menselijke onderzoekers en aanvallers—eindelijk de aanvaller-verdediger balans kantelt naar verdediging.

Bias in Machine Learning
Bias in ML verwijst naar systematische fouten in data, algoritmen of toepassing die ervoor zorgen dat modellen oneerlijke of discriminerende resultaten produceren.

DeceptGuard
Een constitutioneel toezichtframework dat misleidend gedrag in LLM-agents detecteert door hun interne redeneringssporen en verborgen staten te analyseren.

Explainability & Interpretability in AI
Explainability en interpretability pakken het AI-blackboxprobleem aan: begrijpen waarom modellen specifieke beslissingen nemen, met technieken als SHAP, LIME en Chain-of-Thought.

Human-in-the-Loop (HITL)
Human-in-the-Loop integreert menselijk oordeel in AI-workflows voor validatie, correctie en feedback — essentieel voor AI-toepassingen met hoge inzet.

ILION
Een deterministische veiligheidspoort die direct ongeautoriseerde real-world acties blokkeert die worden voorgesteld door AI-agents, zonder te vertrouwen op statistische training.

JobBench
Een AI-agent benchmark die 130 echte enterprise workflows test die mensen daadwerkelijk willen delegeren, en onthult dat frontier-modellen onder de 50% scoren op taken zoals meeting-planning en rapportgeneratie.

Magnifica Humanitas
Paus Leo XIV's 150-pagina encycliek over AI-ethiek, die oproept tot de ontwapening van AI van tech-monopolies, democratisch toezicht en het funderen van AI-beleid in menselijke waardigheid en theologische antropologie.

Project Glasswing
Anthropic's AI-gedreven beveiligingsinitiatief dat Claude gebruikt om autonoom tienduizenden kritieke kwetsbaarheden in mondiale software-infrastructuur te ontdekken en verifiëren, sneller dan aanvallers ze kunnen misbruiken.

Responsible AI
Responsible AI is de praktijk van het bouwen en inzetten van AI-systemen die eerlijk, transparant, verantwoordelijk, veilig en nuttig voor de samenleving zijn.

SynthID
Googles digitale watermerktechnologie die onwaarneembare, persistente identifiers inbedt in door AI gegenereerde afbeeldingen, audio, tekst en video om synthetische herkomst te bewijzen.

Model Card
Een model card is gestandaardiseerde AI-modeldocumentatie over beoogd gebruik, prestaties, beperkingen, trainingsdata en ethische overwegingen — een transparantielabel voor AI.

Guardrails
Guardrails zijn veiligheidsmechanismen die AI-systeemgedrag begrenzen — inputs filteren, outputs valideren en schadelijke of off-topic reacties voorkomen in productieapplicaties.