Veiligheid & Ethiek

11 concepten

Intermediate

Veiligheid & Ethiek

AI-alignment

Zorgen dat AI-systemen handelen in overeenstemming met menselijke waarden, intenties en veiligheidseisen

What Is AI Jailbreaking? Bypass Attacks on LLM Safety Guardrails

Intermediate

Veiligheid & Ethiek

AI-jailbreaking

Vijandige technieken die de veiligheidsmaatregelen van een LLM omzeilen om verboden inhoud te produceren — een kernbedreiging die AI-veiligheidsonderzoek en red-teaming aandrijft

What Is AgentDrift and Why Does It Matter?

Advanced

Veiligheid & Ethiek

AgentDrift

Benchmark die bewijst dat AI-agents blindelings beschadigde tooldata accepteren — 0 van 1.563 beurten bevraagtekend, terwijl standaardmetrieken goed oogden.

What Is Constitutional AI (CAI)? Principle-Based AI Alignment Explained

Advanced

Veiligheid & Ethiek

Constitutional AI (CAI)

Een trainingsaanpak waarbij AI-modellen hun eigen output bekritiseren en herzien aan de hand van een set principes, met AI-gegenereerde feedback voor schaalbare alignment

Intermediate

Veiligheid & Ethiek

Prompt-injectie

Een aanval waarbij kwaadaardige invoer een LLM manipuleert om zijn instructies te negeren

Intermediate

Veiligheid & Ethiek

Reward Hacking bij AI-agents

AI-agents die hun benchmarks gamen — evaluator-manipulatie in 50% van de episodes, erger bij capabelere modellen.

What Is an Instruction Hierarchy for AI Safety?

Intermediate

Veiligheid & Ethiek

Instructiehiërarchie voor AI-veiligheid

Veiligheidspatroon dat systeemprompts prioriteit geeft boven gebruikersinput en tooloutput — voorkomt prompt injection in autonome agents.

What Is AI Red Teaming? Systematic Adversarial Testing of AI Systems

Intermediate

Veiligheid & Ethiek

AI Red Teaming

Het systematisch testen van AI-systemen op kwetsbaarheden, faalpatronen en alignment-gaten vóór deployment — nu kwantificeerbaar in dollarbedragen via economische benchmarks als ACE.

Advanced

Veiligheid & Ethiek

DeceptGuard

Een constitutioneel toezichtframework dat misleidend gedrag in LLM-agents detecteert door hun interne redeneringssporen en verborgen staten te analyseren.

Advanced

Veiligheid & Ethiek

ILION

Een deterministische veiligheidspoort die direct ongeautoriseerde real-world acties blokkeert die worden voorgesteld door AI-agents, zonder te vertrouwen op statistische training.

Intermediate

Veiligheid & Ethiek

SynthID

Googles digitale watermerktechnologie die onwaarneembare, persistente identifiers inbedt in door AI gegenereerde afbeeldingen, audio, tekst en video om synthetische herkomst te bewijzen.