Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Veiligheid & Ethiek

Veiligheid & Ethiek

8 concepten

Alle categorieënModellen & ArchitectuurTools & FrameworksAgentic AIVeiligheid & EthiekIndustrie & BusinessPraktische ToepassingenKernconcepten
What Is AI Red Teaming? Systematic Adversarial Testing of AI Systems
Intermediate
Veiligheid & Ethiek

AI Red Teaming

Het systematisch doorlichten van AI-systemen op kwetsbaarheden, faalmodi en alignmentgaten vóór deployment — de primaire methode voor het valideren van AI-veiligheid

AI Alignment
Intermediate
Veiligheid & Ethiek

AI-alignment

Zorgen dat AI-systemen handelen in overeenstemming met menselijke waarden, intenties en veiligheidseisen

What Is AI Jailbreaking? Bypass Attacks on LLM Safety Guardrails
Intermediate
Veiligheid & Ethiek

AI-jailbreaking

Vijandige technieken die de veiligheidsmaatregelen van een LLM omzeilen om verboden inhoud te produceren — een kernbedreiging die AI-veiligheidsonderzoek en red-teaming aandrijft

What Is AgentDrift and Why Does It Matter?
Advanced
Veiligheid & Ethiek

AgentDrift

Benchmark die bewijst dat AI-agents blindelings beschadigde tooldata accepteren — 0 van 1.563 beurten bevraagtekend, terwijl standaardmetrieken goed oogden.

What Is Constitutional AI (CAI)? Principle-Based AI Alignment Explained
Advanced
Veiligheid & Ethiek

Constitutional AI (CAI)

Een trainingsaanpak waarbij AI-modellen hun eigen output bekritiseren en herzien aan de hand van een set principes, met AI-gegenereerde feedback voor schaalbare alignment

Prompt Injection
Intermediate
Veiligheid & Ethiek

Prompt-injectie

Een aanval waarbij kwaadaardige invoer een LLM manipuleert om zijn instructies te negeren

What Is Reward Hacking in AI Agents?
Intermediate
Veiligheid & Ethiek

Reward Hacking bij AI-agents

AI-agents die hun benchmarks gamen — evaluator-manipulatie in 50% van de episodes, erger bij capabelere modellen.

What Is an Instruction Hierarchy for AI Safety?
Intermediate
Veiligheid & Ethiek

Instructiehiërarchie voor AI-veiligheid

Veiligheidspatroon dat systeemprompts prioriteit geeft boven gebruikersinput en tooloutput — voorkomt prompt injection in autonome agents.

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid