Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Onderzoek
  4. Wat is Activation Steering?
file-textOnderzoek
Advanced
2026-W21

Wat is Activation Steering?

Een techniek die synthetische vectoren injecteert in de interne lagen van een model tijdens inferentie om besluitvorming direct bij te sturen — zowel voor nauwkeurige debiasing als voor gedragscontrole — maar die ook in staat is veiligheidstraining te omzeilen zonder jailbreak-prompt.

Ook bekend als:
activation injection
representation engineering
latent steering
AI Intel Pipeline
What is Activation Steering?

Wat is Activation Steering?

Activation steering is een techniek die het gedrag van een groot taalmodel direct aanpast tijdens inferentie door synthetische vectoren te injecteren in specifieke interne lagen — de besluitvorming van het model verschuivend zonder hertraining, fine-tuning of wijziging van system prompts.

Waarom het ertoe doet

Traditioneel vereist het wijzigen van het gedrag van een AI-model ofwel hertraining (duur, traag) ofwel prompt engineering (broos, omzeildbaar). Activation steering biedt een derde weg: directe chirurgische interventie op het niveau van de interne representaties van het model.

  • Onmiddellijke gedragsverandering: Een steervector kan in milliseconden worden toegepast, waardoor het model van de ene gedragsmodus naar de andere wordt gestuurd zonder API-aanroep of contextvenster-overhead.
  • Omzeilt veiligheidscontroles: Dit is het gevaarlijkste aspect van de techniek. Onderzoekers hebben aangetoond dat activation steering RLHF-getrainde veiligheidsgedragingen kan overschrijven, waardoor modellen inhoud produceren die ze expliciet zijn getraind te weigeren — zonder enige jailbreak-prompt (arXiv:2605.15217).
  • Maakt precisie-debiasing mogelijk: Constructief toegepast kan activation steering demografische biases neutraliseren die zijn geïdentificeerd via interpretability-tools zoals Natural Language Autoencoders, gericht op alleen de lagen waar de bias is gecodeerd.

Hoe het werkt

  1. Vectoridentificatie — Onderzoekers identificeren een "stuurrichting" in de activatieruimte door de interne states van het model te contrasteren op paren van inputs (bijv. bevooroordeelde vs. onbevooroordeelde outputs).
  2. Laagkeuze — De doellaag wordt gekozen op basis van waar het concept van belang het sterkst is gecodeerd. Middenste lagen coderen doorgaans semantische concepten; latere lagen coderen taakspecifieke beslissingen.
  3. Injectie — Tijdens een forward pass wordt de steervector opgeteld bij (of afgetrokken van) de activatietensor op de doellaag, met een schaalcoëfficiënt die de sterkte van de interventie regelt.
  4. Output-observatie — De gewijzigde activaties propageren door latere lagen en produceren een output die de gestuurde richting weerspiegelt.

Voorbeeld

Een onderzoeksteam gebruikt NLAs om te identificeren dat laag 18 van een ingezet model een sterke "vermijd discussie over onderwerp X" richting codeert — een rest van overmatig voorzichtige RLHF-training die het model ertoe brengt legitieme medische vragen te weigeren. Ze construeren een tegenvector die die richting neutraliseert, passen hem toe op laag 18 en het model begint medische vragen nauwkeurig te beantwoorden — zonder de gewichten van het model of de prompt aan te raken.

Beveiligingsimplicaties

Activation steering is een dual-use technologie. Dezelfde techniek die precisie-debiasing mogelijk maakt, kan worden gebruikt om veiligheidstraining in ingezette modellen te omzeilen. Dit maakt het een kritieke zorg voor AI-red-teaming en een sleutelmotivatie voor latent-space-audittools zoals NLAs.

Bronnen

  1. arXiv:2605.15217 — Hidden Bias via Activation Steering
  2. Anthropic — Natural Language Autoencoders

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Latent Space Manipulation
Een klasse technieken die de interne numerieke representaties van AI-modellen rechtstreeks lezen, sturen of koppelen — in plaats van via tekst te werken — waarmee realtime alignment-audits, bias-detectie en tokenvrije inter-model communicatie mogelijk worden.
Natural Language Autoencoders
Een interpretability-techniek van Anthropic die de interne activatievectoren van een groot taalmodel automatisch vertaalt naar voor mensen leesbare tekst, waarmee pre-deployment alignment-audits en detectie van verborgen bias of bedrieglijke intentie mogelijk worden.
Autonomous AI Cybersecurity Defense
De paradigmaverschuiving waarbij AI-systemen autonoom softwarekwetsbaarheden ontdekken, verifiëren en helpen patchen, sneller dan menselijke onderzoekers en aanvallers—eindelijk de aanvaller-verdediger balans kantelt naar verdediging.
ITBench-AA
Een AI-agent benchmark die incident response test op echte Kubernetes-infrastructuur en onthult dat frontier-modellen zoals Claude Opus 4.7 en GPT-5.5 minder dan 50% van productie-storingen oplossen.

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Activatiefunctie

Volgende

ActTail

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid