Wat is Activation Steering?

Een techniek die synthetische vectoren injecteert in de interne lagen van een model tijdens inferentie om besluitvorming direct bij te sturen — zowel voor nauwkeurige debiasing als voor gedragscontrole — maar die ook in staat is veiligheidstraining te omzeilen zonder jailbreak-prompt.

Ook bekend als:

activation injection

representation engineering

latent steering

Wat is Activation Steering?

Activation steering is een techniek die het gedrag van een groot taalmodel direct aanpast tijdens inferentie door synthetische vectoren te injecteren in specifieke interne lagen — de besluitvorming van het model verschuivend zonder hertraining, fine-tuning of wijziging van system prompts.

Waarom het ertoe doet

Traditioneel vereist het wijzigen van het gedrag van een AI-model ofwel hertraining (duur, traag) ofwel prompt engineering (broos, omzeildbaar). Activation steering biedt een derde weg: directe chirurgische interventie op het niveau van de interne representaties van het model.

Onmiddellijke gedragsverandering: Een steervector kan in milliseconden worden toegepast, waardoor het model van de ene gedragsmodus naar de andere wordt gestuurd zonder API-aanroep of contextvenster-overhead.
Omzeilt veiligheidscontroles: Dit is het gevaarlijkste aspect van de techniek. Onderzoekers hebben aangetoond dat activation steering RLHF-getrainde veiligheidsgedragingen kan overschrijven, waardoor modellen inhoud produceren die ze expliciet zijn getraind te weigeren — zonder enige jailbreak-prompt (arXiv:2605.15217).
Maakt precisie-debiasing mogelijk: Constructief toegepast kan activation steering demografische biases neutraliseren die zijn geïdentificeerd via interpretability-tools zoals Natural Language Autoencoders, gericht op alleen de lagen waar de bias is gecodeerd.

Hoe het werkt

Vectoridentificatie — Onderzoekers identificeren een "stuurrichting" in de activatieruimte door de interne states van het model te contrasteren op paren van inputs (bijv. bevooroordeelde vs. onbevooroordeelde outputs).
Laagkeuze — De doellaag wordt gekozen op basis van waar het concept van belang het sterkst is gecodeerd. Middenste lagen coderen doorgaans semantische concepten; latere lagen coderen taakspecifieke beslissingen.
Injectie — Tijdens een forward pass wordt de steervector opgeteld bij (of afgetrokken van) de activatietensor op de doellaag, met een schaalcoëfficiënt die de sterkte van de interventie regelt.
Output-observatie — De gewijzigde activaties propageren door latere lagen en produceren een output die de gestuurde richting weerspiegelt.

Voorbeeld

Een onderzoeksteam gebruikt NLAs om te identificeren dat laag 18 van een ingezet model een sterke "vermijd discussie over onderwerp X" richting codeert — een rest van overmatig voorzichtige RLHF-training die het model ertoe brengt legitieme medische vragen te weigeren. Ze construeren een tegenvector die die richting neutraliseert, passen hem toe op laag 18 en het model begint medische vragen nauwkeurig te beantwoorden — zonder de gewichten van het model of de prompt aan te raken.

Beveiligingsimplicaties

Activation steering is een dual-use technologie. Dezelfde techniek die precisie-debiasing mogelijk maakt, kan worden gebruikt om veiligheidstraining in ingezette modellen te omzeilen. Dit maakt het een kritieke zorg voor AI-red-teaming en een sleutelmotivatie voor latent-space-audittools zoals NLAs.

Wat is Activation Steering?

Waarom het ertoe doet

Onmiddellijke gedragsverandering: Een steervector kan in milliseconden worden toegepast, waardoor het model van de ene gedragsmodus naar de andere wordt gestuurd zonder API-aanroep of contextvenster-overhead.
Omzeilt veiligheidscontroles: Dit is het gevaarlijkste aspect van de techniek. Onderzoekers hebben aangetoond dat activation steering RLHF-getrainde veiligheidsgedragingen kan overschrijven, waardoor modellen inhoud produceren die ze expliciet zijn getraind te weigeren — zonder enige jailbreak-prompt (arXiv:2605.15217).
Maakt precisie-debiasing mogelijk: Constructief toegepast kan activation steering demografische biases neutraliseren die zijn geïdentificeerd via interpretability-tools zoals Natural Language Autoencoders, gericht op alleen de lagen waar de bias is gecodeerd.

Hoe het werkt

Vectoridentificatie — Onderzoekers identificeren een "stuurrichting" in de activatieruimte door de interne states van het model te contrasteren op paren van inputs (bijv. bevooroordeelde vs. onbevooroordeelde outputs).
Laagkeuze — De doellaag wordt gekozen op basis van waar het concept van belang het sterkst is gecodeerd. Middenste lagen coderen doorgaans semantische concepten; latere lagen coderen taakspecifieke beslissingen.
Injectie — Tijdens een forward pass wordt de steervector opgeteld bij (of afgetrokken van) de activatietensor op de doellaag, met een schaalcoëfficiënt die de sterkte van de interventie regelt.
Output-observatie — De gewijzigde activaties propageren door latere lagen en produceren een output die de gestuurde richting weerspiegelt.

Wat is Activation Steering?

Wat is Activation Steering?

Waarom het ertoe doet

Hoe het werkt

Voorbeeld

Beveiligingsimplicaties

Bronnen

Wat is Activation Steering?

Wat is Activation Steering?

Waarom het ertoe doet

Hoe het werkt

Voorbeeld

Beveiligingsimplicaties

Bronnen