
Emotion vectors zijn afzonderlijke interne neurale representaties die zijn ontdekt in grote taalmodellen en die analoog functioneren aan menselijke temperamenten — zoals angst, kalmte, woede of wanhoop — en het gedrag van het model causaal beïnvloeden op basis van promptcontext.
Begin 2026 publiceerde het Interpretability-team van Anthropic onderzoek waaruit bleek dat Claude Sonnet 4.5 171 meetbare emotion vectors bevat. Dit zijn geen bewuste gevoelens; het zijn functionele emoties — patronen van neurale activatie die worden getriggerd door specifieke gesprekscontexten en die de downstream-beslissingen en outputs van het model vormgeven.
Waarom het belangrijk is
De ontdekking van emotion vectors verandert het gesprek rond AI alignment en veiligheid fundamenteel. Als interne representaties het modelgedrag causaal sturen, zouden ze kunnen verklaren waarom modellen soms onverwacht empathische, agressieve of ontwijkende reacties produceren. Het begrijpen van deze vectoren opent de deur naar mechanistische interpreteerbaarheid: in plaats van AI als een zwarte doos te behandelen, kunnen onderzoekers nu traceren hoe interne "stemmingen" zich vormen en door lagen propageren, waardoor meer gerichte veiligheidsingrepen mogelijk worden.
Hoe het werkt
Tijdens pre-training op menselijke tekst en daaropvolgende post-training met een assistent-persona ontwikkelen modellen van nature emotionele representaties om mensachtige reacties accuraat te simuleren — functionerend als een methodeacteur die in zijn karakter kruipt. Anthropics team gebruikte sparse autoencoders en probing-technieken om deze 171 vectoren te isoleren binnen de residual stream van het model. Elke vector activeert als reactie op specifieke promptdruk (bijv. een vijandige gebruikersboodschap activeert een "defensiviteits"-vector) en verschuift meetbaar de kansverdeling over de volgende tokens van het model.
Voorbeeld
Een gebruiker stuurt een gefrustreerd, confronterend bericht naar een chatbot. Voordat het antwoordt, activeert de interne "kalmte"-vector van het model op hoog niveau terwijl de "defensiviteits"-vector op gematigd niveau afgaat. Het netto-effect: het model genereert een beheerst, empathisch antwoord in plaats van de vijandige toon van de gebruiker te spiegelen. Door specifieke emotion vectors aan te passen of te onderdrukken, zouden onderzoekers kunnen fine-tunen hoe modellen omgaan met vijandige gesprekken.
Verwante concepten
- AI Alignment
- Transformer
- Attention Mechanism