Onderzoek
3 concepten

Activation Steering
Een techniek die synthetische vectoren injecteert in de interne lagen van een model tijdens inferentie om besluitvorming direct bij te sturen — zowel voor nauwkeurige debiasing als voor gedragscontrole — maar die ook in staat is veiligheidstraining te omzeilen zonder jailbreak-prompt.

Latent Space Manipulation
Een klasse technieken die de interne numerieke representaties van AI-modellen rechtstreeks lezen, sturen of koppelen — in plaats van via tekst te werken — waarmee realtime alignment-audits, bias-detectie en tokenvrije inter-model communicatie mogelijk worden.

Natural Language Autoencoders
Een interpretability-techniek van Anthropic die de interne activatievectoren van een groot taalmodel automatisch vertaalt naar voor mensen leesbare tekst, waarmee pre-deployment alignment-audits en detectie van verborgen bias of bedrieglijke intentie mogelijk worden.