Onderzoek

3 concepten

Activation Steering

Een techniek die synthetische vectoren injecteert in de interne lagen van een model tijdens inferentie om besluitvorming direct bij te sturen — zowel voor nauwkeurige debiasing als voor gedragscontrole — maar die ook in staat is veiligheidstraining te omzeilen zonder jailbreak-prompt.

Advanced

Onderzoek

Latent Space Manipulation

Een klasse technieken die de interne numerieke representaties van AI-modellen rechtstreeks lezen, sturen of koppelen — in plaats van via tekst te werken — waarmee realtime alignment-audits, bias-detectie en tokenvrije inter-model communicatie mogelijk worden.

Advanced

Onderzoek

Natural Language Autoencoders

Een interpretability-techniek van Anthropic die de interne activatievectoren van een groot taalmodel automatisch vertaalt naar voor mensen leesbare tekst, waarmee pre-deployment alignment-audits en detectie van verborgen bias of bedrieglijke intentie mogelijk worden.