
Een State-Space Model (SSM) is een AI-architectuur die datareeksen verwerkt door een invoersequentie wiskundig te projecteren in een interne "toestand," als een uiterst efficiënt alternatief voor de dominante Transformer-architectuur.
Terwijl Transformers aandacht berekenen door terug te kijken naar elk eerder gegenereerd token (wat enorme hoeveelheden geheugen en rekenkracht verbruikt naarmate de context groeit), onderhoudt een SSM een compacte, voortdurend bijwerkende samenvatting van het verleden. Wanneer nieuwe informatie binnenkomt, werkt het model selectief deze verborgen toestand bij, waarbij irrelevante data wordt vergeten en wat ertoe doet wordt behouden.
Waarom het belangrijk is
Het primaire knelpunt van moderne AI is de "contextvenster"-limiet veroorzaakt door de kwadratische schaling van Transformer-geheugen. SSM-architecturen (zoals Mamba) lossen dit op door lineair te schalen. Dit betekent dat ze oneindig lange sequenties kunnen verwerken — zoals complete code-repositories, urenlange videofeeds of persistent agentgeheugen — met hoge doorvoer en een drastisch verminderde hardwarevoetafdruk, wat complexe AI veel goedkoper maakt in gebruik.
Hoe het werkt
SSM's zijn geworteld in klassieke regeltechniek. Ze gebruiken differentiaalvergelijkingen om een invoersignaal naar een interne toestand te mappen, en vervolgens die toestand naar een output. Moderne implementaties introduceren "selectiviteit," waardoor het model dynamisch kan beslissen welke delen van de invoer te memoriseren en welke te negeren op basis van de context. Omdat de toestand een vaste grootte heeft, hoeft het model de hele geschiedenis niet in zijn actieve geheugen op te slaan tijdens generatie.
Voorbeeld
Het Holotron-12B model is een multimodale computer-use agent die een hybride architectuur gebruikt die aandachtsmechanismen combineert met State-Space Models. Door te vertrouwen op SSM's voor het afhandelen van zijn interactiegeheugen, bereikt Holotron meer dan 2x hogere doorvoer vergeleken met standaardmodellen terwijl het een drastisch verminderde geheugenvoetafdruk behoudt, waardoor het efficiënt lange geschiedenissen van multi-image desktopinteracties kan volgen en verwerken.