
Een Mixture-of-Experts (MoE) is een neurale netwerkarchitectuur die het totale parameteraantal van een model significant verhoogt zonder de computationele kosten tijdens inferentie evenredig te verhogen.
In plaats van elke input door alle parameters in het netwerk te laten lopen (een dense architectuur), bestaat een MoE-model uit meerdere gespecialiseerde subnetwerken die "experts" worden genoemd. Een routeringsmechanisme, of gating-netwerk, evalueert elk binnenkomend token en stuurt het dynamisch alleen naar de meest relevante expert(s) voor verwerking.
Waarom het belangrijk is
Het trainen van enorme AI-modellen vereist immense rekenkracht. MoE stelt labs in staat om modelcapaciteit en redeneervermogen op te schalen naar honderden miljarden of zelfs biljoenen parameters, terwijl inferentiekosten laag blijven. Omdat slechts een klein deel van de totale parameters (de "actieve parameters") voor elk token wordt gebruikt, kan een MoE-model veel sneller en goedkoper draaien dan een dense model van vergelijkbare totale omvang.
Hoe het werkt
In een standaard Transformer verwerkt het feedforward-netwerk (FFN) elk token. In een MoE-architectuur wordt het FFN vervangen door een set experts (bijv. 8 onafhankelijke FFN's) en een router. Wanneer een token binnenkomt, berekent de router een kansverdeling om te bepalen welke experts het meest geschikt zijn om het te verwerken. Typisch routeert het het token naar de top-k experts (vaak slechts 2 van de 8). De outputs van deze geselecteerde experts worden vervolgens gecombineerd tot het eindresultaat.
Voorbeeld
Mistral Small 4 is een zeer capabel open-weights model gebouwd op een Mixture-of-Experts architectuur. Hoewel het in totaal 119 miljard parameters heeft, gebruikt het slechts 22 miljard actieve parameters tijdens inferentie voor elk token. Deze sparse routering stelt het in staat om capaciteiten te combineren voor complex redeneren, coderen en multimodale taken, terwijl het efficiënt genoeg draait om op lokale enterprise-hardware te worden ingezet.