
ActTail is een globale activatiesparsity-methode (gebaseerd op magnitude) ontworpen om de inferentie van grote taalmodellen (LLM's) te versnellen door op intelligente wijze sparsity-budgetten toe te wijzen over heterogene Transformer-gewichten.
In tegenstelling tot traditionele uniforme sparsity-methoden die hetzelfde sparsity-niveau toepassen over alle lagen, maakt ActTail gebruik van de Heavy-Tailed Self-Regularization (HT-SR) theorie om specifieke budgetten toe te wijzen aan projectielagen. Door empirische spectrale dichtheidsindicatoren te berekenen, brengt het de unieke wiskundige eigenschappen van elke laag in kaart, wat garandeert dat kritieke gewichten behouden blijven terwijl redundante activaties agressief worden weggesneden.
Waarom het belangrijk is
Naarmate LLM's opschalen, worden rekenkosten en geheugenbandbreedte enorme knelpunten. Traditionele activatiesparsity vermindert de rekentijd maar veroorzaakt vaak ernstige prestatiedegradatie (verlies in perplexity). ActTail versnelt de inferentie enorm en vermindert geheugenverplaatsingen zonder de steile nauwkeurigheidsboete van standaard uniforme toewijzing, wat de inzet van grootschalige modellen aanzienlijk kosteneffectiever maakt.
Hoe het werkt
ActTail gebruikt een TopK-selectiemechanisme dat wordt gestuurd door de statistische eigenschappen van de modelgewichten. In plaats van te gokken welke activaties moeten worden weggelaten, berekent het de empirische spectrale dichtheid om te identificeren welke lagen heavy-tailed verdelingen vertonen. Vervolgens routeert het dynamisch hogere rekenbudgetten naar de lagen die deze het meest nodig hebben, terwijl activaties in minder kritieke secties agressief worden weggesneden.
Voorbeeld
Bij evaluatie op het LLaMA-2-13B model op een extreem sparsity-niveau van 80%, bereikte ActTail een reductie van 40,1% in perplexity-degradatie vergeleken met standaard uniforme sparsity-baselines. Vergelijkbaar verminderde het op de Mistral-7B architectuur het perplexity-verlies met 9,4%, wat de effectiviteit ervan over verschillende fundamentele modellen aantoont.