
Flash Attention is een uiterst efficiënt, hardware-bewust algoritme dat is ontworpen om het aandachtmechanisme in Transformer-modellen te versnellen door te optimaliseren hoe data wordt gelezen van en geschreven naar GPU-geheugen.
Standaard aandachtsmechanismen schalen kwadratisch met de sequentielengte, wat betekent dat het verdubbelen van het contextvenster het geheugenverbruik verviervoudigt. Flash Attention lost dit op door actief de geheugenhiërarchie van de GPU te beheren. Het minimaliseert trage lees- en schrijfbewerkingen naar het High Bandwidth Memory (HBM) door operaties te fuseren en aandacht direct te berekenen in het veel snellere on-chip SRAM.
Waarom het belangrijk is
Vóór Flash Attention was het draaien van Large Language Models met grote contextvensters (bijv. 100k+ tokens) computationeel onbetaalbaar vanwege geheugenknelpunten. Door de geheugencomplexiteit te reduceren van kwadratisch naar lineair en training en inferentie 2-4x te versnellen, is Flash Attention een fundamenteel onderdeel geworden dat moderne long-context AI-modellen in staat stelt efficiënt te draaien op standaardhardware.
Hoe het werkt
Het algoritme gebruikt een techniek genaamd "tiling." In plaats van de hele aandachtsmatrix tegelijk te berekenen (wat vereist dat enorme hoeveelheden data heen en weer worden verplaatst van HBM), laadt het kleine blokken (tiles) van de query-, key- en value-matrices in het snelle SRAM. Het berekent de aandacht voor die specifieke blokken, werkt het resultaat bij en schrijft het slechts één keer terug. Dit vermindert de geheugenbandbreedte-overhead drastisch, die typisch het primaire knelpunt is in Transformer-uitvoering.
Voorbeeld
Fine-tuningframeworks zoals LLaMA Factory en Unsloth integreren Flash Attention native, zodat ontwikkelaars enorme modellen kunnen fine-tunen op consumenten-GPU's. Door Flash Attention in te schakelen, kan een ontwikkelaar een model trainen met een contextvenster van 32k tokens op één enkele GPU zonder Out-Of-Memory (OOM) fouten te veroorzaken — een taak die anders meerdere dure enterprise-GPU's zou vereisen.