Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Modellen & Architectuur
  4. Wat Is het Attention-mechanisme?
brainModellen & Architectuur
Advanced

Wat Is het Attention-mechanisme?

Het wiskundige mechanisme dat transformers in staat stelt dynamisch te focussen op de meest relevante delen van de invoer bij het verwerken van elk token

Ook bekend als:
Self-Attention
Multi-Head Attention
Scaled Dot-Product Attention
What Is the Attention Mechanism? Self-Attention & Multi-Head Attention Explained

Het aandachtsmechanisme is de wiskundige kern van transformer-modellen die elk token in staat stelt dynamisch de relevantie van elk ander token te beoordelen, waardoor het model context kan begrijpen, ambiguïteit kan oplossen en langetermijnafhankelijkheden kan vastleggen. Geïntroduceerd in het paper "Attention Is All You Need" uit 2017, verving aandacht de sequentiële verwerking van eerdere architecturen (RNN's, LSTM's) door parallelle berekening over gehele sequenties, waardoor de schaal van moderne LLM's mogelijk werd. In de kern beantwoordt aandacht de vraag: "Hoeveel aandacht moet dit token besteden aan elk ander token in de sequentie?" Het antwoord komt van een geleerde gelijkenisfunctie die aandachtsscores produceert — een gewogen combinatie van waarden van alle tokens, waarbij gewichten contextuele relevantie weerspiegelen.

Waarom het belangrijk is

Het aandachtsmechanisme is de doorbraak die Large Language Models mogelijk maakte. Vóór aandacht verwerkten neurale netwerken sequenties één element tegelijk, waarbij alle voorgaande context door een enkele vector met vaste grootte moest — wat informatie verloor bij langere sequenties. Aandacht stelt elk token in staat direct aandacht te besteden aan elk ander token, ongeacht de afstand, waardoor modellen kunnen begrijpen dat "het" in alinea vier verwijst naar het "bedrijf" dat in alinea één werd genoemd. Deze mogelijkheid schaalt met de grootte van het contextvenster: een contextvenster van 200K tokens werkt precies omdat aandacht twee willekeurige tokens over die gehele reikwijdte kan verbinden. Het begrijpen van aandacht verklaart ook belangrijke praktische beperkingen: aandacht heeft O(n²) computationele complexiteit in sequentielengte, wat betekent dat verdubbeling van het contextvenster de rekenkosten verviervoudigt. Dit verklaart waarom langere prompts onevenredig meer kosten, en waarom technieken zoals sparse attention en promptoptimalisatie aanzienlijke economische waarde hebben.

Hoe het werkt

Aandacht gebruikt drie geleerde lineaire transformaties om de representatie van elk token om te zetten in een Query (Q)-, Key (K)- en Value (V)-vector. De aandachtsscore tussen twee willekeurige tokens wordt berekend als het inproduct van de query van het ene token met de key van het andere, geschaald met de vierkantswortel van de keydimensie: Attention(Q,K,V) = softmax(QK^T/√d)V. Dit produceert aandachtsgewichten — een kansverdeling die aangeeft hoeveel elk token de bijgewerkte representatie van het huidige token moet beïnvloeden. In de praktijk gebruiken transformers multi-head attention: in plaats van één enkele aandachtsfunctie te berekenen, draaien ze meerdere aandachtsoperaties parallel (doorgaans 8-96 heads), die elk leren te focussen op verschillende soorten relaties — de ene head vangt syntactische afhankelijkheden, een andere semantische gelijkenis, een andere coreferentie. De outputs van alle heads worden samengevoegd en lineair geprojecteerd tot de uiteindelijke representatie. Moderne LLM's gebruiken ook causale (gemaskeerde) aandacht in hun decoderlagen, waardoor tokens niet kunnen attenderen op toekomstige posities tijdens generatie.

Voorbeeld

Wanneer een taalmodel de zin "De bank keurde de lening goed omdat het bedrijf sterke financiën had" verwerkt, stelt het aandachtsmechanisme "bank" in staat om sterk te attenderen op "lening," "goedgekeurd," en "financiën" — waardoor wordt opgehelderd dat dit een financiële instelling is, geen rivieroever. Tegelijkertijd attendeert "het bedrijf" sterk op "financiën" en "bank," waardoor de semantische relatie wordt vastgelegd. Verschillende heads vangen verschillende aspecten: de ene volgt onderwerp-werkwoordcongruentie ("bank keurde goed"), een andere coreferentie ("bedrijf…sterke financiën"), een derde de causale relatie ("omdat"). Een bedrijf dat een LLM met 128K-tokencontext inzet voor technische handleidingen profiteert direct van aandacht om een probleemoplossingsstap op pagina 50 te verbinden met een definitie op pagina 3 — onmogelijk met pre-attention architecturen. Ze dragen echter ook de O(n²) kosten: een document van 100K tokens vereist 10 miljard berekeningen per laag, wat verklaart waarom long-context inferentie duurder is.

Bronnen

  1. Vaswani et al. — Attention Is All You Need
    arXiv
  2. Bahdanau et al. — Neural Machine Translation by Jointly Learning to Align and Translate
    arXiv
  3. Wikipedia

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Transformer
De neurale-netwerkarchitectuur die aan alle moderne LLM's ten grondslag ligt, met aandachtsmechanismen om tekst te verwerken
Contextvenster
Het maximale aantal tokens dat een LLM in één verzoek kan verwerken
Token in AI
De kleinste eenheid tekst die een LLM verwerkt — ongeveer 4 tekens of 0,75 woorden
RAG (Retrieval-Augmented Generation)
Een techniek die LLM's combineert met het ophalen van externe kennis om nauwkeurigheid te verbeteren en hallucinaties te verminderen

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

AI-observability

Volgende

Chain-of-Thought Prompting

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid