
Semantic chunking is het proces van het splitsen van documenten in segmenten die betekenis en onderwerpcoherentie behouden, in plaats van te knippen op willekeurige teken- of tokengrenzen. In een Retrieval-Augmented Generation (RAG) pipeline bepaalt de kwaliteit van teruggevonden chunks direct de kwaliteit van gegenereerde antwoorden — en chunks die zinnen halverwege afbreken, een conclusie scheiden van het bewijs, of ongerelateerde onderwerpen mengen, produceren embeddings die het terugvindsysteem verwarren en antwoordkwaliteit verslechteren. Semantic chunking adresseert dit door natuurlijke onderwerpgrenzen te detecteren — paragraafwissels, sectiekoppen, dalingen in embeddingovereenkomst — en chunks te creëren die elk een compleet, zelfstandig concept vertegenwoordigen. Deze aanpak verbetert terugvindnauwkeurigheid met 20-40% vergeleken met chunks van vaste grootte, waardoor het een cruciaal onderdeel is van productiewaardige RAG-systemen.
Waarom het belangrijk is
Chunks van vaste grootte zijn de standaard in de meeste RAG-tutorials en snelle prototypes, maar ze verslechteren systematisch de terugvindkwaliteit. Wanneer een chunk van 500 tokens een juridische clausule halveert, vangt de embedding van die chunk slechts gedeeltelijke betekenis — een zoekopdracht naar "beëindigingsvoorwaarden" vindt mogelijk een chunk met het begin van de beëindigingsclausule maar niet de daadwerkelijke voorwaarden, waardoor het LLM een antwoord hallucineert. Semantic chunking zorgt ervoor dat de beëindigingsclausule één chunk is, de embedding nauwkeurig de volledige inhoud representeert, en terugvinding de complete informatie retourneert. Voor organisaties die RAG-systemen bouwen over gespecialiseerde corpora — juridische contracten, medische literatuur, technische documentatie, financiële rapporten — bepaalt het verschil tussen vaste en semantische chunking vaak of het systeem wordt vertrouwd door eindgebruikers of verlaten na een pilot. De verwerkingskosten zijn 10-20% hoger, maar de vermindering van gehallusineerde of onvolledige antwoorden maakt deze investering waardevol.
Hoe het werkt
Semantic chunking gebruikt een of meer signalen om onderwerpgrenzen te detecteren. De eenvoudigste aanpak splitst bij structuurmarkeringen — paragraafwissels, sectiekoppen, lijstgrenzen — en respecteert de originele organisatie van de auteur. Geavanceerdere methoden gebruiken embeddingovereenkomst: elke zin wordt geëmbed, en opeenvolgende zinnen worden vergeleken met cosinus-similariteit. Wanneer de overeenkomst onder een drempel daalt (wijzend op een onderwerpwissel), wordt een chunkgrens ingevoegd. De meest geavanceerde aanpak gebruikt een LLM om expliciet te identificeren waar onderwerpen veranderen. Hybride strategieën combineren deze: begin met structurele splits, voeg vervolgens kleine aangrenzende chunks over hetzelfde onderwerp samen, en splits te grote chunks op het punt van laagste embeddingovereenkomst. Optimale chunkgroottes liggen doorgaans tussen 300 en 1.000 tokens, met overlapvensters van 50-100 tokens tussen aangrenzende chunks om context bij grenzen te behouden. Elke chunkingstrategie past bij andere inhoudstypen: gestructureerde documenten profiteren van kopgebaseerd splitsen, verhalende tekst van embeddingsimilariteit, en gemengde documenten van hybride benaderingen.
Voorbeeld
Een verzekeringsmaatschappij bouwt een RAG-systeem over hun 2.400 pagina's tellende polishandboek. Met vaste chunks van 500 tokens vinden agenten die zoeken naar "dekkingsuitsluitingen voor bestaande aandoeningen" fragmenten als "…aandoeningen die bestonden vóór de ingangsdatum van de polis. Sectie 4.3: Premieberekeningen — De basispremie wordt bepaald door…" — de chunk knipt tussen de uitsluitingsclausule en de premiesectie, en het LLM genereert een antwoord dat uitsluitingsregels mengt met premieberekeningsdetails. Na overschakeling naar semantic chunking dat splitst bij sectie- en subsectiegrenzen, vindt dezelfde zoekopdracht de volledige uitsluitingsclausule als één chunk. Terugvindprecisie springt van 64% naar 91%. Het systeem gebruikt ook embeddingovereenkomst om lange secties (>1.200 tokens) te splitsen op het punt van laagste overeenkomst tussen zinnen, waardoor chunks zowel coherent als qua grootte passend blijven. Het verwerken van het handboek duurt 45 seconden langer met semantic chunking, maar het gemiddelde aantal vervolgvragen van agenten daalt met 35%, en klanttevredenheid met AI-ondersteunde antwoorden stijgt van 72% naar 89%.