Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Tools & Frameworks
  4. Wat Is Semantisch Chunken?
wrenchTools & Frameworks
Intermediate

Wat Is Semantisch Chunken?

Het splitsen van documenten in betekenisbehoudende segmenten op basis van onderwerpgrenzen in plaats van vaste tekenlimieten — verbetert RAG-terugvindnauwkeurigheid met 20-40%

Ook bekend als:
Semantisch Segmenteren
Content-aware Chunking
Intelligent Chunking
What Is Semantic Chunking? Splitting Documents by Meaning for Better RAG

Semantic chunking is het proces van het splitsen van documenten in segmenten die betekenis en onderwerpcoherentie behouden, in plaats van te knippen op willekeurige teken- of tokengrenzen. In een Retrieval-Augmented Generation (RAG) pipeline bepaalt de kwaliteit van teruggevonden chunks direct de kwaliteit van gegenereerde antwoorden — en chunks die zinnen halverwege afbreken, een conclusie scheiden van het bewijs, of ongerelateerde onderwerpen mengen, produceren embeddings die het terugvindsysteem verwarren en antwoordkwaliteit verslechteren. Semantic chunking adresseert dit door natuurlijke onderwerpgrenzen te detecteren — paragraafwissels, sectiekoppen, dalingen in embeddingovereenkomst — en chunks te creëren die elk een compleet, zelfstandig concept vertegenwoordigen. Deze aanpak verbetert terugvindnauwkeurigheid met 20-40% vergeleken met chunks van vaste grootte, waardoor het een cruciaal onderdeel is van productiewaardige RAG-systemen.

Waarom het belangrijk is

Chunks van vaste grootte zijn de standaard in de meeste RAG-tutorials en snelle prototypes, maar ze verslechteren systematisch de terugvindkwaliteit. Wanneer een chunk van 500 tokens een juridische clausule halveert, vangt de embedding van die chunk slechts gedeeltelijke betekenis — een zoekopdracht naar "beëindigingsvoorwaarden" vindt mogelijk een chunk met het begin van de beëindigingsclausule maar niet de daadwerkelijke voorwaarden, waardoor het LLM een antwoord hallucineert. Semantic chunking zorgt ervoor dat de beëindigingsclausule één chunk is, de embedding nauwkeurig de volledige inhoud representeert, en terugvinding de complete informatie retourneert. Voor organisaties die RAG-systemen bouwen over gespecialiseerde corpora — juridische contracten, medische literatuur, technische documentatie, financiële rapporten — bepaalt het verschil tussen vaste en semantische chunking vaak of het systeem wordt vertrouwd door eindgebruikers of verlaten na een pilot. De verwerkingskosten zijn 10-20% hoger, maar de vermindering van gehallusineerde of onvolledige antwoorden maakt deze investering waardevol.

Hoe het werkt

Semantic chunking gebruikt een of meer signalen om onderwerpgrenzen te detecteren. De eenvoudigste aanpak splitst bij structuurmarkeringen — paragraafwissels, sectiekoppen, lijstgrenzen — en respecteert de originele organisatie van de auteur. Geavanceerdere methoden gebruiken embeddingovereenkomst: elke zin wordt geëmbed, en opeenvolgende zinnen worden vergeleken met cosinus-similariteit. Wanneer de overeenkomst onder een drempel daalt (wijzend op een onderwerpwissel), wordt een chunkgrens ingevoegd. De meest geavanceerde aanpak gebruikt een LLM om expliciet te identificeren waar onderwerpen veranderen. Hybride strategieën combineren deze: begin met structurele splits, voeg vervolgens kleine aangrenzende chunks over hetzelfde onderwerp samen, en splits te grote chunks op het punt van laagste embeddingovereenkomst. Optimale chunkgroottes liggen doorgaans tussen 300 en 1.000 tokens, met overlapvensters van 50-100 tokens tussen aangrenzende chunks om context bij grenzen te behouden. Elke chunkingstrategie past bij andere inhoudstypen: gestructureerde documenten profiteren van kopgebaseerd splitsen, verhalende tekst van embeddingsimilariteit, en gemengde documenten van hybride benaderingen.

Voorbeeld

Een verzekeringsmaatschappij bouwt een RAG-systeem over hun 2.400 pagina's tellende polishandboek. Met vaste chunks van 500 tokens vinden agenten die zoeken naar "dekkingsuitsluitingen voor bestaande aandoeningen" fragmenten als "…aandoeningen die bestonden vóór de ingangsdatum van de polis. Sectie 4.3: Premieberekeningen — De basispremie wordt bepaald door…" — de chunk knipt tussen de uitsluitingsclausule en de premiesectie, en het LLM genereert een antwoord dat uitsluitingsregels mengt met premieberekeningsdetails. Na overschakeling naar semantic chunking dat splitst bij sectie- en subsectiegrenzen, vindt dezelfde zoekopdracht de volledige uitsluitingsclausule als één chunk. Terugvindprecisie springt van 64% naar 91%. Het systeem gebruikt ook embeddingovereenkomst om lange secties (>1.200 tokens) te splitsen op het punt van laagste overeenkomst tussen zinnen, waardoor chunks zowel coherent als qua grootte passend blijven. Het verwerken van het handboek duurt 45 seconden langer met semantic chunking, maar het gemiddelde aantal vervolgvragen van agenten daalt met 35%, en klanttevredenheid met AI-ondersteunde antwoorden stijgt van 72% naar 89%.

Bronnen

  1. Kamradt — Five Levels of Text Splitting
    arXiv
  2. LlamaIndex — Semantic Splitter Documentation

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Embedding
Een numerieke vector die de semantische betekenis van tekst vastlegt, waardoor zoekopdrachten op gelijkenis mogelijk worden
RAG (Retrieval-Augmented Generation)
Een techniek die LLM's combineert met het ophalen van externe kennis om nauwkeurigheid te verbeteren en hallucinaties te verminderen
Vectordatabase
Een gespecialiseerde database voor het opslaan en doorzoeken van embedding-vectoren, waarmee semantisch zoeken op gelijkenis mogelijk wordt
Agent Browser Protocol (ABP)
Open-source aangepaste Chromium die het web pauzeert tussen AI-agentstappen, met 90%+ reproduceerbaar automatiseringssucces.

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Schalingswetten voor LLM's

Volgende

Temperature in AI

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid