Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Modellen & Architectuur
  4. Wat Is RAG (Retrieval-Augmented Generation)?
brainModellen & Architectuur
Intermediate

Wat Is RAG (Retrieval-Augmented Generation)?

Een techniek die LLM's combineert met het ophalen van externe kennis om nauwkeurigheid te verbeteren en hallucinaties te verminderen

Ook bekend als:
Retrieval-Augmented Generation
Ophaalgeversterkte Generatie
RAG (Retrieval-Augmented Generation)

Retrieval-Augmented Generation (RAG) is een architectuurpatroon dat LLM-antwoorden verbetert door eerst relevante documenten op te halen uit een externe kennisbank en deze vervolgens in de context van het model op te nemen bij het genereren van een antwoord. In plaats van alleen te vertrouwen op kennis die tijdens training is opgeslagen (die verouderd of onvolledig kan zijn), doorzoekt een RAG-systeem een gecureerd documentcorpus — bedrijfsdocumentatie, productdatabases, onderzoekspapers of andere gestructureerde kennis — en voert de meest relevante passages aan het LLM naast de vraag van de gebruiker. Dit grondt het antwoord van het model in daadwerkelijk bronmateriaal, waardoor hallucinaties drastisch worden verminderd en antwoorden mogelijk worden op basis van informatie waarop het model nooit is getraind.

Waarom het belangrijk is

RAG lost de twee grootste problemen op met onbewerkte LLM-implementatie: hallucinatie en verouderde kennis. De trainingsdata van een LLM heeft een einddatum, en het heeft geen toegang tot bedrijfseigen kennis van de organisatie. RAG overbrugt beide lacunes door het model een 'onderzoeksstap' te geven voordat het antwoord geeft — je daadwerkelijke documentatie raadplegen in plaats van te vertrouwen op herinneringen uit de trainingsperiode. Organisaties die RAG implementeren rapporteren nauwkeurigheidsverbeteringen van 60-70% (raw LLM) naar 90-95% (RAG-versterkt) voor kennisintensieve taken. RAG is ook aanzienlijk goedkoper dan fine-tuning voor kennisinjectie — het bijwerken van het documentcorpus is direct en gratis, terwijl het hertrainen van een model duizenden kost en dagen duurt. Om deze redenen is RAG de standaardarchitectuur geworden voor enterprise AI-assistenten, klantenservicebots en interne kennissystemen.

Hoe het werkt

Een RAG-pipeline werkt in drie fasen. Eerste fase, indexering: documenten worden opgesplitst in chunks (paragrafen of secties), elke chunk wordt omgezet naar een embedding-vector met een embedding-model, en deze vectoren worden opgeslagen in een vectordatabase. Tweede fase, ophalen: wanneer een gebruiker een vraag stelt, wordt diens query ook omgezet naar een embedding, en de vectordatabase vindt de meest vergelijkbare documentchunks via similarity search. Derde fase, generatie: de opgehaalde chunks worden in de prompt van het LLM ingevoegd als context, en het model genereert een antwoord dat gebaseerd is op die specifieke informatie. Geavanceerde RAG-implementaties voegen herranking toe (opgehaalde documenten scoren op relevantie), hybride zoeken (combinatie van semantisch en trefwoordzoeken), querytransformatie (de vraag van de gebruiker herformuleren voor beter ophalen), en citaattracking (responselaims koppelen aan brondocumenten).

Voorbeeld

Een SaaS-bedrijf zet een AI-supportagent in voor hun platform met 2.000 pagina's documentatie, 500 kennisbankartikelen en 50 troubleshootinggidsen. Zonder RAG beantwoordt het LLM vragen op basis van zijn algemene trainingsdata — het kent softwaresupportpatronen maar niet het specifieke product. Het hallucineert functienamen, verzint configuratiestappen en verwijst naar verouderde workflows. Met RAG triggert elke klantenvraag een semantische zoekopdracht over het documentatiecorpus: "Hoe configureer ik SSO met Okta?" haalt drie relevante secties uit de setupgids op. Het LLM genereert zijn antwoord met die specifieke secties als context en produceert nauwkeurige, productspecifieke instructies met links naar de brondocumentatie. Het oplossingspercentage verbetert van 40% naar 78%, en het systeem handelt de 22% die het niet kan oplossen elegant af door te escaleren met de opgehaalde context bijgevoegd voor de menselijke agent.

Bronnen

  1. Lewis et al. — Retrieval-Augmented Generation for Knowledge-Intensive NLP
    arXiv
  2. LlamaIndex — RAG Framework Documentation
    Web
  3. LangChain — RAG Tutorial
    Web
  4. Wikipedia

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Agentic RAG
RAG waarbij een autonome agent het ophaalproces bestuurt — iteratief zoeken, queries verfijnen en bronnen kruislings verifiëren.
Vectordatabase
Een gespecialiseerde database voor het opslaan en doorzoeken van embedding-vectoren, waarmee semantisch zoeken op gelijkenis mogelijk wordt
AI-hallucinatie
Wanneer een LLM met vertrouwen onjuiste of verzonnen informatie genereert
Embedding
Een numerieke vector die de semantische betekenis van tekst vastlegt, waardoor zoekopdrachten op gelijkenis mogelijk worden
Contextvenster
Het maximale aantal tokens dat een LLM in één verzoek kan verwerken
Grounding in AI
Het verankeren van LLM-antwoorden aan geverifieerde externe bronnen om hallucinaties te verminderen en citatie mogelijk te maken
Semantisch Chunken
Het splitsen van documenten in betekenisbehoudende segmenten op basis van onderwerpgrenzen in plaats van vaste tekenlimieten — verbetert RAG-terugvindnauwkeurigheid met 20-40%

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Prompt-injectie

Volgende

AI Red Teaming

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid