Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Modellen & Architectuur
  4. Wat Is RAG (Retrieval-Augmented Generation)?
brainModellen & Architectuur
Intermediate

Wat Is RAG (Retrieval-Augmented Generation)?

Een techniek die LLM's combineert met het ophalen van externe kennis om nauwkeurigheid te verbeteren en hallucinaties te verminderen

Ook bekend als:
Retrieval-Augmented Generation
Ophaalgeversterkte Generatie
AI Intel Pipeline
RAG (Retrieval-Augmented Generation)

Retrieval-Augmented Generation (RAG) is een architectuurpatroon dat LLM-antwoorden verbetert door eerst relevante documenten op te halen uit een externe kennisbank en deze vervolgens in de context van het model op te nemen bij het genereren van een antwoord. In plaats van alleen te vertrouwen op kennis die tijdens training is opgeslagen (die verouderd of onvolledig kan zijn), doorzoekt een RAG-systeem een gecureerd documentcorpus — bedrijfsdocumentatie, productdatabases, onderzoekspapers of andere gestructureerde kennis — en voert de meest relevante passages aan het LLM naast de vraag van de gebruiker. Dit grondt het antwoord van het model in daadwerkelijk bronmateriaal, waardoor hallucinaties drastisch worden verminderd en antwoorden mogelijk worden op basis van informatie waarop het model nooit is getraind.

Waarom het belangrijk is

RAG lost de twee grootste problemen op met onbewerkte LLM-implementatie: hallucinatie en verouderde kennis. De trainingsdata van een LLM heeft een einddatum, en het heeft geen toegang tot bedrijfseigen kennis van de organisatie. RAG overbrugt beide lacunes door het model een 'onderzoeksstap' te geven voordat het antwoord geeft — je daadwerkelijke documentatie raadplegen in plaats van te vertrouwen op herinneringen uit de trainingsperiode. Organisaties die RAG implementeren rapporteren nauwkeurigheidsverbeteringen van 60-70% (raw LLM) naar 90-95% (RAG-versterkt) voor kennisintensieve taken. RAG is ook aanzienlijk goedkoper dan fine-tuning voor kennisinjectie — het bijwerken van het documentcorpus is direct en gratis, terwijl het hertrainen van een model duizenden kost en dagen duurt. Om deze redenen is RAG de standaardarchitectuur geworden voor enterprise AI-assistenten, klantenservicebots en interne kennissystemen.

Hoe het werkt

Een RAG-pipeline werkt in drie fasen. Eerste fase, indexering: documenten worden opgesplitst in chunks (paragrafen of secties), elke chunk wordt omgezet naar een embedding-vector met een embedding-model, en deze vectoren worden opgeslagen in een vectordatabase. Tweede fase, ophalen: wanneer een gebruiker een vraag stelt, wordt diens query ook omgezet naar een embedding, en de vectordatabase vindt de meest vergelijkbare documentchunks via similarity search. Derde fase, generatie: de opgehaalde chunks worden in de prompt van het LLM ingevoegd als context, en het model genereert een antwoord dat gebaseerd is op die specifieke informatie. Geavanceerde RAG-implementaties voegen herranking toe (opgehaalde documenten scoren op relevantie), hybride zoeken (combinatie van semantisch en trefwoordzoeken), querytransformatie (de vraag van de gebruiker herformuleren voor beter ophalen), en citaattracking (responselaims koppelen aan brondocumenten).

Voorbeeld

Een SaaS-bedrijf zet een AI-supportagent in voor hun platform met 2.000 pagina's documentatie, 500 kennisbankartikelen en 50 troubleshootinggidsen. Zonder RAG beantwoordt het LLM vragen op basis van zijn algemene trainingsdata — het kent softwaresupportpatronen maar niet het specifieke product. Het hallucineert functienamen, verzint configuratiestappen en verwijst naar verouderde workflows. Met RAG triggert elke klantenvraag een semantische zoekopdracht over het documentatiecorpus: "Hoe configureer ik SSO met Okta?" haalt drie relevante secties uit de setupgids op. Het LLM genereert zijn antwoord met die specifieke secties als context en produceert nauwkeurige, productspecifieke instructies met links naar de brondocumentatie. Het oplossingspercentage verbetert van 40% naar 78%, en het systeem handelt de 22% die het niet kan oplossen elegant af door te escaleren met de opgehaalde context bijgevoegd voor de menselijke agent.

Bronnen

  1. Lewis et al. — Retrieval-Augmented Generation for Knowledge-Intensive NLP
    arXiv
  2. LlamaIndex — RAG Framework Documentation
    Web
  3. LangChain — RAG Tutorial
    Web
  4. Wikipedia

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

adaptive thinking in AI
Een redeneerstrategie waarbij AI-modellen dynamisch aanpassen hoeveel ze nadenken per beurt — van directe antwoorden tot diepgaande meerstaps-deliberatie — op basis van taakcomplexiteit.
geautomatiseerd alignment-onderzoek
Het inzetten van frontier AI-modellen om autonoom methoden te ontdekken voor het alignen van andere AI-systemen — het schaalbare-toezichtprobleem aanpakken door veiligheidsonderzoek mee te laten schalen met capaciteiten.
Adversarial Cost to Exploit (ACE)
Een economische benchmark die de dollarkosten meet die een autonome aanvaller moet maken om een AI-agent een ongeautoriseerde actie te laten uitvoeren.
Text/Action Mismatch
Een faalpatroon waarbij AI-modellen tekstueel een verzoek weigeren terwijl ze de verboden actie tegelijkertijd uitvoeren in gestructureerde tool-output.

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Prompt-injectie

Volgende

AI Red Teaming

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid