
Chain-of-Thought (CoT) is een prompttechniek die een Large Language Model instrueert om zijn redeneerproces stap voor stap te tonen voordat het tot een definitief antwoord komt, in plaats van direct een antwoord te genereren. Door expliciet door tussenliggende redeneerstappen te werken, verbetert CoT de nauwkeurigheid van LLM's dramatisch bij taken die logica, wiskunde, meerstapsanalyse of complexe besluitvorming vereisen. De techniek werd ontdekt toen onderzoekers ontdekten dat het toevoegen van "Laten we stap voor stap nadenken" aan wiskundeprompts de nauwkeurigheid verbeterde van 17% naar 78% op standaardbenchmarks. CoT werkt omdat het het model dwingt complexe problemen te ontleden in beheersbare deelstappen, waardoor de tussenliggende tokens worden gegenereerd die de kloof overbruggen tussen vraag en antwoord — tokens die bij direct antwoorden worden overgeslagen.
Waarom het belangrijk is
CoT-prompting is een van de meest impactvolle prompt engineering-technieken, en levert vaak de grootste nauwkeurigheidswinsten op voor de laagste implementatiekosten. Zonder CoT proberen LLM's direct van vraag naar antwoord te springen — een proces analoog aan het oplossen van een complex wiskundeprobleem in je hoofd zonder iets op te schrijven. Voor taken die meerstapsredeneren, vergelijking of analyse vereisen, faalt deze directe aanpak 40-70% van de tijd. Met CoT externaliseert het model zijn redeneerproces en vangt fouten op bij elke stap voordat ze zich opstapelen. Dit is bijzonder waardevol voor bedrijfskritische applicaties (financiële analyse, juridisch redeneren, diagnostische systemen) waar de redeneertrace ook dient als controleerbare verklaring van hoe het model tot zijn conclusie kwam — essentieel voor het opbouwen van vertrouwen en het mogelijk maken van menselijk toezicht.
Hoe het werkt
CoT werkt door te veranderen wat het model genereert vóór zijn definitieve antwoord. Bij standaardprompting produceert het model direct antwoordtokens. Bij CoT genereert het model eerst redeneertokens — expliciete tussenliggende stappen, berekeningen of logische afleidingen — en produceert vervolgens het definitieve antwoord op basis van die redeneerketen. Dit kan worden getriggerd door simpele instructies ("Denk stap voor stap"), few-shot voorbeelden die redeneerketens demonstreren, of gestructureerde redeneerkaders ("Identificeer eerst de kernvariabelen. Bepaal vervolgens de relaties. Bereken daarna stap voor stap. Verifieer tot slot het resultaat."). De techniek is effectief doordat LLM's tekst sequentieel verwerken — elk gegenereerd token kan attenderen op alle voorgaande tokens, inclusief de redeneerstappen. Door tussenliggende redenering te genereren geeft het model zichzelf in feite een kladblok. Geavanceerde varianten omvatten self-consistency (meerdere redeneerketens genereren en het meerderheidsantwoord selecteren) en tree-of-thought (vertakkende redeneerpaden verkennen).
Voorbeeld
Een verzekeringsmaatschappij gebruikt een LLM om claims te analyseren en goedkeuring, afwijzing of escalatie aan te bevelen. Zonder CoT leest het model een claimbeschrijving en geeft direct een aanbeveling — met 62% overeenstemming met expertbeoordelaars. Met een CoT-promptstructuur krijgt het model de instructie: "1) Identificeer het claimtype en het toepasselijke beleid. 2) Vermeld de gedekte gebeurtenissen en uitsluitingen die relevant zijn voor deze claim. 3) Beoordeel of het beschreven incident overeenkomt met gedekte gebeurtenissen. 4) Controleer op polislimieten, eigen risico's of wachttijden. 5) Noteer ambiguïteiten die menselijke review vereisen. 6) Geef je aanbeveling met onderbouwing." Overeenstemming met expertbeoordelaars stijgt naar 87%, en de redeneertrace wordt een waardevol artefact — wanneer het model escalatie aanbeveelt, legt het precies uit welke ambiguïteit die voorzichtige beslissing triggerde, wat de menselijke beoordelaar aanzienlijke analysetijd bespaart.