
Temperature is een parameter die de willekeurigheid en creativiteit van de output van een Large Language Model regelt. Het bereik loopt doorgaans van 0,0 tot 2,0, waarbij 0,0 volledig deterministische output produceert (altijd het token met de hoogste waarschijnlijkheid selecteert) en hogere waarden toenemende willekeurigheid introduceren door de kansverdeling over mogelijke volgende tokens af te vlakken. Temperature is een van de meest impactvolle inferentieparameters die gebruikers kunnen aanpassen zonder de prompt te wijzigen — het bepaalt direct of output voorspelbaar is of divers en verkennend. Elke grote LLM-API stelt temperature beschikbaar als kernparameter naast top-p en max tokens.
Waarom het belangrijk is
Temperature is de primaire hefboom voor het balanceren van consistentie versus creativiteit in AI-applicaties. Voor taken die betrouwbaarheid vereisen — gestructureerde data-extractie, classificatie, codegeneratie, feitelijke Q&A — zorgt een temperature nabij 0,0 dat het model dezelfde output produceert voor dezelfde invoer. Voor creatieve taken — brainstormen, marketingteksten, verhalen schrijven — produceert een temperature van 0,7-1,0 diverse en verrassende output. De verkeerde temperature kiezen kan een volledige applicatie ondermijnen: een klantenservicebot op temperature 1,0 geeft inconsistente antwoorden die vertrouwen ondermijnen, terwijl een creatieve schrijfassistent op temperature 0,0 saaie, repetitieve tekst produceert. Voor productiesystemen is temperature vaak de eerste parameter die wordt afgestemd na de prompt zelf, en het juist instellen ervan kan de waargenomen kwaliteit meer verbeteren dan welke promptwijziging dan ook.
Hoe het werkt
Temperature wijzigt de kansverdeling over het vocabulaire van het model voordat het volgende token wordt geselecteerd. Tijdens inferentie produceert het model ruwe scores (logits) voor elk mogelijk volgend token. Deze logits worden gedeeld door de temperaturewaarde voordat ze door de softmax-functie gaan, die ze omzet in kansen. Een lage temperature (bijv. 0,1) deelt door een klein getal, waardoor verschillen tussen logits worden versterkt — het hoogstscorende token domineert met bijna 100% waarschijnlijkheid. Een hoge temperature (bijv. 1,5) deelt door een groter getal, waardoor verschillen worden samengedrukt — tokens met lagere waarschijnlijkheid krijgen een betekenisvolle kans om geselecteerd te worden. Bij temperature 0,0 kiest het model altijd het enkele token met de hoogste waarschijnlijkheid (greedy decoding). Temperature interacteert met andere samplingparameters zoals top-p (nucleus sampling) en top-k, die verder beperken welke tokens in aanmerking komen voor selectie.
Voorbeeld
Een marketingbureau gebruikt hetzelfde LLM voor twee workflows. Hun SEO-metagenerator draait op temperature 0,1 — en produceert consistente, zoekwoordgeoptimaliseerde titels en beschrijvingen die geautomatiseerde kwaliteitscontroles doorstaan zonder handmatige review. Hun creatieve campagne-brainstormtool draait op temperature 0,9 — en genereert diverse taglinevariaties, onverwachte invalshoeken en nieuwe metaforen die copywriters als grondstof gebruiken. Toen ze per ongeluk de instellingen verwisselden, begon de SEO-tool inconsistente metadata te produceren die hun geautomatiseerde pipeline brak, terwijl de brainstormtool veilige, generieke suggesties teruggaf die het creatieve team nutteloos vond. Het herstellen van de correcte temperature-instellingen loste beide workflows onmiddellijk op, wat demonstreert hoe deze enkele parameter bepaalt of een LLM-applicatie slaagt of faalt in haar specifieke doel.