Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Kernconcepten
  4. Wat is Cosine Similarity?
book-openKernconcepten
Intermediate
2026-W17

Wat is Cosine Similarity?

Cosine similarity meet hoe vergelijkbaar twee vectoren zijn door de cosinus van de hoek ertussen te berekenen — de standaardmetriek voor het vergelijken van AI-embeddings.

Ook bekend als:
cosinusgelijkenis
cosine distance
vector similarity
AI Intel Pipeline
What is Cosine Similarity?

Wat is Cosine Similarity?

Cosine similarity is een wiskundige maatstaf die de gelijkenis meet tussen twee vectoren door de cosinus van de hoek ertussen te berekenen. In AI wordt het gebruikt om te meten hoe semantisch vergelijkbaar twee stukken tekst, afbeeldingen of andere data zijn — uitgedrukt als een getal tussen -1 (tegengesteld) en 1 (identiek).

Waarom het ertoe doet

Cosine similarity is de standaard manier om embeddings te vergelijken en daarmee de ruggengraat van semantische zoeken, RAG-systemen, aanbevelingsengines en clusteringalgoritmen. Elke keer dat een systeem "de meest relevante documenten" vindt of "vergelijkbare producten" aanbeveelt, draait er cosine similarity.

Hoe het werkt

De wiskunde: $$\text{cosine similarity} = \frac{A \cdot B}{\|A\| \times \|B\|}$$

Waar A·B het inproduct is en ‖A‖ en ‖B‖ de vectorlengtes (normen).

Interpretatie:

  • 1.0 — vectoren wijzen dezelfde kant op (semantisch identiek)
  • 0.0 — vectoren staan loodrecht (geen relatie)
  • -1.0 — vectoren wijzen tegengesteld (semantisch tegengesteld)

Waarom cosine en niet Euclidische afstand?

  • Cosine meet de richting, niet de lengte van vectoren
  • Twee documenten over hetzelfde onderwerp in verschillende lengte hebben hoge cosine similarity maar grote Euclidische afstand
  • In hoog-dimensionale embedding-ruimtes is cosine stabieler

Praktisch gebruik:

  • Embedding-vectoren vergelijken (OpenAI, Cohere, E5)
  • Drempelwaarde instellen: similarity > 0,85 = "relevant"
  • Top-k retrieval: sorteer op cosine similarity, neem de beste k resultaten

Wanneer cosine similarity faalt:

  • Bij zeer korte teksten (te weinig informatie voor goede embeddings)
  • Wanneer woordvolgorde cruciaal is ("hond bijt man" vs. "man bijt hond")
  • Bij out-of-domain data (embeddings getraind op Engels werken minder goed op Nederlands)

Voorbeeld

De embeddings van "De kat zit op de mat" en "Een poes rust op het kleed" hebben een cosine similarity van ~0,92 — het model herkent dat ze hetzelfde betekenen ondanks andere woorden. "Het regent vandaag" heeft een cosine similarity van ~0,15 met dezelfde zin — duidelijk een ander onderwerp.

Bronnen

  1. Pinecone – Cosine Similarity
  2. scikit-learn – Cosine Similarity

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Tokenizer
Een tokenizer zet ruwe tekst om in tokens — de discrete eenheden die een taalmodel verwerkt — met subwoordalgoritmen zoals BPE of SentencePiece.
Kunstmatige Intelligentie (AI)
Kunstmatige intelligentie is het vakgebied dat systemen bouwt die taken uitvoeren waarvoor normaal menselijke intelligentie nodig is, zoals leren, redeneren en waarnemen.
Batch Size
Batch size (voorbeelden per update) en learning rate (stapgrootte voor gewichtsupdates) zijn de twee belangrijkste hyperparameters die bepalen hoe neurale netwerken trainen.
Benchmark (AI-evaluatie)
Een benchmark is een gestandaardiseerde test om AI-modelprestaties te meten en vergelijken, met reproduceerbare scores op taken als redeneren, coderen en kennis.

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Continual Learning

Volgende

DeceptGuard

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid