
Een Vision-Language Model (VLM) is een AI-modelarchitectuur die in staat is om gelijktijdig visuele en tekstuele invoer te verwerken, parsen en erover te redeneren, waardoor taken als beeldbijschriften, visueel vraag-antwoord, documentbegrip en multimodale codegeneratie mogelijk worden.
Begin 2026 evolueerden VLM's van onderzoeksprototypen naar productieklare tools met releases als IBM's Granite 4.0 Vision, Googles Gemma 4 en diverse open-weight alternatieven, waardoor VLM's zich definitief vestigden als essentiële categorie AI-modellen.
Waarom het belangrijk is
De meeste real-world informatie is niet puur tekstueel. Facturen, technische tekeningen, medische beelden, dashboards en gebruikersinterfaces vereisen allemaal visueel begrip. VLM's overbruggen de kloof tussen text-only LLM's en de visuele wereld, waardoor AI-systemen documenten kunnen lezen, grafieken interpreteren, foto's analyseren en gebruikers door visuele interfaces kunnen begeleiden — taken die voorheen aparte, gespecialiseerde computer vision-pipelines vereisten.
Hoe het werkt
Een typische VLM combineert een vision encoder (zoals een Vision Transformer of ViT) die afbeeldingen omzet in tokenvormige representaties met een taalmodelbackbone die zowel visuele als teksttokens verwerkt in een gedeeld attention-mechanisme. Training omvat pre-training op grootschalige beeld-tekstparen gevolgd door instruction tuning voor specifieke taken. Geavanceerde architecturen zoals DeepStack Injection (gebruikt in Granite 4.0 3B Vision) routeren abstracte visuele features naar eerdere Transformer-lagen en hoge-resolutie ruimtelijke details naar latere lagen, waardoor het model wordt geoptimaliseerd voor zowel algemeen scènebegrip als fijnmazige documentparsing.
Voorbeeld
Een crediteurenadministratie zet een VLM in om binnenkomende facturen te verwerken. Gebruikers uploaden een foto of scan van elk factuurformaat. De VLM leest de documentlay-out, extraheert de leveranciersnaam, regelitems, bedragen en vervaldatum, en geeft gestructureerde JSON terug — waarmee een fragiele OCR-plus-regels-pipeline wordt vervangen door één enkel model dat lay-outvariatie soepel verwerkt.
Verwante concepten
- Large Language Model (LLM)
- Transformer
- Attention Mechanism