Wat is Speech AI (TTS / STT)? | AI Woordenboek

Wat is Speech AI?

Speech AI omvat AI-systemen die menselijke spraak kunnen herkennen, begrijpen en genereren. Het verbindt twee richtingen: speech-to-text (STT / spraakherkenning), dat gesproken taal omzet naar tekst, en text-to-speech (TTS / spraaksynthese), dat tekst omzet naar natuurlijk klinkende spraak.

Waarom het ertoe doet

Spraakintelligentie maakt de meest intuïtieve mens-machine-interface mogelijk — praten. Van Siri en Alexa tot real-time vertaling en AI-gegenereerde podcast-stemmen, speech AI verandert hoe we met technologie omgaan. De nieuwste TTS-modellen produceren spraak die nauwelijks van menselijke stemmen te onderscheiden is.

Hoe het werkt

Speech-to-Text (STT):

Ontvangt audiogolfvormen
Zet om naar spectrogrammen (visuele representatie van audio)
Een neuraal netwerk (transformer-gebaseerd) voorspelt de tekst
Whisper (OpenAI) — state-of-the-art open-source STT
Google Speech-to-Text — cloud-API met real-time streaming

Text-to-Speech (TTS):

Ontvangt tekst als input
Genereert een mel-spectrogram
Een vocoder zet dit om naar audiogolfvormen
Moderne TTS genereert emotie, intonatie en pauzes

Moderne speech AI-modellen:

Whisper — multilinguaal STT, vertaling in 99 talen
ElevenLabs — ultrarealistisch TTS met stem-kloning
GPT-4o — native audio-invoer en -uitvoer, real-time conversatie
NotebookLM Audio — genereert complete podcast-afleveringen uit documenten

Uitdagingen:

Accenten, dialecten en achtergrondgeluid
Meertalige spraak (code-switching)
Emotionele nuance behouden in TTS
Ethische zorgen rond stemkloning en deepfake-audio

Voorbeeld

Google Translate's conversatiemodus combineert speech AI bidirectioneel: je spreekt Nederlands, STT transcribeert het, het taalmodel vertaalt naar het Spaans, en TTS spreekt de Spaanse vertaling uit — alles in real-time, waardoor je een gesprek kunt voeren met iemand die alleen Spaans spreekt.

Wat is Speech AI?

Waarom het ertoe doet

Hoe het werkt

Speech-to-Text (STT):

Ontvangt audiogolfvormen
Zet om naar spectrogrammen (visuele representatie van audio)
Een neuraal netwerk (transformer-gebaseerd) voorspelt de tekst
Whisper (OpenAI) — state-of-the-art open-source STT
Google Speech-to-Text — cloud-API met real-time streaming

Text-to-Speech (TTS):

Ontvangt tekst als input
Genereert een mel-spectrogram
Een vocoder zet dit om naar audiogolfvormen
Moderne TTS genereert emotie, intonatie en pauzes

Moderne speech AI-modellen:

Whisper — multilinguaal STT, vertaling in 99 talen
ElevenLabs — ultrarealistisch TTS met stem-kloning
GPT-4o — native audio-invoer en -uitvoer, real-time conversatie
NotebookLM Audio — genereert complete podcast-afleveringen uit documenten

Uitdagingen:

Accenten, dialecten en achtergrondgeluid
Meertalige spraak (code-switching)
Emotionele nuance behouden in TTS
Ethische zorgen rond stemkloning en deepfake-audio

Wat is Speech AI?

Wat is Speech AI?

Waarom het ertoe doet

Hoe het werkt

Voorbeeld

Bronnen

Wat is Speech AI?

Wat is Speech AI?

Waarom het ertoe doet

Hoe het werkt

Voorbeeld

Bronnen