
Wat is Speech AI?
Speech AI omvat AI-systemen die menselijke spraak kunnen herkennen, begrijpen en genereren. Het verbindt twee richtingen: speech-to-text (STT / spraakherkenning), dat gesproken taal omzet naar tekst, en text-to-speech (TTS / spraaksynthese), dat tekst omzet naar natuurlijk klinkende spraak.
Waarom het ertoe doet
Spraakintelligentie maakt de meest intuïtieve mens-machine-interface mogelijk — praten. Van Siri en Alexa tot real-time vertaling en AI-gegenereerde podcast-stemmen, speech AI verandert hoe we met technologie omgaan. De nieuwste TTS-modellen produceren spraak die nauwelijks van menselijke stemmen te onderscheiden is.
Hoe het werkt
Speech-to-Text (STT):
- Ontvangt audiogolfvormen
- Zet om naar spectrogrammen (visuele representatie van audio)
- Een neuraal netwerk (transformer-gebaseerd) voorspelt de tekst
- Whisper (OpenAI) — state-of-the-art open-source STT
- Google Speech-to-Text — cloud-API met real-time streaming
Text-to-Speech (TTS):
- Ontvangt tekst als input
- Genereert een mel-spectrogram
- Een vocoder zet dit om naar audiogolfvormen
- Moderne TTS genereert emotie, intonatie en pauzes