18 December 2025

Juvoly maakt werken in de zorg leuker en persoonlijker

verschenen op 27 oktober 2024 LinkedIn https://www.linkedin.com/pulse/hallucinerende-spraakherkenning-thomas-kluiters-wqgqe

Sinds de verschijning van Careless Whisper (https://arxiv.org/abs/2402.08021) zijn er talloze artikelen verschenen op mediakanalen, maar ook op LinkedIn (zie dit bericht). In dit artikel wil ik graag delen wat Whisper is, waarom we problemen ondervinden met Whisper en hoe we hier bij Juvoly mee omgaan.

Wat is Whisper?

Whisper is een end-to-end spraakherkenningsmodel. De bron van Whisper wordt niet benoemd in de paper zelf, maar het is zeer waarschijnlijk dat het model getraind is op YouTube-data. Veel video’s zijn daar ondertiteld door de makers zelf—zeer bruikbare trainingsdata dus! Echter, TV Gelderland is een van de grootste aanbieders van video’s met ondertiteling op YouTube. Het komt daarom regelmatig voor dat Whisper aan het einde van een zin, zodra er stilte valt, de tekst “Ondertiteld door TV GELDERLAND 2021” produceert.

Whisper is beschikbaar in verschillende varianten, maar de meest gebruikte is de large versie met 1550 miljoen parameters—de helft voor de encoder en de andere helft voor de decoder. Er zijn drie versies van Whisper Large:

Whisper Large V1

Getraind op basis van de originele Whisper-dataset

Percentage foute woorden op Common Voice: 7,1%

Hallucineert het minst op audiodata

Whisper Large V2

Getraind op de Whisper-dataset met data-augmentatie

Percentage foute woorden op Common Voice: 5,8%

Hallucineert middelmatig vaak

Whisper Large V3

Getraind op YouTube-video’s die door Whisper zelf zijn ondertiteld

Percentage foute woorden op Common Voice: 4,3%