Juvoly maakt werken in de zorg leuker en persoonlijker
Sinds de verschijning van Careless Whisper (https://arxiv.org/abs/2402.08021) zijn er talloze artikelen verschenen op mediakanalen, maar ook op LinkedIn (zie dit bericht). In dit artikel wil ik graag delen wat Whisper is, waarom we problemen ondervinden met Whisper en hoe we hier bij Juvoly mee omgaan.
Wat is Whisper?
Whisper is een end-to-end spraakherkenningsmodel. De bron van Whisper wordt niet benoemd in de paper zelf, maar het is zeer waarschijnlijk dat het model getraind is op YouTube-data. Veel video’s zijn daar ondertiteld door de makers zelf—zeer bruikbare trainingsdata dus! Echter, TV Gelderland is een van de grootste aanbieders van video’s met ondertiteling op YouTube. Het komt daarom regelmatig voor dat Whisper aan het einde van een zin, zodra er stilte valt, de tekst “Ondertiteld door TV GELDERLAND 2021” produceert.
Whisper is beschikbaar in verschillende varianten, maar de meest gebruikte is de large versie met 1550 miljoen parameters—de helft voor de encoder en de andere helft voor de decoder. Er zijn drie versies van Whisper Large:
Whisper Large V1
Getraind op basis van de originele Whisper-dataset
Percentage foute woorden op Common Voice: 7,1%
Hallucineert het minst op audiodata
Whisper Large V2
Getraind op de Whisper-dataset met data-augmentatie
Percentage foute woorden op Common Voice: 5,8%
Hallucineert middelmatig vaak
Whisper Large V3
Getraind op YouTube-video’s die door Whisper zelf zijn ondertiteld
Percentage foute woorden op Common Voice: 4,3%