Text to Speech: ook geschikt voor lange teksten?
Wie heeft er tijd om alle rapporten en documenten door te lezen die instanties als het Sociaal en Cultureel Planbureau (SCP), Centraal Bureau Statistiek (CBS) en vele andere organisaties uitgeven? Natuurlijk kan je vanaf je pc of tablet het PDF-bestand lezen, maar veel mensen zullen het toch printen om het goed te kunnen lezen, waarna het als oud papier eindigt. Is er niet een makkelijkere manier de inhoud van een rapport tot je te kunnen nemen? Die ook duurzamer is?
Ik luister liever
Zou het rapport in gesproken vorm een oplossing zijn? Als Podcast of MP3? Het kan dan op smartphone/iPhone worden gezet. Het scheelt een hoop afdrukken en geeft de mogelijkheid om bijvoorbeeld in de auto (een deel van) een rapport te beluisteren. Natuurlijk moet je net als met een papieren versie of PDF bepaalde hoofdstukken eruit kunnen pikken. Zodat je niet de eerste 5 hoofdstukken hoeft te beluisteren als je alleen geïnteresseerd bent in hoofdstuk 6.
Het inspreken van een dergelijk rapport door een zogenaamde voice actor is tijdrovend en duur. Het rapport moet immers helemaal voorgelezen worden en de MP3’tjes moeten in handige stukken opgeknipt worden. Zou het ook automatisch kunnen met een Text to Speech (TTS) engine?
Text to Speech
Wat is dat eigenlijk, TTS? Om het heel simpel te houden: het is een programma dat is staat is om geautomatiseerd tekst om te zetten naar spraak. De invoer kan van alles zijn: een website, Word-document of PDF. En de uitvoer is spraak (of een audiobestand zoals een MP3).
Bij Text to Speech (TTS) wordt gebruik gemaakt van een database waarin allerlei klanken, woorden en delen van woorden opgeslagen zijn. De tekst wordt geanalyseerd en de juiste klanken worden opgezocht en aan elkaar geplakt. Daarbij wordt rekening gehouden met de intonatie. Waar moeten bijvoorbeeld de woord- en zinsklemtonen liggen? Is de zin vragend, dan stijgt de toonhoogte.
Kwaliteit is enorm verbeterd
Een van de eerste Speech Synthesizers (een soort TTS-systemen) was Software Automatic Mouth (SAM) o.a. op de Commodore 64 (uit 1982). Voor diegenen die de Commodore 64 niet kennen: dit was een van de eerste spel-/homecomputers. Het geheugen was 64k, een fractie van het geheugen (2gb) van computers vandaag de dag. In die 64k kon je een leuk spelletje spelen, tekstverwerking doen en ook nog tekst naar spraak omzetten. Toegegeven: het klinkt wel iets anders dan vandaag de dag.
Inmiddels is de techniek zo veel verder ontwikkeld dat teksten behoorlijk natuurlijk uitgesproken worden, al is er ook duidelijk verschil in kwaliteit te horen tussen verschillende TTS engines. Op internet kun je dit zelf uitproberen: er zijn genoeg demo’s, gratis programma’s en trials te vinden. Het aanschaffen van de software hoeft ook niet duur te zijn. Een programma als Textaloud en de Nederlandstalige stem Claire van Nuance zijn te koop voor rond de €30,- (per stuk). Omdat spraaksynthese zo’n specialistisch onderwerp is, zijn er maar een paar leveranciers die oplossingen bieden voor het Nederlandse taalgebied. Nuance is een van de grootste, maar ook een leverancier als Fluency levert oplossingen voor het Nederlandse taalgebied.
Toepassingen van TTS
Er bestaan al diverse toepassingen van TTS. Voor blinden en slechtzienden is spraak een belangrijke manier om informatie tot zich te nemen. Ook voor mensen met dyslexie is tekst in gesproken vorm een uitkomst. Of denk bijvoorbeeld aan Stephen Hawking die door zijn ALS (Amytrofe Laterale Sclerose) niet meer kan praten en via Text to Speech toch kan communiceren.
https://www.youtube.com/watch?v=HZkyRl5IreM
Ook voor blinden en slechtzienden is spraak een belangrijke manier om informatie tot zich te nemen. Een van de bedrijven die dit doet is Dedicon. Op dit moment wordt dit nog door gespecialiseerde bedrijven gedaan met ondersteuning van vrijwilligers die boeken voorlezen op MP3-formaat. Gebruik van TTS zou de beschikbare hoeveelheid toegankelijke informatie enorm kunnen vergroten, omdat er geen of veel minder beroep hoeft te worden gedaan op vrijwilligers. Zeker wanneer bijvoorbeeld de Volkskrant met TTS on demand kan worden beluisterd, levert dit een enorme vrijheid op. Er kan veel meer informatie worden ontsloten voor mensen met en zonder visuele handicap.
Maar zou je TTS ook kunnen gebruiken voor het voorlezen van langere stukken tekst? Hoe klinkt dit in vergelijking met een ingesproken rapport?
Experiment
Om te kijken of TTS een goed alternatief is voor het lezen van rapporten, hebben we de volgende tekst geselecteerd uit het rapport ‘Stemming Onbestemd’ van het Sociaal en Cultureel Planbureau (SCP).
Dit is de tweede verdiepingsstudie van het Continu Onderzoek Burgerperspectieven (COB). Hierin worden actuele ontwikkelingen in de publieke opinie in Nederland geduid en enkele belangrijke onderwerpen uit de cob-kwartaalberichten nader onderzocht.
Paul Schnabel duidt in zijn voorbeschouwing de ontwikkeling in de publieke opinie en politiek als een omslag van een traditioneel open vooruitgangsgeloof naar een conservatisme dat verworvenheden van de moderne tijd wil beschermen tegen invloeden van buiten. Die omslag vindt plaats in een nog steeds negatieve stemming over het land, gekenmerkt door de paradoxen ‘met mij gaat het goed, met ons gaat het slecht’ en ‘nationaal in de put, internationaal aan de top’. Schnabel gaat ook in op de toenemende beweeglijkheid van de kiezer, die nu geheel ontzuild per peiling en verkiezing op zoek gaat naar de best passende partij, en van de gekozene, die voortdurend op zoek is naar publieke acceptatie en steun in de media. Voor de politicus die beleid wil maken voor een langere termijn dreigt de publieke opinie als drijfzand in plaats van draagvlak.
De eerste versie die we hebben gemaakt, is er een die zonder enkele aanpassing in het programma is ingevoerd. Oorspronkelijk begonnen we met de ‘Claire’ stem van Nuance. Deze is gewoon te koop op o.a. de website van Nextup. Nuance heeft echter nog een Nederlandstalige stem, Xander, die in onze optiek beter is dan ‘Claire’. Dus na de eerste test met Claire zijn we overgestapt naar Xander.
Vervolgens hebben we wat verbeteringen aangebracht door de uitspraak van een aantal woorden expliciet uit te schrijven, en bijvoorbeeld de afkorting COB zo te herschrijven dat hij als afkorting voorgelezen wordt.
Een stem is niet zomaar een stem
De keuze van een stem is niet zo eenvoudig, of een tekst nu uitgesproken wordt door een voice actor of een Text to Speech systeem. Een stem moet bij jouw bedrijf of dienst passen. Hij moet de waarden van het bedrijf ondersteunen. Wil je betrouwbaarheid of vertrouwen uitstralen, of is jeugdigheid of enthousiasme belangrijker? Ook is bij de keuze belangrijk hoeveel tekst moet worden voorgelezen en wat voor soort tekst het is. Een zwoele sensuele stem die een spaarrekening aanprijst past niet, en een hele enthousiaste stem kan beter geen serieus rapport voorlezen. Ook zijn er verschillen tussen mannen- en vrouwenstemmen en kan zelfs een accent dat iemand spreekt beïnvloeden hoe een luisteraar de tekst beluistert.
Als je luistert naar de stem van Gilbert Godfried (Amerikaanse standup comedian) kun je je bijna niet voorstellen dat zijn stem gebruikt werd voor commercials, maar toch heeft hij jaren voor de Amerikaanse verzekeraar Aflac (the Aflac duck) gewerkt.
https://www.youtube.com/watch?v=GNPoBMRIuoU
De stem van Philip Bloemendal wordt in de reclame veel gebruikt om iets ‘ouds’ weer te geven. Bloemendal is jarenlang de stem geweest van het Polygoon journaal.
Een eigen stem?
De stemmen die worden gebruikt voor TTS zijn standaard stemmen en voor iedereen te koop en te gebruiken. Het is ook mogelijk om een ‘eigen’ stem te ontwikkelen, of zelfs je eigen stem om te laten zetten naar TTS. Fluency heeft dit onder andere gedaan voor de gemeente Den Haag. Ook bieden zij dit aan voor mensen die langzaam hun stem kwijtraken door onder andere ALS.
Fluency biedt de mogelijkheid om ook jouw stem op te nemen. Ook Nuance biedt deze mogelijkheid.
Is Text To Speech perfect?
Nee, dat is het niet. De menselijke stem is veel rijker dan welke computergegenereerde stem dan ook. Maar als je kijkt naar de vorderingen die zijn gemaakt vanaf de eerste TTS engines zoals SAM, dan zijn we heel ver gekomen. De komende jaren zal ook de techniek steeds beter worden, zolang we maar blijven experimenteren en nieuwe toepassingen blijven ontwikkelen.
Het is een afweging van gemak ten opzichte van kwaliteit. Het gemak van bepaalde rapporten in audio formaat, zodat ik in de auto naar het rapport kan luisteren, is groter dan de (eventuele) ergernis van een niet ‘menselijke’ stem.
Hoe vind je de kwaliteit?
Het omzetten van een bestand naar spraak door middel van eenvoudige programma’s is iets wat iedereen met een beetje verstand van computers kan of kan leren. Voor dit experiment zijn we begonnen met Textaloud en de Nederlandstalige stem Claire van Nuance. Beide programma’s zijn te koop voor rond de €30,-.
Maar de belangrijkste vraag is: wat vind jij van de kwaliteit van TTS? Zou jij naar een (stuk van een) rapport willen luisteren?
Met dank aan Sandra Kanters voor haar hulp bij dit artikel.