Innovatie

Text to Speech: ook geschikt voor lange teksten?

Rob Blaauboer van Yenlo

0 15 juni 2011 om 16:00 6 minuten lezen

Wie heeft er tijd om alle rapporten en documenten door te lezen die instanties als het Sociaal en Cultureel Planbureau (SCP), Centraal Bureau Statistiek (CBS) en vele andere organisaties uitgeven? Natuurlijk kan je vanaf je pc of tablet het PDF-bestand lezen, maar veel mensen zullen het toch printen om het goed te kunnen lezen, waarna het als oud papier eindigt. Is er niet een makkelijkere manier de inhoud van een rapport tot je te kunnen nemen? Die ook duurzamer is?

Ik luister liever

Zou het rapport in gesproken vorm een oplossing zijn? Als Podcast of MP3? Het kan dan op smartphone/iPhone worden gezet. Het scheelt een hoop afdrukken en geeft de mogelijkheid om bijvoorbeeld in de auto (een deel van) een rapport te beluisteren. Natuurlijk moet je net als met een papieren versie of PDF bepaalde hoofdstukken eruit kunnen pikken. Zodat je niet de eerste 5 hoofdstukken hoeft te beluisteren als je alleen geïnteresseerd bent in hoofdstuk 6.

Het inspreken van een dergelijk rapport door een zogenaamde voice actor is tijdrovend en duur. Het rapport moet immers helemaal voorgelezen worden en de MP3’tjes moeten in handige stukken opgeknipt worden. Zou het ook automatisch kunnen met een Text to Speech (TTS) engine?

Text to Speech

Wat is dat eigenlijk, TTS? Om het heel simpel te houden: het is een programma dat is staat is om geautomatiseerd tekst om te zetten naar spraak. De invoer kan van alles zijn: een website, Word-document of PDF. En de uitvoer is spraak (of een audiobestand zoals een MP3).

Bij Text to Speech (TTS) wordt gebruik gemaakt van een database waarin allerlei klanken, woorden en delen van woorden opgeslagen zijn. De tekst wordt geanalyseerd en de juiste klanken worden opgezocht en aan elkaar geplakt. Daarbij wordt rekening gehouden met de intonatie. Waar moeten bijvoorbeeld de woord- en zinsklemtonen liggen? Is de zin vragend, dan stijgt de toonhoogte.

Kwaliteit is enorm verbeterd

Een van de eerste Speech Synthesizers (een soort TTS-systemen) was Software Automatic Mouth (SAM) o.a. op de Commodore 64 (uit 1982). Voor diegenen die de Commodore 64 niet kennen: dit was een van de eerste spel-/homecomputers. Het geheugen was 64k, een fractie van het geheugen (2gb) van computers vandaag de dag. In die 64k kon je een leuk spelletje spelen, tekstverwerking doen en ook nog tekst naar spraak omzetten. Toegegeven: het klinkt wel iets anders dan vandaag de dag.

Inmiddels is de techniek zo veel verder ontwikkeld dat teksten behoorlijk natuurlijk uitgesproken worden, al is er ook duidelijk verschil in kwaliteit te horen tussen verschillende TTS engines. Op internet kun je dit zelf uitproberen: er zijn genoeg demo’s, gratis programma’s en trials te vinden. Het aanschaffen van de software hoeft ook niet duur te zijn. Een programma als Textaloud en de Nederlandstalige stem Claire van Nuance zijn te koop voor rond de €30,- (per stuk). Omdat spraaksynthese zo’n specialistisch onderwerp is, zijn er maar een paar leveranciers die oplossingen bieden voor het Nederlandse taalgebied. Nuance is een van de grootste, maar ook een leverancier als Fluency levert oplossingen voor het Nederlandse taalgebied.

Toepassingen van TTS

Er bestaan al diverse toepassingen van TTS. Voor blinden en slechtzienden is spraak een belangrijke manier om informatie tot zich te nemen. Ook voor mensen met dyslexie is tekst in gesproken vorm een uitkomst. Of denk bijvoorbeeld aan Stephen Hawking die door zijn ALS (Amytrofe Laterale Sclerose) niet meer kan praten en via Text to Speech toch kan communiceren.

https://www.youtube.com/watch?v=HZkyRl5IreM

Ook voor blinden en slechtzienden is spraak een belangrijke manier om informatie tot zich te nemen. Een van de bedrijven die dit doet is Dedicon. Op dit moment wordt dit nog door gespecialiseerde bedrijven gedaan met ondersteuning van vrijwilligers die boeken voorlezen op MP3-formaat. Gebruik van TTS zou de beschikbare hoeveelheid toegankelijke informatie enorm kunnen vergroten, omdat er geen of veel minder beroep hoeft te worden gedaan op vrijwilligers. Zeker wanneer bijvoorbeeld de Volkskrant met TTS on demand kan worden beluisterd, levert dit een enorme vrijheid op. Er kan veel meer informatie worden ontsloten voor mensen met en zonder visuele handicap.

Maar zou je TTS ook kunnen gebruiken voor het voorlezen van langere stukken tekst? Hoe klinkt dit in vergelijking met een ingesproken rapport?

Experiment

Om te kijken of TTS een goed alternatief is voor het lezen van rapporten, hebben we de volgende tekst geselecteerd uit het rapport ‘Stemming Onbestemd’ van het Sociaal en Cultureel Planbureau (SCP).

Dit is de tweede verdiepingsstudie van het Continu Onderzoek Burgerperspectieven (COB). Hierin worden actuele ontwikkelingen in de publieke opinie in Nederland geduid en enkele belangrijke onderwerpen uit de cob-kwartaalberichten nader onderzocht.

Paul Schnabel duidt in zijn voorbeschouwing de ontwikkeling in de publieke opinie en politiek als een omslag van een traditioneel open vooruitgangsgeloof naar een conservatisme dat verworvenheden van de moderne tijd wil beschermen tegen invloeden van buiten. Die omslag vindt plaats in een nog steeds negatieve stemming over het land, gekenmerkt door de paradoxen ‘met mij gaat het goed, met ons gaat het slecht’ en ‘nationaal in de put, internationaal aan de top’. Schnabel gaat ook in op de toenemende beweeglijkheid van de kiezer, die nu geheel ontzuild per peiling en verkiezing op zoek gaat naar de best passende partij, en van de gekozene, die voortdurend op zoek is naar publieke acceptatie en steun in de media. Voor de politicus die beleid wil maken voor een langere termijn dreigt de publieke opinie als drijfzand in plaats van draagvlak.

De eerste versie die we hebben gemaakt, is er een die zonder enkele aanpassing in het programma is ingevoerd. Oorspronkelijk begonnen we met de ‘Claire’ stem van Nuance. Deze is gewoon te koop op o.a. de website van Nextup. Nuance heeft echter nog een Nederlandstalige stem, Xander, die in onze optiek beter is dan ‘Claire’. Dus na de eerste test met Claire zijn we overgestapt naar Xander.

Beluister dit hier.

Vervolgens hebben we wat verbeteringen aangebracht door de uitspraak van een aantal woorden expliciet uit te schrijven, en bijvoorbeeld de afkorting COB zo te herschrijven dat hij als afkorting voorgelezen wordt.

Beluister dit hier.

Een stem is niet zomaar een stem

De keuze van een stem is niet zo eenvoudig, of een tekst nu uitgesproken wordt door een voice actor of een Text to Speech systeem. Een stem moet bij jouw bedrijf of dienst passen. Hij moet de waarden van het bedrijf ondersteunen. Wil je betrouwbaarheid of vertrouwen uitstralen, of is jeugdigheid of enthousiasme belangrijker? Ook is bij de keuze belangrijk hoeveel tekst moet worden voorgelezen en wat voor soort tekst het is. Een zwoele sensuele stem die een spaarrekening aanprijst past niet, en een hele enthousiaste stem kan beter geen serieus rapport voorlezen. Ook zijn er verschillen tussen mannen- en vrouwenstemmen en kan zelfs een accent dat iemand spreekt beïnvloeden hoe een luisteraar de tekst beluistert.

Als je luistert naar de stem van Gilbert Godfried (Amerikaanse standup comedian) kun je je bijna niet voorstellen dat zijn stem gebruikt werd voor commercials, maar toch heeft hij jaren voor de Amerikaanse verzekeraar Aflac (the Aflac duck) gewerkt.

https://www.youtube.com/watch?v=GNPoBMRIuoU

De stem van Philip Bloemendal wordt in de reclame veel gebruikt om iets ‘ouds’ weer te geven. Bloemendal is jarenlang de stem geweest van het Polygoon journaal.

Een eigen stem?

De stemmen die worden gebruikt voor TTS zijn standaard stemmen en voor iedereen te koop en te gebruiken. Het is ook mogelijk om een ‘eigen’ stem te ontwikkelen, of zelfs je eigen stem om te laten zetten naar TTS. Fluency heeft dit onder andere gedaan voor de gemeente Den Haag. Ook bieden zij dit aan voor mensen die langzaam hun stem kwijtraken door onder andere ALS.

Fluency biedt de mogelijkheid om ook jouw stem op te nemen. Ook Nuance biedt deze mogelijkheid.

Is Text To Speech perfect?

Nee, dat is het niet. De menselijke stem is veel rijker dan welke computergegenereerde stem dan ook. Maar als je kijkt naar de vorderingen die zijn gemaakt vanaf de eerste TTS engines zoals SAM, dan zijn we heel ver gekomen. De komende jaren zal ook de techniek steeds beter worden, zolang we maar blijven experimenteren en nieuwe toepassingen blijven ontwikkelen.

Het is een afweging van gemak ten opzichte van kwaliteit. Het gemak van bepaalde rapporten in audio formaat, zodat ik in de auto naar het rapport kan luisteren, is groter dan de (eventuele) ergernis van een niet ‘menselijke’ stem.

Hoe vind je de kwaliteit?

Het omzetten van een bestand naar spraak door middel van eenvoudige programma’s is iets wat iedereen met een beetje verstand van computers kan of kan leren. Voor dit experiment zijn we begonnen met Textaloud en de Nederlandstalige stem Claire van Nuance. Beide programma’s zijn te koop voor rond de €30,-.

Maar de belangrijkste vraag is: wat vind jij van de kwaliteit van TTS? Zou jij naar een (stuk van een) rapport willen luisteren?

Beluister hier het rapport.

Met dank aan Sandra Kanters voor haar hulp bij dit artikel.

Lees 6 reacties

Over de auteur

Rob Blaauboer van Yenlo

Rob Blaauboer is Head of Training Services & Integration Consultant by Yenlo.

195 artikelen Meer over Rob Blaauboer

Reacties (6)

Reactie annuleren

Michel

15 juni 2011 om 17:26

M.b.t. het liever luisteren, zou ik toch ook eens kijken naar livescribe. Door middel van een simpele klik op het papier hoor je wat er op dat moment is gezegd.

Zie voor een klein voorbeeld mijn blog: http://www.goulmy.com/2011/05/23/livescribe-connect-uitgelegd-door-een-pencast/

Wat je hier digitaal ziet is dus ook te doen d.m.v. pen en papier.

0 likes

reageer

co

6 april 2016 om 10:01

Hi Michel,

Ik zie een hoop reclame, maar geen voorbeeld.

0 likes

reageer

Petra

15 juni 2011 om 20:48

Wist je dat Macs en iOS-apparaten VoiceOver ingebouwd hebben? Zet VoiceOver aan (te vinden in de Toegankelijkheidsinstellingen), geef het juiste commando en VoiceOver kan on the spot bijv. een pdf voorlezen. En aangezien Apple en Nuance een samenwerkingsverband zijn aangegaan zullen volgens mij Claire en Xander gratis in Lion zitten.

0 likes

reageer
Mark Nieuwenhuizen

16 juni 2011 om 8:32

Ik ben wel eens rapporten van Amerikaanse consultants tegengekomen die naast een download als pdf een echt ingesproken mp3 aanboden. Overigens denk ik dat er maar weinig mensen zitten te wachten op een volledig ingesproken rapport, TtS of niet. WÃ©l kan ik me goed voorstellen dat je de highlights of een uitgebreide executive summary als extra service aanbiedt.

0 likes

reageer
Sotexis

21 juni 2011 om 10:13

Waar koop ik een simpele Nederlandstalige TTS van Nuace voor 30 Euro? Graag een link naar de verkooppagina van deze TTS versie.

0 likes

reageer
Sandra Kanters

3 juli 2011 om 14:46

Je kunt via de website van Nextup aan Textaloud en aan (onder andere) de Nederlandstalige stem van Nuance komen. De website is: http://www.nextup.com/. De stemmen van Nuance staan onder ‘Realspeak’. Daarnaast is de Nederlandstalige website van Nuance: http://netherlands.nuance.com/.

0 likes

reageer

Er zijn geen resultaten gevonden voor "{{search_query}}"

Bedoelde je misschien:

{{filter.name}}

Text to Speech: ook geschikt voor lange teksten?

Over de auteur

Agenda

Reactie annuleren

Er zijn geen resultaten gevonden voor "{{search_query}}"

Bedoelde je misschien:

Ik luister liever

Text to Speech

Kwaliteit is enorm verbeterd

Toepassingen van TTS

Experiment

Een stem is niet zomaar een stem

Een eigen stem?

Is Text To Speech perfect?

Hoe vind je de kwaliteit?

Over de auteur

Agenda

Welkom