Verdieping

Zo ontwikkelde KRO-NCRV een voice-dienst voor Google Assistent [case]

0

“Hey Google, praat met Chef-kok BinnensteBuiten!” Het gros van de Nederlanders kan nu écht in eigen taal met de Google Assistent praten. Hoe ontwikkel je nu zo’n Action on Google? De afdeling Innovatie van KRO-NCRV maakte een kookhulp en vertelt over het proces en de uitdagingen.

Chef-kok BinnensteBuiten helpt je – met de stem van de chef-kok Sharon de Miranda – bij het koken van de gerechten uit het populaire tv-programma BinnensteBuiten. Het programma staat bekend als slow-tv (items van 12 minuten zijn geen uitzondering) met veel aandacht voor koken, tuinieren en interieur. Op tv is het publiek 60-plus. De bijbehorende website richt zich met name op mensen tussen de 40 en 55, dus een voice-dienst lijkt niet meteen een logische stap (al blijkt dat in de VS de gebruikers van voice assistants met name tussen de 30 en 44 oud zijn).

“Millennials zijn de early adopters van voice”, legt Vera Holland uit, zij is als product owner betrokken bij de action. “We willen het merk BinnensteBuiten en de community eromheen groter maken en een nieuwe doelgroep aan ons binden.” Daarnaast zijn er nog twee doelen voor de omroeporganisatie. “In deze tijd van veranderende media, is het voor ons belangrijk om voorop te lopen. Voice kan niet anders dan groot worden, en daar spelen we als mediabedrijf op in. We willen zijn waar ons publiek is of straks is. Maar het belangrijkste doel voor ons was om kennis over voice op te doen, zodat we die kennis later zowel intern als extern weer kunnen delen.”

voice assistent

Een voice-assistent in een browser

De ontwikkeling van de action is achteraf gezien in grofweg vijf fases te verdelen. De eerste was een design sprint van een week. Het doel was al heel duidelijk: een manier om de recepten van BinnensteBuiten te koppelen aan voice. Het was september 2017 en er was nog geen sprake van dat de Google Assistent in het Nederlands beschikbaar zou komen. Het idee na week 1 was daarom: een voice-dienst in een browser bouwen.

De volgende fase bestond uit vijf nieuwe design sprints van elk een week. Elke week werd intensief, lang en veel getest met gebruikers. De insteek: als het niet goed is, gaat het concept de prullenbak in en begint het proces opnieuw.

Chatbot vs. voicebot

De innovatie-afdeling van KRO-NCRV ontwikkelde eerder al chatbots, bijvoorbeeld een voor Facebook Messenger, die een extra verhaallijn bood bij een dramaserie op tv. Sommige ervaringen daarbij boden een basis bij de ontwikkeling van de voicebot. Bij beide diensten maak je een boomstructuur van de inhoud en teksten. Elke keuze die de gebruiker maakt, levert een nieuw ‘pad’ op. In de action Chef-kok BinnensteBuiten kun je terechtkomen in een flow van wel 150 stappen. Maar omdat je met een recept één kant op gaat raak je niet verstrikt in allerlei zijpaden.

“Maar een verschil met een tekstuele bot is dat de gebruiker van voice een boodschap niet een paar keer kan doornemen of scannen. Dat betekent dat je het in één klap goed gehoord moet hebben. Intonatie, klankkleur en een melodische flow zijn heel belangrijk. Zinnen moet je bijvoorbeeld heel duidelijk afronden, je moet de punt horen. Anders blijven mensen wachten.”

google assistent startscherm

Een ander groot verschil: bij een tekstuele bot kun je suggestion buttons inbouwen. Bij een voicebot moet je goed nadenken over hoe je opties voor kunt leggen aan de gebruiker. Gebruikt hij de voice-dienst op zijn telefoon, dan kan hij ook buttons zien. Maar dat is anders zodra de telefoon niet in zicht is of als de dienst wordt gebruikt via een smart speaker.

Wat is logisch, en vanuit welk perspectief moet je dit bekijken? En ook: welke richting wil je de gebruiker op sturen? “Als je een vraag te breed stelt, is de kans groot dat de gebruiker vastloopt.” Belangrijk hierbij is dat je niet afgaat op aannames, maar dat je uitgebreid test.

Testen: houd het klein

“We zijn heel houtje-touwtje begonnen met testen. Iemand was aan het koken, en iemand anders achter de kok noemde de stappen op. Pas in een later stadium zijn we gaan testen met opgenomen audiofragmenten. Het was verstandig om zo klein te beginnen, want daar haalden we al heel veel informatie uit. Zo ontdekten we dat te veel smalltalk het proces verstoorde. We dachten dat dit voor persoonlijkheid zou zorgen, maar het bleek dat we het heel rechttoe-rechtaan moesten houden. Juist de tone of voice en de echte stem van Sharon zorgen voor die persoonlijkheid.”

Keuze: een eigen stem

Je kunt ervoor kiezen om de teksten in te voeren in het systeem van Google, en uit te laten spreken door de Google-stem. Dat is nog duidelijk een niet-natuurlijke stem, zonder intonatie. “De Google-stem is goedkoper. Maar wij hebben gekozen om het op te nemen met onze chef-kok Sharon, om meer te personaliseren. Zo wekken we vertrouwen en komt de expert van tv nog dichterbij.” Belangrijk om in je achterhoofd te houden, als je voor deze keuze staat: mensen behandelen hun voice assistant of voice device als mens of zelfs als goede vriend.

Je denkt zelf minder na

Nog een belangrijke learning uit de tests en onderzoeken: mensen gaan heel erg leunen op de instructies van de dienst. Maar tegelijkertijd onthouden ze niet alles wat er wordt gezegd. Natuurlijk kun je zelf ook bedenken dat ongeklopte slagroom geklopt moet worden. Maar wat bleek: testers vergaten soms deze stap, waarna het recept in de soep liep. Doordat je de controle (in dit geval in de keuken) uit handen geeft aan de action, denk je zelf minder na. “Dat betekent dat je in de ontwikkeling heel goed moet nadenken over de opbouw en formulering van instructies. Wij hebben het nu als volgt opgebouwd: eerst hoor je context, dan de dingen die je nodig hebt, en vervolgens hoor je per stap maar één handeling.”

Plan voor de ijskast

Fase drie: het ontwikkelen en het technisch bouwen van de dienst. Het prototype was inhoudelijk geslaagd, maar technisch bleek het nog niet helemaal in orde. Omdat het een browser-dienst was, ontstonden er te veel restricties voor smartphones. Bijvoorbeeld met de microfoon die soms wel en soms niet te gebruiken was – uiteraard een essentieel onderdeel van de dienst. Daardoor zou het maar op een beperkt aantal telefoons beschikbaar zijn, wat inging tegen de doelstelling om een bredere doelgroep te bereiken.

Op dit punt ging het plan de ijskast in. “We hadden een goed plan liggen voor als de technische mogelijkheden voor voice groter zouden worden.” Slechts een paar weken erna kwam het nieuws dat de Google Assistent in het Nederlands beschikbaar zou worden. En toen werd één en één twee.

Voice is intuïtiever

Fase vier bestond uit opnieuw testen. Ditmaal ook met de fanbase van BinnensteBuiten, in verschillende leeftijden. Hoewel millennials de early adopters zijn, bleken tijdens de tests dat ouderen makkelijker met voice werkten dan met een scherm. “Voice is veel intuïtiever, het is de meest natuurlijke vorm om met een app te communiceren. Je praat net zoals tegen mensen.”

Live met de eerste versie

Fase vijf brak aan toen de Google Assistent beschikbaar werd voor veel Nederlanders. “We zijn nu live met een eerste versie.” Je krijgt begeleiding bij het koken, je kunt vragen naar de vorige stap, de volgende stap of een herhaling van de stap. Soms moet je keuzes maken aan de hand van vragen die Sharon je stelt, maar verder is het heel doelgericht. Je kunt bijvoorbeeld niet om extra uitleg vragen, denk aan: hoe snijd je nu het handigst een ui?”

Maar hoewel het team druk aan het doorontwikkelen is, is de action niet echt heel basic. “Doordat we kunstmatige intelligentie hebben toegevoegd en de bot hebben getraind, begrijpt ze ook context en is ze al vrij slim. Je hoeft dus niet heel sec te zeggen ‘Wat is de volgende stap?’, maar ‘Heb je de volgende voor me?’ voldoet ook.”

chef-kok binnenstebuiten close 2

Uitdaging: de microfoon

Bij de meeste informatieve actions geef je als gebruiker snel antwoord. Stelt Buienradar je de vraag van welke stad je het weerbericht wil horen, hoef je daar niet lang over na te denken. Bij een kook-action is dat anders. Je bent al gauw een paar minuten bezig met een stap. Maar de microfoon sluit na een paar seconden. Dat betekent dat je niet zomaar kunt praten als je klaar bent met de huidige stap, maar dat je eerst weer ‘Oké Google’ moet zeggen, voordat je weer verder kunt praten met Sharon. Zo’n extra stap kan een drempel vormen. “We laten Sharon heel duidelijk uitleggen dat de gebruiker haar soms weer wakker moet roepen.”

De kennis die het (multidisciplinaire) team heeft opgedaan, wordt ingezet voor nieuwe diensten. De afdeling ontwikkelt op dit moment een interactief kinderverhaal, waar kinderen invloed hebben op het verloop van het verhaal. Daarnaast is een dienst in ontwikkeling bij de talkshow van Eva Jinek. Artikelen van de site worden voorgelezen door een mix van Eva’s stem en die van de Google Assistent.

Kritische kanttekeningen bij een grote toekomst

Holland ziet een grote toekomst weggelegd voor voice. “Dit wordt de plek waar mensen content tot zich nemen, waar het publiek naartoe gaat.” Maar enkele kritische kanttekeningen heeft ze ook. Want hoe word je gevonden? “Hoe haal je je doelgroep binnen? Mensen hoeven geen app van je te downloaden, maar moeten je aanroepen. En als je ze eenmaal hebt: hoe houd je ze binnen? Je kunt geen pop-ups of pushberichten verzenden. En je kunt geen visuele aspecten gebruiken om mensen te sturen, zoals op websites.”

En ook een belangrijke: wat als er commerciële belangen gaan meespelen? “Kan jouw concurrent een voorkeurspositie krijgen, net zoals in de zoekresultaten van Google?”

Wat zijn jouw gedachten over voice en de uitdagingen waar ontwikkelaars voor staan? Ik ben benieuwd naar je ideeën, ik zie ze graag bij de comments!