Hoe de waarheid een vlucht neemt door audio- en videotechniek
Column – Mooi gezegd, door Robbert Dijkgraaf in de NRC van afgelopen zaterdag. Het gaat over het kantelpunt waar we in de wetenschap op staan. We kunnen niet alleen DNA lezen, we kunnen het ook schrijven. We kunnen niet alleen alle moleculen reduceren tot atomen, we kunnen materialen atoom voor atoom bouwen. “En dat zal allemaal samenvloeien. Ik voel dat we door een muizengaatje gaan en in een enorm veel grotere kamer terechtkomen met ontzettend veel meer technologische mogelijkheden, die we nu moeilijk kunnen voorzien.”
Mooi beeld. Wij komen in een veel grotere kamer. In de oude kamer hebben we haarfijn geanalyseerd hoe alles gebouwd is en met die kennis gaan we het muizengaatje door en zien dat overal werkers zijn die van alles kunnen namaken. En, wat nog meer mogelijkheden biedt, we kunnen het aanpassen, beter maken, wijzigen.
Een mooie truc
Een onschuldig voorbeeld zagen we bij de linkse en verlichtende Franse presidentskandidaat Mélenchon. Als kandidaat wil je op meerdere plekken zijn. In Amiens waar de mensen boos zijn omdat de Whirlpool-fabriek wordt gesloten en de productie wordt verhuisd naar het lage-lonen-land Polen. Lang leve Europa, is dan de Pavlov-reactie. Of in Marseille, de warme thuisbasis van Front National. Of in Parijs, Grenoble, Nancy of Nantes. Mélenchon gebruikte de illusietechniek ‘Peppers ghost’, in de wandelgangen ook wel hologram genoemd. Wordt veel gebruikt in het theater en amusementparken. Onder andere bekend van de verschijning van Michael Jackson in 2014, tijdens de Billboard Music Awards.
Mélenchon nu beamde zichzelf naar zes franse podia verspreid over Frankrijk (Montpellier, Nantes, Grenoble, Clermont-Ferrand, Nancy en le Port-Reunion) terwijl hij zelf op het podium in Dijon stond. De projectie werd aangekondigd, en het was voor iedereen duidelijk dat het een truc was. Maar wel een mooie truc.
Maar nu een truc waarvan je niet direct doorhebt dat het een truc is.
Spraaktechnologie wordt steeds menselijker
Het Canadese Lyrebird (Montreal) ontwikkelt nieuwe mogelijkheden in de spraaktechnologie. Het uitgangspunt is dat het contact tussen een computer en een mens alleen maar beter wordt, als er gesproken wordt. Hoe menselijker een computer praat, hoe beter het is. Sterker nog, het zou optimaal zijn als je de stem van een bekende hoort. Dat nu is wat Lyrebird doet. Als je de beschikking hebt over audio-opnames van een persoon wordt het mogelijk om deze persoon op een totaal natuurlijke manier alles te laten zeggen. De intonatie is natuurlijk, het resultaat is nauwelijks te onderscheiden van de echte mens. Je kunt je voorstellen dat er enorme mogelijkheden komen bij publieke figuren waarvan heel veel audiofragmenten beschikbaar zijn.
Dit nu is nog slechts audio.
Voeg hier het beeld aan toe, en je hebt wat beschreven wordt in een paper van Matthias Nießner, Stanford. Zijn titel: Face2face: Real-time Face Capture and Reenactment of RGB Videos. Wat het doet? Stel, je hebt een goed beeld van George Bush (Poetin, Trump, Le Pen, Obama, maakt niet uit). Dit wordt de ‘target-actor’ genoemd, de spreker wiens hoofd en expressie we tot leven willen brengen. Daarnaast heb je een source-actor, dat kan iedereen zijn. Als de source actor zijn mond open doet, doet Bush het ook. Als hij zijn wenkbrouwen fronst, doet Bush het ook. Als hij ‘nee’ schudt: Bush schudt nee. Enzovoorts.
Combineer nu Lyrebird (stem-manipulatie) met Nießner (video-animatie, Stanford), en je krijgt de mogelijkheid om een filmpje te maken van een interview met iemand die je dingen laat zeggen, die nooit door de bewuste persoon gezegd zijn. Ja, misschien werden alle woorden ooit gezegd, maar nooit in deze volgorde.
Kortom, in Dijkgraaf’s kleine kamertje van nu hebben we de techniek ontwikkeld om stemopnames tot op detailniveau apart te zetten, van letter tot klank tot intonatie tot woord. In het kleine kamertje van nu hebben we de techniek ontwikkeld om gezichtsuitdrukkingen van een source-actor tot op detailniveau te analyseren, hier een masker van te maken en vervolgens een ander persoon, de target-actor, exact dezelfde bewegingen te maken, met zijn (haar) eigen gezicht.
En dan gaan we door het muizengaatje naar de grote kamer, alles wordt aan elkaar geknoopt en we kunnen interviews maken die nooit maar dan ook nooit hebben plaatsgevonden.
Je zou bijna gaan hopen dat op deze manier een rijtje uitspraken van Trump tot stand is gekomen, maar het is vergeefse hoop. Daarvoor is deze techniek nog ‘te vers’.
Je zou bijna gaan hopen dat op deze manier een rijtje uitspraken van Trump tot stand is gekomen
“De wetenschap moet weten wat de samenleving wil”, zegt Robbert Dijkgraaf in hetzelfde interview. Als hij dit uitspreekt, zit hij in dezelfde ruimte waar ook ooit wetenschapper Robert Oppenheimer heeft gewerkt, de vader van de onbedoelde atoombom.
Willen we dit wel?
Natuurlijk is de vergelijking met Oppenheimer een gezochte. Maar de jongens en meisjes van Lyrebird lijken zich te realiseren dat hun technologie ook een toepassing kan vinden die de bedenkers misschien nooit gewild zouden hebben. Alternatieve feiten zijn er al genoeg, en nu lijkt ook nog de mogelijkheid te zijn ontwikkeld om deze feiten te laten worden bevestigd in een overtuigend interview. Je kunt oud-president Obama laten zeggen dat Obamacare een bedenksel is van de zorgverzekeraars. Je kunt Eric Smit (Follow the Money) die de kleren van het imposante lijf van VVD-voorzitter Keizer scheurde, laten zeggen dat hij werkt in politieke opdracht van de gedegradeerde PvdA.
Je kunt je afvragen of Lyrebird zich bewust is van dit mogelijke misbruik, of Lyrebird beseft dat de wetenschap een mogelijk monster heeft ontwikkeld, wat tot gevolg heeft dat we een gerespecteerd tegengif van de leugen, namelijk de betrouwbare bronopnames, nu ook hebben verlamd.
En ja, Lyrebird (waarom denk ik toch steeds dat er Lyerbird staat?) is zich dat bewust. In haar ethische paragraaf op de site wordt gesteld: “(onze technologie, het manipuleren van audio-opnames…) kan mogelijk gevaarlijke gevolgen hebben, zoals misleidende diplomaten, fraude en meer in het algemeen, problemen die worden veroorzaakt doordat de identiteit van iemand anders wordt gestolen.”
Maar, niet getreurd, het risico is onder controle. Lyrebird vervolgt:
“Door onze technologie publiek te maken en aan iedereen ter beschikking te stellen, willen we er zeker van zijn dat dergelijke risico’s zich niet zullen voordoen. We hopen dat iedereen zich realiseert dat deze technologie bestaat en dat het mogelijk is de stem van iemand anders te kopiëren. Meer in het algemeen willen we de aandacht vestigen op het feit dat in de toekomst conclusies mogen worden verbonden aan de echtheid van audio-opnames.”
Een opmerkelijke redenering. De techniek om nep-opnames te maken is beschikbaar, we geven het aan iedereen, en dus moet vanaf nu iedereen er rekening mee houden dat geen interview meer betrouwbaar hoeft te zijn.
Wacht even. Als alle technieken om beeld te kunnen manipuleren, interviews te verzinnen, digitale handtekeningen te veranderen, live-verslagen te tweaken, als alles voor iedereen toegankelijk gepubliceerd is, kan dus niets meer als waar worden beschouwd.
Als alles gemanipuleerd kan worden, kan dus niets meer als waar worden beschouwd.
Tenzij ook die publicaties niet waar bleken te zijn.
Het zijn verwarrende tijden, de waarheid is zo vluchtig als ether.