De betekenis van Web 3.0 en het semantic web
Het semantic web (of “Web 3.0”) is hot. Specialist op het gebied van content TextWise biedt een miljoen dollar voor het beste semantische concept. Reuters biedt een gratis webservice aan die teksten semantisch maakt. Yahoo kondigt semantic web support aan. Technology visionair Nova Spivack voorspelt tijdens de laatste The Next Web conferentie in Amsterdam dat in 2010 het semantic web gemeengoed zal zijn. Maar, wat is het semantic web eigenlijk?
Over de term Web 3.0 bestaat veel onduidelijkheid. Sommigen vinden het “semantic web” hetzelfde als “Web 3.0”. Anderen vinden het semantic web onderdeel van Web 3.0. Nova Spivack bijvoorbeeld geeft als expanded definitie van Web 3.0:
- het intelligente -semantic- web;
- een altijd en overal aanwezige verbinding met het internet. Dit staat ook wel bekend als het ubiquitous of pervasive web. Het web breekt hiermee als het ware uit het computerscherm en wordt ook op allerlei andere plaatsen beschikbaar: mobiele apparaten, maar ook apparaten die nog uitgevonden moeten worden. Een simpel voorbeeld hiervoor is een fotolijstje dat je foto’s via internet ophaalt;
- network computing, waarbij software als services wordt aangeboden en gebruikt;
- het gebruik van open technologieën: open API’s, open data formaten, open source software;
- het gebruik van open identity zoals bijvoorbeeld OpenID.
Ik zou daar zelf nog aan toe willen voegen:
- De vergaande aanwezigheid van persoonlijke profielen en voorkeuren op internet.
Maar ongeacht of je het semantic web als onderdeel van Web 3.0 ziet of gelijk stelt aan Web 3.0, wat wordt er eigenlijk precies mee bedoeld?
Neem de woorden Paris Hilton. De meeste mensen denken dan in eerste instantie waarschijnlijk niet aan het Hilton hotel in Parijs.
Kortom, de betekenis -ofwel de semantiek- van de twee woorden kan verschillend worden opgevat.
Semantiek wordt vaak in één context genoemd met syntax. Als we de zin “Max houdt van Lieke” nemen, dan geeft de syntax aan hoe de zin is opgebouwd. De semantiek is dat Max Lieke leuk vindt. Als we “houdt van” in een hartje veranderen, dan verandert de syntax. De semantiek is echter dezelfde gebleven.
Bij het voorbeeld van Paris Hilton zien we juist twee verschillende betekenissen bij een gelijke syntax.
In de communicatie tussen computers op het internet speelt met name de syntax een belangrijke rol. Als je een webpagina opvraagt doe je een request aan een webserver. Die zoekt de pagina voor je op en geeft hem terug in HTML formaat. De browser op je computer kan die HTML syntax omzetten naar een fraai vormgegeven pagina. De betekenis van wat er in die pagina staat blijft de computer onbekend.
Eenzelfde fenomeen zien we als we gaan zoeken op internet. Een zoekmachine doorzoekt miljarden pagina’s van het internet op zoek naar de zoekwoorden die je hebt ingegeven. Vervolgens toont de zoekmachine een lijst met pagina’s waarin die zoekwoorden voorkomen. De zoekmachine weet wel dat de zoekwoorden voorkomen in de pagina’s in de lijst, de inhoud van die pagina’s is hem echter onbekend.
Dus net als een papagaai die je woorden leert kunnen webapplicaties deze prima nazeggen, maar snappen ze niet goed wat ze zeggen.
Het huidige web kun je daarom beschouwen als een web van documenten. Weliswaar zijn deze op een handige manier gelinkt maar wat er precies in die documenten staat is voor webapplicaties onduidelijk. Voor mensen is die inhoud echter juist datgene wat interessant is. Documenten gaan over mensen, gebeurtenissen, bedrijven, landen, sport, eten etcetera. In feite over alle onderwerpen die je maar kunt verzinnen. Je hebt het dan dus niet meer over documenten, maar over “entiteiten” die in documenten voorkomen. De truc is dus om ook computers te laten begrijpen waar die entiteiten in documenten over gaan. Dat is in feite de definitie van het semantic web:
Het semantic web geeft betekenis aan entiteiten in webpagina’s en relaties tussen entiteiten
Het semantic web is dus, in tegenstelling tot het huidige web, een web van entiteiten.
Nu kun je beweren dat de huidige applicaties ook best veel begrijpen van de inhoud van een webpagina. Als ik een Hyves account heb, dan weet Hyves prima wat mijn naam is, wie mijn vrienden zijn, en ook nog dat deze vrienden personen zijn. Hyves is dus ook al intelligent wat dat betreft. Dat klopt, deze intelligentie is echter beperkt tot Hyves zelf. De eigenschappen van personen zijn -vermoed ik- velden in een database en daarom herkent Hyves deze als kenmerken van een persoon. Andere applicaties kennen deze velden niet. Die zien simpelweg een pagina met tekst. Hen ontgaat dus dat “Max” een naam is en dat “Lieke” een vriendin is. Zou de informatie semantisch opgeslagen zijn, dan zou deze informatie voor elke applicatie op het web toegankelijk zijn.
Het semantic web maakt de betekenis van entiteiten en relaties tussen entiteiten beschikbaar op het hele internet. De betekenis van entiteiten blijft dus niet beperkt tot een enkele webapplicatie.
Nu we weten wat het semantic web is, volgt natuurlijk onherroepelijk de vraag wat je er aan hebt. Neem het voorbeeld van Paris Hilton. Zou een zoekmachine begrijpen dat ik het Hilton hotel in Parijs bedoel, dan kan hij de resultaten met de vrouw Hilton uit de lijst met zoekresultaten weglaten. Hiermee vind je dus sneller wat je zoekt. Dit klinkt nog niet heel spectaculair. Het gaat echter verder: als de applicatie begrijpt dat het Hilton een hotel in Parijs is, dan kan hij mij meer diensten aanbieden. “Ik begrijp dat het Hilton een hotel in Parijs is, zal ik ook direct een vlucht voor je naar Parijs boeken? Zal ik ook direct een transer van de luchthaven naar het hotel regelen? Zal ik een restaurant voor je reserveren waar je ’s avonds kunt eten?” Dit maakt het antwoord op je zoekvraag ineens veel waardevoller.
Misschien komt bovenstaande je bekend voor. Bij het boeken van een vlucht krijg je nu ook al de vraag of je een auto wilt huren. Die vraag is echter tot stand gekomen door samenwerking tussen webapplicaties van bijvoorbeeld Transavia en Hertz. In een semantic web zijn minder van zulke afspraken nodig omdat veel informatie universeel beschikbaar is.
Het is dus duidelijk dat een semantisch web leidt tot een grotere beschikbaarheid van informatie. Er zijn ruwweg twee benaderingen die de wereld naar zo’n semantisch web moeten gaan leiden: de bottom-up en de top-down benadering.
De bottom-up benadering zegt: “voorzie alle documenten in het internet van extra informatie en maak ze daardoor te beter te begrijpen voor webapplicaties”. Die extra informatie (“annotaties”) beschrijft entiteiten in webpagina’s en hun relaties. Annotaties kunnen gebeuren in de vorm van RDF of Microformats. Belangrijkste voorvechter van de bottom-up benadering is mede-grondlegger van het internet Tim Berners-Lee. In een podcast afgelopen februari stelt Berners-Lee vast dat alle bouwstenen voor het semantisch web er nu zijn en developers er dus mee aan de slag kunnen.
De aanhangers van de top-down benadering, met als belangrijkste kopstuk Alex Iskold, vinden de bottom-up benadering onpractisch. Ze zien niet gebeuren dat alle pagina’s van het internet geannoteerd gaan worden. Daarom pleiten zij voor de ontwikkeling van applicaties die data in documenten beter gaan begrijpen. Denk hierbij aan het kunnen herleiden van de betekenis van entiteiten uit de context van een pagina. Maar denk met name aan applicaties die natuurlijke taal kunnen begrijpen. Zoekmachines Hakia en Powerset zijn voorbeelden van applicaties die natuurlijke taal -tot nu toe uitsluitend engels- proberen te begrijpen zoals mensen die begrijpen.
Maar wat ook de benadering wordt, het web zal steeds betekenisvoller worden. Entiteiten zullen een wolk aan eigenschappen en relaties om zich heen verzamelen. Hierin schuilt het gevaar van information overload. We hebben alleen behoefte aan informatie die ons persoonlijk interesseert. De behoefte aan op de persoon toegesneden informatie zal daarom steeds belangrijker worden.
Persoonlijke voorkeuren kunnen onder controle van de gebruiker vallen. De APML (Attention Profile Markup Language) werkgroep houdt zich hiermee bezig. Je profiel in APML kun je zien als een bestand met jouw persoonlijke voorkeuren. Webapplicaties kunnen dat bestand lezen en je vervolgens van gefilterde informatie voorzien.
Een nog grotere hoeveelheid profielinformatie zal echter buiten de controle van de gebruiker vallen. Op dit moment wordt door organisaties als Google, Amazon en Yahoo ook al het klikgedrag van bezoekers vastgelegd. In een semantisch web zal deze informatie veel rijker worden. Er is immers veel meer bekend over degene die door de site klikt. Bovendien wordt het web pervasive, overal in ons leven zullen we het tegenkomen: in de browser, op je mobiel, in de auto, in apparaten in je huis. Op steeds meer plaatsen komen webapplicaties dus iets over ons te weten. De profielen die buiten je weten over je worden opgebouwd zullen dan ook zeer groot zijn. Laatst was er een item op RTL nieuws over een discotheek in Berlijn waar 80 camera’s alle handelingen van bezoekers vastlegden. Koppel in een toekomstscenario deze informatie via gezichtsherkenning aan een semantisch profiel op internet en je kunt je een voorstelling maken van de reikwijdte van dergelijke ontwikkelingen.
Een bekend voorbeeld van een dergelijk scenario is onderstaand filmpje.
https://www.youtube.com/watch?v=_WqecXo1-Cc
Hoe gaat het verder? Specialist op het gebied van content TextWise biedt een miljoen dollar voor het beste semantische concept. Reuters biedt een gratis webservice aan die entiteiten in teksten herkent en in RDF omzet.
>.
Yahoo kondigt Semantic Web support aan. Van alle kanten werken bedrijven dus hard aan de ontwikkeling van het semantic web. Nova Spivack voorspelt tijdens de laatste The Next Web conferentie in Amsterdam dat in 2010 het semantic web gemeengoed zal zijn. We zullen zien!