Van data naar betekenis 2: Makkelijk zoeken, slim vinden

Mirjam Hulsebos portret

Hoe kunnen we relevantie halen uit big data? Dat is vandaag de dag misschien wel een van de meest pregnante vragen in boardrooms. Iedere organisatie heeft een datastroom, of het nu gaat om data van gebruik van apparatuur, tweets van consumenten of open data die iedereen vrijelijk kan gebruiken. Hoe kun je op een geautomatiseerde manier betekenis halen uit big data? Dat is waar het Commit-project Information Retrieval for Information Services zich op richt.

Maarten de Rijke is hoogleraar Information Retrieval aan de Universiteit van Amsterdam en werkt daarnaast één dag per week op de Vrije Universiteit. Sinds mei 2011 houdt hij zich bezig met het project Information Retrieval for Information Services, kortweg Infiniti.

Hij steekt van wal: “Ons vakgebied bestaat al sinds de jaren ’40 van de vorige eeuw, toen de eerste elektronische media verschenen. In eerste instantie richtten de algoritmes zich alleen op metadata, meer rekencapaciteit was er immers niet. Later werd het mogelijk om documenten full text te doorzoeken. Naarmate dat soort zoekvragen meer hits opleverde, ontstond er behoefte om niet domweg een lijst op te hoesten met alle documenten waar dat woord in voorkwam, maar op basis van een bepaalde structuur de zoekresultaten in een logische volgorde te plaatsen. Die structuur kan van alles zijn: de structuur van citaties of van hypertext-links, de semantische structuur. Nog weer later, toen ‘zoeken en vinden’ via Google doordrong tot de massa, werd ook gebruikersdata eraan toegevoegd om te bepalen in welke volgorde resultaten werden gepresenteerd. Met gebruikersdata bedoelen we dingen als klikgedrag: hoeveel mensen hebben op een link geklikt, hoe lang zijn ze blijven hangen enzovoort.”

Zelflerende algoritmen
Deze manier van zoeken en vinden werkt in veel gevallen nog altijd heel bevredigend, maar in het tijdperk van big data willen we meer, zo denkt De Rijke. Op dat meer richt dit project zich. Infiniti is opgedeeld in tien deelprojecten, die zich op drie gebieden richten. In de eerste plaats op tekstanalyse. De Rijke: “Tekstanalyse is op zichzelf een heel uitgebreid gebied, dus we hebben meerdere deelprojecten lopen om die breedte te dekken. Eén daarvan richt zich bijvoorbeeld op sentimentanalyse, wat heel hot is onder marketeers. Zij willen weten wat er over hun bedrijf wordt gezegd op social media. Grote bedrijven hebben hele teams die voortdurend alle tweets in de gaten houden en de berichten analyseren. Ze gebruiken daarvoor ook tooling, maar die is nog niet zo intelligent. Als iemand twittert: ‘net een slechte wedstrijd gezien op een verder heel gaaf ABN AMRO toernooi’, dan moet je eruit halen dat deze tweet gaat over tennis en niet over de bank. Daarna moet je onderscheiden dat de woorden ‘gaaf toernooi’ in deze tweet meer zeggen dan ‘slechte wedstrijd’. En dit alles moet je ook nog eens real-time kunnen analyseren, want het heeft weinig zin om een dag later nog op een tweet te reageren. Wij ontwikkelen software die tot dit soort intelligente analyses in staat is. We komen nu tot een nauwkeurigheid van 80 procent en we verbeteren nog altijd. We gebruiken namelijk zelflerende algoritmen. Uiteindelijk is ons doel dat er helemaal geen menselijke analyse meer nodig is, maar dat software volautomatisch alle tweets eruit pikt waar iemand op moet reageren. De rol voor mensen verschuift daarmee naar de meer intelligente fases van het analyseproces.”

Perspectieven
Behalve tweets eruit pikken waar het bedrijf op moet reageren, maakt de software ook een analyse van de subjectieve aspecten van de informatie, bijvoorbeeld van gebruikerservaringen met een bepaald product. Die informatie wordt dan vanuit verschillende perspectieven gepresenteerd. De Rijke komt sommige ochtenden op een sportieve fiets die kan worden gebruikt voor trekking vakanties. “Je hebt dan het perspectief van de vakantieganger, die vertelt hoe mooi het fietsen is door een bepaald gebied. Het perspectief van de woon-werkreiziger die de fiets vooral heeft gekocht omdat deze degelijkheid en sportiviteit combineert. En het perspectief van de fietsenmaker die al dan niet veel reparaties aan dat specifieke type fiets moet uitvoeren. Door automatisch alle tweets over zo’n fiets automatisch te categoriseren kun je veel informatie krijgen van de gebruikers op basis waarvan je het model kunt verbeteren.”

Social media analytics is slechts één van de tien deelprojecten van Infiniti en één van de vijf op tekstanalyse gerichte deelprojecten. Dat geeft aan hoe breed het onderwerp ‘information retrieval’ is.

Brede kijk geven
De tweede categorie projecten houdt zich bezig met de structuur van data. Hier is een raakvlak met Commit-project ‘From data to semantics’, dat in de vorige editie van ICT Magazine staat beschreven. “Bij dit subthema gaat het om onderlinge verwijzingen tussen documenten, zoals verwijzingen naar databronnen, maar ook verwijzingen naar andere websites, naar mensen en ga zo maar door. Als je door een topic map inzichtelijk kunt maken hoe documenten en databronnen zich tot elkaar verhouden, dan zegt dat veel over de relevantie van zo’n document.”

De semantische technologie is onder meer toegepast in een project voor de VARA, die een second screen dienst wilde ontwikkelen voor De Wereld Draait Door. De Rijke: “Bij dat programma is vooraf bekend welke gasten er aan tafel zitten en die gasten worden natuurlijk om een reden uitgenodigd, maar de inhoud van het gesprek is nog volledig vrij. Soms gaan gesprekken ineens een heel andere kant op dan de redactie vooraf dacht. Toch wilde de VARA dan relevante achtergrondinformatie kunnen presenteren in de second screen dienst. Daarom gebruiken wij de ondertiteling van dit programma als basis voor een real-time analyse van zowel de tekst als de semantiek en de sociale signalen. Bij een gesprek met een politicus over bezuinigingen in de zorg zoekt de software naar informatie vanuit verschillende perspectieven, bijvoorbeeld een verhaal vanuit het economisch perspectief (we vergrijzen en het huidige model is niet houdbaar), het perspectief van een zorginstelling en het perspectief van een thuiszorgcliënt. Wat communicatiewetenschappers altijd handmatig hebben gedaan, proberen wij nu volautomatisch te doen: we presenteren relevante achtergrondinformatie en selecteren die zo dat er een brede kijk op dat onderwerp ontstaat. Zit bijvoorbeeld aan tafel bij Matthijs van Nieuwkerk een linkse politicus, dan kan onze software juist ook de visie van iemand van rechts presenteren.”

Hits voorspellen
De derde categorie projecten is gericht op multimediavraagstukken. Vaak wordt hierbij de combinatie gemaakt met tekst. De Rijke loopt naar zijn computer en toont een project wat zijn onderzoeksgroep vorig jaar opleverde: Streamwatchr.com, een analyse van alle muziektweets wereldwijd, waarbij de nummers waar het meest over getwitterd wordt op het scherm worden getoond middels de bijbehorende afbeelding (wat veertigplussers noemen: het platen- of CD-hoesje). Iedere seconde wijzigen ongeveer zes afbeeldingen op het scherm. Het ene moment is een song van John Legend nog populair, het volgende moment staat een ons totaal onbekend Aziatisch nummer bovenaan. “Daar is het nu avond, vandaar dat je op dit tijdstip veel Aziatische nummers bovenaan ziet staan. Dat verandert als het straks in Europa avond wordt,” weet De Rijke. “Het leuke is dat we hier een functie aan hebben toegevoegd: anderen die hiernaar luisteren, luisterden ook naar dit nummer. Zo krijg je op basis van de muziek waar jij naar luistert of over Twittert een playlist waar ook nummers op staan die jij misschien helemaal niet kent, maar die wel aansluiten bij jouw muzieksmaak.”

Een klein jaar ervaring leert dat op basis van patroonherkenning prima voorspellingen kunnen worden gedaan welke nummers een top-10 hit worden en welke al snel weer uit de hitlijsten verdwijnen. “We hebben dit ook al eens gedaan met filmtrailers op YouTube. Nog voordat een film uit is, is op basis van signalen op Twitter en YouTube al heel goed te voorspellen is of de film zijn investeringen terug gaat verdienen. Dat is natuurlijk zinvolle informatie voor productiemaatschappijen.”

Datacenter. Eindeloze rij processoren

 

Hoe ver gaan we?
Het is voor it-managers en CIO’s geen verrassing dat een combinatie van deze drie categorieën nog rijkere informatie oplevert. Toch wil De Rijke wel waarschuwen. “Marketeers en it’ers weten al lang hoeveel je over een individu kunt leren door zijn gedrag te volgen en data te combineren. Op basis van berichten op Facebook, likes en tweets kun je een heel goede voorspelling doen van iemands geslacht, seksuele voorkeur, inkomen en persoonskenmerken. We dachten misschien dat psychologen en psychiaters met privacygevoelige informatie werkten, maar ook een analyse van de berichten van iemand op social media levert een buitengewoon rijke indicatie op van iemands gemoedstoestand. De vraag is: hoever wil je als bedrijf met deze informatie over klanten gaan?”

Wat is COMMIT?
COMMIT is een publiek-private onderzoekscommunity die oplossingen ontwikkelt op basis van de nieuwste informatietechnologie om beter tegemoet te komen aan de uitdagingen waar onze maatschappij voor staat. Eén van die uitdagingen is om data (en big data) die wordt verzameld goed toegankelijk te maken door op een geautomatiseerde manier de relevantie ervan te voorspellen. Op die manier kunnen zonder menselijke tussenkomst bijvoorbeeld tweets worden geselecteerd waar het bedrijf op moet reageren, omdat ze een vraag of klacht bevatten, kan achtergrondinformatie bij een onderwerp worden verzameld en kunnen bij een nogal ambigue zoekvraag toch de juiste documenten of links worden gepresenteerd. Dit is van essentieel belang om relevantie te halen uit big data. Kijk op www.commit-nl.nl voor meer informatie.

 

Geef een reactie

Gerelateerde berichten...