Gegevens Mislukken! Hoe Google Grieptrends Kort Werden

{h1}

Big data heeft een groot potentieel, maar een poging van google om grieptrends te volgen, staat voor uitdagingen.

Een poging om griepuitbraken te identificeren door de Google-zoekopdrachten van mensen over de ziekte bij te houden, heeft zijn oorspronkelijke belofte niet waargemaakt, beweert een nieuw artikel.

Google Grieptrends, een poging om griepuitbraken te volgen op basis van zoektermen, heeft het aantal griepgevallen in het seizoen 2012-2013 dramatisch overschat en de nieuwste gegevens lijken niet veelbelovend, zegt David Lazer, een computer en politicoloog aan de Northeastern University in Boston, en zijn collega's in een beleidsartikel gepubliceerd vrijdag (14 maart) in het tijdschrift Science over de valkuilen van Big Data.

"Er is een enorm potentieel, maar er is ook veel potentieel om fouten te maken," vertelde Lazer WordsSideKick.com. [6 Superbugs om op te letten]

Google's fouten

Het is geen verrassing dat Google Grieptrends niet altijd een huisrun raken. In februari 2013 rapporteerden onderzoekers in het tijdschrift Nature dat het programma schatte dat het aantal griepgevallen twee keer zo hoog was als dat werd geregistreerd door de Centers for Disease Control and Prevention (CDC), die de gerapporteerde gevallen opspoort.

"Toen het ging de rails, het ging echt van de rails," zei Lazer.

Google Grieptrends worstelde ook in 2009 en miste een seizoenzieke uitbraak van H1NI volledig. De fouten hebben ertoe geleid dat het Google-team hun algoritme opnieuw heeft bewerkt, maar een vroege blik op het laatste griepseizoen suggereert dat deze veranderingen het probleem niet hebben opgelost, volgens een voorlopige analyse van Lazer en collega's die vandaag (13 maart) op de sociale agenda zijn geplaatst. wetenschaps pre-publicatie website het Social Science Research Network (SSRN).

Het probleem is niet uniek voor de griep van Google, zei Lazer. Alle sociale wetenschappen Big Data, of de analyse van enorme delen van de bevolking van mobiele of sociale mediatechnologie, staan ​​voor dezelfde uitdagingen die het Google Flu-team probeert te overwinnen.

Big Data-nadelen

Uitzoeken wat er mis ging met Google Grieptrends is niet eenvoudig, omdat het bedrijf niet onthult welke zoektermen het gebruikt om griep te traceren.

"Ze krijgen een F op replicatie", zei Lazer, wat betekent dat wetenschappers niet genoeg informatie hebben over de methoden om de bevindingen te testen en te reproduceren.

Maar Lazer en zijn collega's hebben een idee van wat er mis ging. Een groot probleem, zei hij, is dat Google een bedrijf is dat geïnteresseerd is in het promoten van zoekopdrachten, en niet in een wetenschappelijk team dat gegevens verzamelt. Het Google-algoritme geeft vervolgens aan gebruikers gerichte zoekopdrachten: Als iemand "griepverschijnselen" opzoekt, wordt hij waarschijnlijk gevraagd om bijvoorbeeld te zoeken naar "griepvaccins". Het aantal griepgerelateerde zoekopdrachten kan dus sneeuwballen zelfs als griepgevallen dat niet doen. [5 Gevaarlijke vaccinatie mythen ontkracht]

Een ander probleem, zei Lazer, is dat het Google Flu-team onderscheid moest maken tussen griepgerelateerde zoekopdrachten en zoekopdrachten die verband hielden met het griepseizoen maar niet gerelateerd waren. Om dit te doen, namen ze meer dan 50 miljoen zoektermen in beslag en combineerden ze met ongeveer 1.100 gegevenspunten over de prevalentie van griep van de CDC.

Het spelen van het correlatiespel met zoveel termen zal ongetwijfeld een paar rare, onzinnige resultaten opleveren, zei Lazer, "net zoals apen Shakespeare uiteindelijk kunnen typen." Bijvoorbeeld, 'middelbare school basketbal' pieken als een zoekterm in maart, die de neiging heeft om de piek van het griepseizoen te zijn. Google selecteerde duidelijk valse correlaties en verwijderde ze, maar precies welke termen ze verwijderden en de logica om dit te doen is onduidelijk. Sommige termen, zoals "hoesten" of "koorts" kunnen griep gerelateerd lijken, maar geven eigenlijk andere seizoensgebonden ziektes aan, zei Lazer.

"Het was een detector voor gedeeltelijke griep en een gedeeltelijke winterdetector," zei hij.

Problemen en potentieel

Het Google-team wijzigde hun algoritme na zowel de missies van 2009 als 2013, maar maakte de meest recente wijzigingen in de veronderstelling dat een piek in de berichtgeving in de media over het griepseizoen 2012-2013 de problemen veroorzaakte, schreef Lazer en zijn collega's in hun SSRN-document. Die aanname maakt een einde aan de grote berichtgeving in de media over de H1N1-pandemie in 2009 en geeft geen verklaring voor fouten in het griepseizoen 2011-2012, beweren de onderzoekers.

Een Google-woordvoerster wees WordsSideKick.com op een blogpost over de updates van Google Flu die de inspanningen oproept om 'een iteratief proces' te verbeteren.

Lazer wees er snel op dat hij niet op Google terecht kwam en noemde Google Grieptrends 'een geweldig idee'. De problemen waarmee Google Flu geconfronteerd wordt, komen terug in andere datasets van sociale media, zei Lazer. Twitter laat gebruikers bijvoorbeeld weten wat trending is op de site, wat deze termen verder stimuleert. [De Top 10 gouden regels van Facebook]

Het is belangrijk om bewust te zijn van de grenzen van enorme datasets die online zijn verzameld, zei Scott Golder, een wetenschapper die met dergelijke datasets werkt bij het bedrijf Context Relevant. Voorbeelden van mensen die sociale media gebruiken, bijvoorbeeld, zijn geen dwarsdoorsnede van de bevolking als geheel - ze kunnen bijvoorbeeld jonger, rijker of meer technisch onderlegd zijn.

"Mensen moeten voorzichtig zijn met de claims die ze maken," vertelde Golder, die niet betrokken was bij de Google-kritiek van Lazer, tegen WordsSideKick.com.

Zoekwoordkeuze en de algoritmen van een social media-platform zijn andere zorgen, zei Golder. Een paar jaar geleden werkte hij aan een onderzoek naar negativiteit op sociale media. Het woord "lelijk" bleef spiking in de avonden. Het bleek dat mensen geen nachtelijke zelfachting crises hadden. Ze waren aan het kletsen over de ABC-show 'Ugly Betty'.

Deze problemen zijn echter geen doodsteek voor Big Data - Lazer zegt zelf dat Big Data-mogelijkheden "verbijsterend" zijn. Sociale wetenschappers gaan de hele tijd om met problemen van onstabiele gegevens en de griepgegevens van Google zijn fixeerbaar, zei Lazer.

"Mijn gevoel, kijkend naar de gegevens en hoe het verliep, is dit dat je zou kunnen rechtzetten zonder dat Google hun eigen bedrijfsmodel zou aanpassen," zei hij. "Je moet gewoon weten dat [het probleem] er is en nadenken over de implicaties."

Lazer pleitte voor meer samenwerking tussen onderzoekers van Big Data en traditionele sociale wetenschappers die werken met kleine, gecontroleerde datasets. Golder was het ermee eens dat de twee benaderingen complementair kunnen zijn. Big Data kan duiden op verschijnselen die met traditionele technieken moeten worden gecontroleerd, zei hij.

"Soms kunnen kleine hoeveelheden gegevens, als het de juiste gegevens zijn, nog informatiever zijn", zei Golder.

Volg Stephanie Pappas op tjilpen en Google+. Volg ons @wordssidekick, Facebook& Google+. Oorspronkelijk artikel over WordsSideKick.com.


Video Supplement: .




WordsSideKick.com
Alle Rechten Voorbehouden!
Reproductie Van Materialen Toegestaan Alleen Prostanovkoy Actieve Link Naar De Site WordsSideKick.com

© 2005–2019 WordsSideKick.com