söndag 6 december 2015

Kausalation och korrelitet, del 1: blir vi lurade av Big Data?

Brasklapp och bakgrundsförklaring:
1. Titeln ovan är en avancerat korkad ordlek som anspelar på vår förkärlek för att förväxla korrelation med kausalitet, så sätt er inte på några triumfatoriskt höga hästar redan.
2. Jag sysslar varken med statistik eller genetik till vardags, utan har bara ett fördjupat lekmannaintresse i båda ämnena. Den röda tråden i texten nedan är frågan om hur sårbara vi blir när datamängderna växer sig så stora att de kan användas i flera olika syften, ibland med dubiösa uppsåt, och vad det kan innebära för oss som mottagare av de färdigpaketerade och finslipade analyserna av datan. Som novis på området är jag i högsta grad en del av den överväldigande stora del av befolkningen som potentiellt är i farozonen för att förirra mig alternativt bli vilseledd av förrädiskt enkla och vackra orsaksförklaringar av i realiteten mycket komplexa frågor.

För att kunna leda ett påstående eller ett antagande i bevis på vetenskaplig väg är den vedertagna metoden att man först kommer med en hypotes, som i förstone sällan vilar på någon databaserad grund. Att formulera hypotesen – d.v.s. tillblivelsen av idén – är måhända ur intellektuell synpunkt det mest krävande för en forskare, men de monotona och uttröttande arbetstimmarna börjar egentligen ackumuleras först när datasamlandet för att verifiera tesen börjar. Så har det i alla fall varit under väldigt lång tid. När Gregor Mendel – en av nyckelfigurerna för den moderna genetiska forskningens framväxt – började teoretisera om hur stor roll "arvet" hade för olika ärtors utseende i mitten av 1800-talet hade han inte mycket att be för (vilket han dock säkerligen gjorde, eftersom han var klostermunk): för att kunna verifiera sina påståenden om anlagens betydelse för ärtornas utseende var han tvungen att samla data. Och för att samla data om ärftlighet hos ärtor måste man börja odla. Vilket Mendel gjorde, i sju års tid. Ca 29 000 ärtplantor senare var hans underlag stort nog för att han på bred front kunde lansera den teori som, trots vissa turer fram och tillbaka, blivit hans postuma signum: läran om recessiva och dominanta anlag.

De villkor Mendel verkade utefter var likadana för alla på 1800-talet, och även under en stor del av 1900-talet. Några av munkens vetenskapliga arvtagare var "flugpojkarna", en grupp biologer som på Columbia University under 1900-talets första hälft effektiviserade genetikens metodologi avsevärt genom att använda bananflugor i sina experiment. Med sina korta livstider, närmast obefintliga krav på underhåll och en förökningsförmåga som torde göra kaniner gröna av avund erbjöd Drosophilia Melanogaster forskarna helt nya möjligheter att studera och experimentera med förändringar i arvsmassan över flera hundra generationer i en kontrollerad miljö. Vinsterna för mänskligheten därav, och därmed även vår tacksamhetsskuld gentemot en fluga vi mest avfärdar som en mer fysisk sommarplåga, är oöverskådliga.

För att effektivisera den vetenskapliga metoden har forskarna i århundraden satt sin tillit till mindre genombrott av typerna ovan, som varit avhängiga en eller ett par personers närmast maniska hängivenhet och arbetsdisciplin. Skörden av deras ansträngningar var den data de lyckades få fram, med vars hjälp nya slutsatser kunde dras och ännu djärvare hypoteser framläggas. I mångt och mycket fungerar det på samma sätt idag, men skillnaden är att vår tillgång på data är så oerhört mycket större, och vår törst efter kunskap om och förklaringar av de mest basala, vardagliga företeelserna tycks outsinlig. Sett i det ljuset är det måhända inte märkligt att en av vår tids stora svenska superstjärnor – jämte en pop-export vars bidrag till statistiken är att de med all önskvärd tydlighet klargjort kopplingen mellan å en a sidan fyrtakt, tung bas och charmerande enkla gitarrslingor och kopiösa mängder pengar å den andra – är Hans Rosling. Denne anspråkslöse urtyp för en försynt forskare har gjort datasamlande till en sorts internationalsport som alla kan förlusta sig i tack vare hemsidan gapminder.org.

Gapminder är kanske ett av de tydligaste uttrycken för att vi lever i en era som alltmer präglas av Big Data. Idag finns teknologin för att samla, sammanställa och mäta data om det mesta ovanför himmel och under jord, främst tack vare otroligt starka datorer som gör grovgörat åt oss. Mendel hade i dagens samhälle inte behövt odla ärtor i sju år – han hade likväl kunnat skapa en algoritm som motsvarade hans antagande, matat in den i en dator och låtit den simulera fram ett resultat som inte tagit  ens sju dagar att få fram. Som synes är möjligheterna enorma, och tvivelsutan till mänsklighetens gagn rent generellt. Det finns emellertid en stor fara med att alltför förbehållslöst omfamna Big Data som vår tids vetenskapliga frälsare i grafisk skrud. Ty när datamängderna växer, då ökar även risken för att vi ersätter kraven på vetenskaplig stringens och noggrant kontrollerade resultat med ren mängdfrossa.

Visste du, till exempel, att det finns en nästan 91-procentig korrelation (d.v.s statistiskt samband mellan två eller fler mätbara variabler) mellan antalet graviditeter i USA och mängden energi som skapas av kärnkraftverk? Eller att korrelationen mellan antalet sålda tysktillverkade personbilar i USA till 93.5% stämmer överens med antalet anmälda skymtningar av cigarr-formade UFOn? Det finns endast en slutsats att dra: i USA försöker man avla fram barn med superkrafter med hjälp av kärnkraft, och tyskarna samverkar med utomjordingar som av allt att döma har sin bas på Kuba.

Nu drogs satiren till sin övertydliga spets i exemplen ovan, men vår förkärlek för att förväxla korrelation – alltså ett statistiskt säkerställt samband mellan två eller fler variabler – med kausalitet – en orsaksförklaring som förklarar vad sambandet beror på – kan försätta oss i denna intellektuellt tämligen kniviga sits. En skicklig statistiker – eller ännu hellre, en dator matad med rätt algoritm – kan hitta samband som styrker de mest absurda påståenden, om man som läsare är villig att kisa tillräckligt mycket. Därför blir det problematiskt – för att ta ett politiskt ganska angeläget exempel – när vi har data som tydligt pekar på en korrelation mellan hög arbetslöshet och att vara född utomlands eller till föräldrar av utländsk börd. Datan säger att ca 4.5% av "etniska svenskar mitt i livet", som Fredrik Reinfeldt till allmän förfäran uttryckte det, är arbetslösa, emedan ca 21% av svenskar med utländsk bakgrund är det. Att så är fallet råder det inget tal om, men vad datan inte förtäljer är varför det förhåller sig så. När den förs på tal rusar således förstå-sig-påare, självutnämnda experter och upprörda medborgare alla ursinnigt fram till den hemmasnickrade megafonen (i mitt fall en god väns blogg) för att framlägga just sin teori. Vissa kisar med högerögat och säger att "invandrare är oanställningsbara och medvetet kapitaliserar på vårt generösa välfärdssystem"; vissa med vänsterögat och tar det som ett otvetydigt bevis för att det svenska samhället systematiskt exkluderar invandrare från ett inträde på arbetsmarknaden, underförstått tack vare latenta rasistiska strukturer; andra kisar med båda ögonen och försöker jämka de två förklaringarna och landar kanske i slutsatsen "allt och alla är skit, så vad är det för mening med något?". Väldigt få har som spontan reflex att helt enkelt ta del av siffrorna, konstatera att så förhåller det sig och därefter gå vidare med att fråga sig vilka faktorer som kan ligga bakom, hur svensk arbetsmarknads efterfrågan ser ut i förhållande till kompetensen hos olika delar av befolkningen o.s.v. Detta förutsätter nämligen ett förhållningssätt som bejakar komplexitet och mångtydighet, vilket våra hjärnor passionerat motsätter sig.

I en tid då vi har tillgång till mer data än någonsin, och de praktiska möjligheterna att jämföra och väga siffror mot varandra saknar historiskt motstycke, är det viktigt att vi inte låter euforin över möjligheterna förblinda oss för det enorma ansvar som följer i släptåg. Att hushålla på ett tillrådligt och nyktert sätt med enorma datamängder är lättare sagt än gjort, och kräver såväl integritet som yrkesmässig heder av sin forskare.

En motreaktion som jag gärna ser omvandlas till ryggradsreflex hos flera forskare är att vi applicerar det som för Karl Popper var själva grundbulten i ett vetenskapligt maskineri: jakten på data som kan vederlägga den tes vi lagt fram, och inte enbart på det som bekräftar vad vi i och med formuleringen av hypotesen förmodligen redan tror oss veta. När våra möjligheter att hitta korrelationer som kan styrka allsjöns märkliga påståenden växer lavinartat är det av yttersta vikt att vi har tillräckligt med självdisciplin och –distans för att omfamna även den data som inte ger oss rätt i sak. Grunden för sann vetenskap är insikten att det vi tror oss veta idag med stor sannolikhet är utdaterat, överspelat och kanske till och med utskrattat imorgon. Men utan dagens rön har vi inga medel för att nå fram till morgondagens gäckande upptäckter. Det är denna växelverkan som all forskning är desperat beroende av för sin utveckling och fortsatta relevans, och Big Data bereder oss bättre förutsättningar för att förvalta och bygga vidare på denna princip än vad vi någonsin har haft. Men med fel uppsåt kan det slå bakut, så alla – framför allt den statistiska forskningens fågelholksimitatörer till noviser som undertecknad – bör vara på sin vakt. De märkliga korrelationerna är just korrelationer, och bör tills ett kausalt samband dem emellan på ett övertygande och välargumenterat sätt kan bevisas inte bör antas vara något annat.

I nästa del kommer frågan om varför vi så gärna låter Big Data invagga oss i en falsk, orsaksviss trygghet att tas upp, med utgångspunkt i Daniel Kahnemans populärpsykologiska epos "Tänka Snabbt och Långsamt".

Inspiration och källor:

Jim Endersby: A Guinea Pig's Guide To Biology

Tyler Vigen: Spurious Correlations

Håkan Lindgren: "Är vi blåsta av Big Data?", SvD, 12 okt 2015

Inga kommentarer:

Skicka en kommentar