Brasklapp och
bakgrundsförklaring:
1. Titeln ovan är en avancerat korkad ordlek som anspelar på vår förkärlek för att förväxla korrelation med kausalitet, så sätt er inte på några triumfatoriskt höga hästar redan.
2. Jag sysslar varken med statistik eller genetik till vardags, utan har bara ett fördjupat lekmannaintresse i båda ämnena. Den röda tråden i texten nedan är frågan om hur sårbara vi blir när datamängderna växer sig så stora att de kan användas i flera olika syften, ibland med dubiösa uppsåt, och vad det kan innebära för oss som mottagare av de färdigpaketerade och finslipade analyserna av datan. Som novis på området är jag i högsta grad en del av den överväldigande stora del av befolkningen som potentiellt är i farozonen för att förirra mig alternativt bli vilseledd av förrädiskt enkla och vackra orsaksförklaringar av i realiteten mycket komplexa frågor.
1. Titeln ovan är en avancerat korkad ordlek som anspelar på vår förkärlek för att förväxla korrelation med kausalitet, så sätt er inte på några triumfatoriskt höga hästar redan.
2. Jag sysslar varken med statistik eller genetik till vardags, utan har bara ett fördjupat lekmannaintresse i båda ämnena. Den röda tråden i texten nedan är frågan om hur sårbara vi blir när datamängderna växer sig så stora att de kan användas i flera olika syften, ibland med dubiösa uppsåt, och vad det kan innebära för oss som mottagare av de färdigpaketerade och finslipade analyserna av datan. Som novis på området är jag i högsta grad en del av den överväldigande stora del av befolkningen som potentiellt är i farozonen för att förirra mig alternativt bli vilseledd av förrädiskt enkla och vackra orsaksförklaringar av i realiteten mycket komplexa frågor.
För att kunna leda ett påstående eller ett antagande i bevis
på vetenskaplig väg är den vedertagna metoden att man först kommer med en
hypotes, som i förstone sällan vilar på någon databaserad grund. Att formulera
hypotesen – d.v.s. tillblivelsen av idén – är måhända ur intellektuell synpunkt
det mest krävande för en forskare, men de monotona och uttröttande
arbetstimmarna börjar egentligen ackumuleras först när datasamlandet för att
verifiera tesen börjar. Så har det i alla fall varit under väldigt lång tid. När
Gregor Mendel – en av nyckelfigurerna för den moderna genetiska forskningens
framväxt – började teoretisera om hur stor roll "arvet" hade för
olika ärtors utseende i mitten av 1800-talet hade han inte mycket att be för
(vilket han dock säkerligen gjorde, eftersom han var klostermunk): för att
kunna verifiera sina påståenden om anlagens betydelse för ärtornas utseende var
han tvungen att samla data. Och för att samla data om ärftlighet hos ärtor
måste man börja odla. Vilket Mendel gjorde, i sju års tid. Ca 29 000 ärtplantor
senare var hans underlag stort nog för att han på bred front kunde lansera den
teori som, trots vissa turer fram och tillbaka, blivit hans postuma signum:
läran om recessiva och dominanta anlag.
De villkor Mendel verkade utefter var likadana för alla på 1800-talet,
och även under en stor del av 1900-talet. Några av munkens vetenskapliga
arvtagare var "flugpojkarna", en grupp biologer som på Columbia
University under 1900-talets första hälft effektiviserade genetikens metodologi
avsevärt genom att använda bananflugor i sina experiment. Med sina korta
livstider, närmast obefintliga krav på underhåll och en förökningsförmåga som
torde göra kaniner gröna av avund erbjöd Drosophilia
Melanogaster forskarna helt nya möjligheter att studera och experimentera
med förändringar i arvsmassan över flera hundra generationer i en kontrollerad
miljö. Vinsterna för mänskligheten därav, och därmed även vår tacksamhetsskuld
gentemot en fluga vi mest avfärdar som en mer fysisk sommarplåga, är
oöverskådliga.
För att effektivisera den vetenskapliga metoden har
forskarna i århundraden satt sin tillit till mindre genombrott av typerna ovan,
som varit avhängiga en eller ett par personers närmast maniska hängivenhet och
arbetsdisciplin. Skörden av deras ansträngningar var den data de lyckades få
fram, med vars hjälp nya slutsatser kunde dras och ännu djärvare hypoteser
framläggas. I mångt och mycket fungerar det på samma sätt idag, men skillnaden
är att vår tillgång på data är så oerhört mycket större, och vår törst efter
kunskap om och förklaringar av de mest basala, vardagliga företeelserna tycks
outsinlig. Sett i det ljuset är det måhända inte märkligt att en av vår tids
stora svenska superstjärnor – jämte en pop-export vars bidrag till statistiken
är att de med all önskvärd tydlighet klargjort kopplingen mellan å en a sidan fyrtakt,
tung bas och charmerande enkla gitarrslingor och kopiösa mängder pengar å den andra
– är Hans Rosling. Denne anspråkslöse urtyp för en försynt forskare har gjort
datasamlande till en sorts internationalsport som alla kan förlusta sig i tack
vare hemsidan gapminder.org.
Gapminder är kanske
ett av de tydligaste uttrycken för att vi lever i en era som alltmer präglas av
Big Data. Idag finns teknologin för att samla, sammanställa och mäta data om det
mesta ovanför himmel och under jord, främst tack vare otroligt starka datorer
som gör grovgörat åt oss. Mendel hade i dagens samhälle inte behövt odla ärtor
i sju år – han hade likväl kunnat skapa en algoritm som motsvarade hans
antagande, matat in den i en dator och låtit den simulera fram ett resultat som
inte tagit ens sju dagar att få fram. Som
synes är möjligheterna enorma, och tvivelsutan till mänsklighetens gagn rent
generellt. Det finns emellertid en stor fara med att alltför förbehållslöst
omfamna Big Data som vår tids vetenskapliga frälsare i grafisk skrud. Ty när
datamängderna växer, då ökar även risken för att vi ersätter kraven på
vetenskaplig stringens och noggrant kontrollerade resultat med ren mängdfrossa.
Visste du, till exempel, att det finns en nästan
91-procentig korrelation (d.v.s statistiskt samband mellan två eller fler
mätbara variabler) mellan antalet graviditeter i USA och mängden energi som
skapas av kärnkraftverk? Eller att korrelationen mellan antalet sålda
tysktillverkade personbilar i USA till 93.5% stämmer överens med antalet anmälda
skymtningar av cigarr-formade UFOn? Det finns endast en slutsats att dra: i USA
försöker man avla fram barn med superkrafter med hjälp av kärnkraft, och
tyskarna samverkar med utomjordingar som av allt att döma har sin bas på Kuba.
Nu drogs satiren till sin övertydliga spets i exemplen ovan,
men vår förkärlek för att förväxla korrelation – alltså ett statistiskt
säkerställt samband mellan två eller fler variabler – med kausalitet – en
orsaksförklaring som förklarar vad sambandet beror på – kan försätta oss i denna
intellektuellt tämligen kniviga sits. En skicklig statistiker – eller ännu
hellre, en dator matad med rätt algoritm – kan hitta samband som styrker de
mest absurda påståenden, om man som läsare är villig att kisa tillräckligt
mycket. Därför blir det problematiskt – för att ta ett politiskt ganska
angeläget exempel – när vi har data som tydligt pekar på en korrelation mellan
hög arbetslöshet och att vara född utomlands eller till föräldrar av utländsk
börd. Datan säger att ca 4.5% av "etniska svenskar mitt i livet", som
Fredrik Reinfeldt till allmän förfäran uttryckte det, är arbetslösa, emedan ca
21% av svenskar med utländsk bakgrund är det. Att så är fallet råder det inget
tal om, men vad datan inte förtäljer är varför det förhåller sig så. När
den förs på tal rusar således förstå-sig-påare, självutnämnda experter och
upprörda medborgare alla ursinnigt fram till den hemmasnickrade megafonen (i
mitt fall en god väns blogg) för att framlägga just sin teori. Vissa kisar med
högerögat och säger att "invandrare är oanställningsbara och medvetet
kapitaliserar på vårt generösa välfärdssystem"; vissa med vänsterögat och
tar det som ett otvetydigt bevis för att det svenska samhället systematiskt
exkluderar invandrare från ett inträde på arbetsmarknaden, underförstått tack
vare latenta rasistiska strukturer; andra kisar med båda ögonen och försöker
jämka de två förklaringarna och landar kanske i slutsatsen "allt och alla
är skit, så vad är det för mening med något?". Väldigt få har som spontan
reflex att helt enkelt ta del av siffrorna, konstatera att så förhåller det sig
och därefter gå vidare med att fråga sig vilka faktorer som kan ligga bakom,
hur svensk arbetsmarknads efterfrågan ser ut i förhållande till kompetensen hos
olika delar av befolkningen o.s.v. Detta förutsätter nämligen ett
förhållningssätt som bejakar komplexitet och mångtydighet, vilket våra hjärnor passionerat
motsätter sig.
I en tid då vi har tillgång till mer data än någonsin, och
de praktiska möjligheterna att jämföra och väga siffror mot varandra saknar
historiskt motstycke, är det viktigt att vi inte låter euforin över
möjligheterna förblinda oss för det enorma ansvar som följer i släptåg. Att
hushålla på ett tillrådligt och nyktert sätt med enorma datamängder är lättare
sagt än gjort, och kräver såväl integritet som yrkesmässig heder av sin forskare.
En motreaktion som jag gärna ser omvandlas till
ryggradsreflex hos flera forskare är att vi applicerar det som för Karl Popper
var själva grundbulten i ett vetenskapligt maskineri: jakten på data som kan vederlägga
den tes vi lagt fram, och inte enbart på det som bekräftar vad vi i och med
formuleringen av hypotesen förmodligen redan tror oss veta. När våra
möjligheter att hitta korrelationer som kan styrka allsjöns märkliga påståenden växer lavinartat är det av yttersta vikt att vi har tillräckligt med självdisciplin och –distans
för att omfamna även den data som inte ger oss rätt i sak. Grunden för sann
vetenskap är insikten att det vi tror oss veta idag med stor sannolikhet är
utdaterat, överspelat och kanske till och med utskrattat imorgon. Men utan
dagens rön har vi inga medel för att nå fram till morgondagens gäckande
upptäckter. Det är denna växelverkan som all forskning är desperat beroende av
för sin utveckling och fortsatta relevans, och Big Data bereder oss bättre
förutsättningar för att förvalta och bygga vidare på denna princip än vad vi
någonsin har haft. Men med fel uppsåt kan det slå bakut, så alla – framför allt
den statistiska forskningens fågelholksimitatörer till noviser som undertecknad
– bör vara på sin vakt. De märkliga korrelationerna är just korrelationer, och
bör tills ett kausalt samband dem emellan på ett övertygande och välargumenterat sätt kan bevisas
inte bör antas vara något annat.
I nästa del kommer frågan om varför vi så gärna låter
Big Data invagga oss i en falsk, orsaksviss trygghet att tas upp, med
utgångspunkt i Daniel Kahnemans populärpsykologiska epos "Tänka Snabbt och
Långsamt".
Inspiration
och källor:
Jim
Endersby: A Guinea Pig's Guide To Biology
Tyler Vigen: Spurious Correlations
Håkan Lindgren: "Är vi blåsta av Big Data?", SvD,
12 okt 2015
Inga kommentarer:
Skicka en kommentar