Toistettavuuskriisi eli miksi suurin osa julkaistuista tutkimustuloksista on pelkkää kohinaa. Osa 1: Mistä on kysymys

Toistettavuuskriisistä ei ole kirjoitettu kovin paljon Suomessa tai suomeksi. Kriisistä on uutisoinut Suomessa Tekniikan maailma 2017 otsikolla ”Suuri osa tutkimuksista on satunnaista kohinaa” ja Suomen Kuvalehti 2015 ”Hätkähdyttävä tulos: Suuri osa psykologisista tutkimustuloksista on vääriä”. Vähäinen näkyvyys mediassa on yllättävää, sillä kyseessä on massiivinen ja useita eri tieteenaloja koskeva ongelma. Mahdollisesti tässä on juuri syy vähäiseen käsittelyyn: olemme tottuneet luottamaan tieteeseen niin vakaasti, että tilannetta on vaikea uskoa todeksi. Kriisin ytimessä on hyvin yksinkertainen havainto: tutkimuksia ei onnistuta toistamaan. Syiden ja seurausten arviointi kuitenkin vaatii paitsi huomattavasti aikaa, myös syvällistä ymmärrystä tilastotieteestä ja tieteenfilosofiasta. Aion itse käydä aihetta läpi lähinnä psykologian näkökulmasta.

Kriisin ytimessä on 2011 Journal of Personality and Social Psychology -lehdessä julkaistu artikkeli Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect. Tutkimuksessaan Daryl Bem näytti kokeellisesti, että on mahdollista nähdä tulevaisuuteen. Tarkemmin, priming-efekti voi toimia tulevaisuudesta menneisyyteen. Tutkimukseen osallistuneet henkilöt pystyivät esimerkiksi arvaamaan, mikä seksiasento tulisi näkymään heille hetkeä myöhemmin esitetyssä kuvassa. Tutkimus oli suoritettu kaikkien normaalikäytäntöjen mukaisesti. Bem tiesi aiheen olevan tulenarka, ja huolehti siis tarkasti, että kaikki oli tehty juuri oikein. Myös vertaisarvioijat totesivat, ettei tutkimusasetelmassa tai metodeissa löydy moitittavaa. Otoskokokin oli verrattain suuri, yhdeksään kokeeseen osallistui yhteensä yli tuhat henkilöä. Kyse ei myöskään ole huijauksesta. Efekti oli hyvin pieni: osallistujat pystyivät siis ennustamaan tulevaisuutta vain hieman paremmin kuin arvaamalla. Toisaalta myös esimerkiksi tieto aspiriinin tehosta sydänkohtausten ehkäisyssä perustuu tutkimuksiin, joissa on havaittu vain hyvin pieni efektikoko.

Jos olisi toimittu vakiintuneen tieteellisen käytännön mukaisesti, Bemin tutkimuksen olisi arvioitu olevan selkeää näyttöä siitä, että voimme todellakin nähdä tulevaisuuteen. Jäi siis vain kaksi vaihtoehtoa: joko se mitä luulemme tietävämme maailmasta onkin väärin ja on mahdollista nähdä tulevaisuuteen, tai psykologian metodologiassa on jotakin pahasti vialla. Jälkimmäinen tarkoittaa myös, että hyvin suuri osa siitä, mitä luulemme tietävämme ihmismielestä ei pidäkään paikkaansa. Osa tutkijoista kallistui ensimmäiselle kannalle. Kesällä 2018 arvostetussa American Psychologist -lehdessä julkaistussa artikkelissa todetaan, että näyttö parapsykologisista ilmiöistä on yhtä vahvaa kuin muistakin psykologisista ilmiöistä. Monet eivät kuitenkaan olleet yhtä vakuuttuneita, vaan käänsivät katseen psykologian tutkimusmetodeihin. Joseph Simmons, Leif Nelson ja Uri Simonsohn perustelivat 2011 julkaistussa artikkelissaan, miten tavanmukaiset tutkimuskäytännöt lisäävät väärien positiivisten määrää huomattavasti enemmän kuin osasimme kuvitella. He demonstroivat tätä toteuttamalla tutkimuksen, jossa tietyn musiikkikappaleen kuuntelu nuorensi kuulijaa puolitoista vuotta kronologisessa iässä. Tämä on tietysti mahdotonta, mutta myös tämä tutkimus oli toteutettu täysin vallitsevien käytäntöjen mukaisesti.

John Ioannidis listasi jo ennen toistettavuuskriisiä, vuonna 2005 julkaistussa artikkelissaan ”Why Most Published Research Findings Are False” psykologian metodologisia ongelmia. Hän totesi, että todennäköisesti suurin osa tutkimustuloksista on erilaisten vinoumien ja metodologisten ongelmien vuoksi virheellisiä. Vuonna 2015 The Reproducibility -projektissa Virginian yliopistossa pyrittiin toistamaan aiempia psykologian tutkimuksia. Projektiin osallistui 270 tutkijaa, jotka yrittivät toistaa sata psykologian tutkimusta. Tuloksista 37% oli tilastollisesti merkitseviä, kun alkuperäisissä tutkimuksissa vastaava prosentti oli 97. Lisäksi efektikoot olivat puolet pienempiä. Myös syöpätutkimuksia yritettiin toistaa, samankaltaisin tuloksin. Seuraavana vuonna Nature -lehdessä julkaistun tutkimusraportin mukaan 70% tutkijoista on epäonnistunut yrityksessä toistaa kollegan tekemä tutkimus ja puolet oli epäonnistunut oman tutkimuksen toistamisessa. Tulos koski paitsi psykologiaa, myös sosiaalipsykologiaa, kemiaa, biologiaa, fysiikkaa ja lääketiedettä.

Daryl Bem pyrki tutkimuksessaan osoittamaan primingin eli virittämisen toimivan tulevaisuudesta menneisyyteen. Hänen ideansa perustui psykologiassa melko vakiintuneelle ja paljon näyttöä taakseen keränneelle teorialle, jonka mukaan aiempi hienovarainenkin ärsyke vaikuttaa alitajuisesti sitä seuraavan tiedon käsittelyyn ja käyttäytymiseen. Merkittäviä priming-tutkimuksia ei kuitenkaan nyt onnistuta toistamaan. Dijksterhuisin ja Knippenbergin tutkimus, jossa osallistujat kuvittelivat olevansa professoreja tai jalkapallohuligaaneja ennen tietovisaa, pyrittiin toistamaan 23 laboratoriossa yhteensä yli neljäntuhannen osallistujan voimin (O’Donnell ym., 2018). Toisin kuin alkuperäisessä tutkimuksessa, ryhmien välillä ei ollut eroja. Myös tutkimus, jossa vanhuuteen liittyvien sanojen lukeminen sai osallistujat kävelemään hitaammin (Bargh, ym., 1996) yritettiin toistaa onnistumatta siinä (Doyen, ym., 2012).

Yksi tunnetuimmista esimerkeistä on Amy Cuddyn, Dana Carneyn ja Andy Yapin power posing -tutkimus. He julkaisivat 2010 Psychological Science -lehdessä artikkelin, jonka mukaan itsevarman, dominoivan asennon ottaminen nosti testosteronitasoja, laski kortisolitasoa, lisäsi riskinottoa ja sai asennon ottaneen henkilön tuntemaan olonsa voimakkaammaksi. Amy Cuddyn TED talk aiheesta on kerännyt kymmeniä miljoonia katsojia. Alkuperäisen tutkimuksen otoskoko oli pieni, 42 osallistujaa. Tutkimus toistettiin 200 osallistujan voimin, testosteronitasot eivät nousseet, kortisolitasot eivät laskeneet ja power posing ei vaikuttanut osallistujien suorituksiin (Ranehill ym., 2015). Asennon lisäksi myös ilmeidemme on väitetty vaikuttavan siihen, mitä tunnemme. Strack, Martin ja Stepper julkaisivat 1988 paljon viitatun tutkimuksen, jossa puolet osallistujista laitettiin pitämään kynää hampaidensa välissä, mikä pakotti heidän kasvoilleen hymyn ja toinen puoli piti kynää huuliensa välissä saaden aikaan harmistuneen ilmeen. Pakotettu hymy sai osallistujat pitämään heille näytettyä piirrettyä hauskempana verrattuna kynää huultensa välissä pitäviin osallistujiin. Tutkimuksen yritti toistaa 17 toisistaan riippumatonta tutkimusryhmää, osallistujia oli yhteensä kaksi tuhatta (Wagenmakers ym., 2016). Ryhmien välillä ei ollut eroa.

Miksi tieteellisen tutkimuksen tulokset sitten tulisi pystyä toistamaan? Toistettavuus ei sinänsä ole välttämätöntä, jotta tutkimusta voitaisiin kutsua tieteelliseksi. Usein esimerkiksi laadullisissa tutkimuksissa pyritään kuvaamaan jotakin ainutkertaista ilmiötä, jonka ei ole tarkoituskaan toistua aivan samanlaisena. Psykologian tutkimuksessa kuitenkin yleensä pyritään tekemään yleistyksiä ja ennusteita, jolloin vähintäänkin samoissa olosuhteissa ja samoilla menetelmillä tulosten tulisi olla toistettavissa. Jos haluamme esimerkiksi väittää ihmismielen toimivan tietyllä tavalla, tai että psykoterapia on tehokas tapa hoitaa mielenterveysongelmia, meidän pitäisi pystyä myös näyttämään, että ilmiö on toistuva eikä vain ainutkertainen tai jonkinlainen mittausvirhe.

Monet tutkijat ovat väittäneet, että replikaatiokriisissä on kysymys vain normaalista tieteen toiminnasta (ks esim. Feldman Barrett, 2015). Heidän mukaansa on täysin normaalia, että tutkimuksia ei pystytä toistamaan. Jos pyritään mittaamaan samaa ilmiötä kahdessa eri tutkimuksessa päätyen eri tuloksiin, tämä ei tarkoita, että tulokset olisivat pelkkää kohinaa tai virhe. Näin on vain osoitettu, että ilmiö tulee esiin ainoastaan tietyissä olosuhteissa. Joissain tilanteissa tämä pitääkin paikkansa. Ihmisen käyttäytyminen on monimutkaista, ja pienet muutokset tutkimusasetelmassa saattavat tästä syystä tuottaa keskenään jopa päinvastaisia tuloksia. Aiemmin mainitsemissani replikaatioyrityksissä on kuitenkin yritetty toistaa aiempi asetelma mahdollisimman täsmällisesti. Hyvän tieteellisen käytännön mukaisesti alkuperäisen tutkimuksen suorittaneiden tutkijoiden kuvaus tutkimuksen metodeista tulisi olla riittävän tarkka, jotta tulokset voitaisiin toistaa seuraamalla tätä kuvausta. Mikäli pienikin muutos esimerkiksi säässä, tietokoneen ruudun koossa tai tutkimuksen suorittaneen tutkijan vaihtuminen muuttaa tulokset täysin, epäonnistuneen replikaation viesti on sama: tulosta ei voida yleistää.

Seuraavissa postauksissa aion pureutua tarkemmin ja teknisemmin kriisin syihin sekä mahdollisiin ratkaisuihin.

blogikuva1

 

Lähteet

Baker, M. (2016). 1,500 scientists lift the lid on reproducibility. Nature, 533(7604), 452-454. https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970

Bem, D. J. (2011). Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect. Journal of personality and social psychology, 100(3), 407.

Cardeña, E. (2018). The experimental evidence for parapsychological phenomena: A review. American Psychologist. http://psycnet.apa.org/doiLanding?doi=10.1037%2Famp0000236

Doyen, S., Klein, O., Pichon, C. L., & Cleeremans, A., (2012). Behavioral priming: it’s all in the mind, but whose mind?. PloS one, 7(1), e29081. http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0029081

Feldman Barrett, (2015). Psychology Is Not in Crisis. The New York Times. https://www.nytimes.com/2015/09/01/opinion/psychology-is-not-in-crisis.html

Gustavsson, J. (2017) Nyt se on tutkittu: Suuri osa tutkimuksista on satunnaista kohinaa. Tekniikan maailmahttps://tekniikanmaailma.fi/tutkittu-suuri-osa-tutkimuksista-satunnaista-kohinaa/

Hamilo, M. (2015). Hätkähdyttävä tulos: Suuri osa psykologisista tutkimustuloksista on vääriä. Suomen Kuvalehti. https://suomenkuvalehti.fi/jutut/tiede/hatkahdyttava-tulos-suuri-osa-psykologisista-tutkimustuloksista-vaaria/

Ioannidis JPA (2005) Why Most Published Research Findings Are False. PLoS Med 2(8): e124. https://doi.org/10.1371/journal.pmed.0020124

O’Donnell, M., Nelson, L. D., Ackermann, E., Aczel, B., Akhtar, A., Aldrovandi, S., … & Balatekin, N. (2018). Registered Replication Report: Dijksterhuis and van Knippenberg (1998). Perspectives on Psychological Science, 13(2), 268-294 http://journals.sagepub.com/doi/abs/10.1177/1745691618755704?journalCode=ppsa

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251). http://science.sciencemag.org/content/349/6251/aac4716

Ranehill, E., Dreber, A., Johannesson, M., Leiberg, S., Sul, S., & Weber, R. A. (2015). Assessing the robustness of power posing: No effect on hormones and risk tolerance in a large sample of men and women. Psychological Science, 26(5), 653-656. http://journals.sagepub.com/doi/full/10.1177/0956797614553946#ref-1

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological science, 22(11), 1359-1366. http://journals.sagepub.com/doi/pdf/10.1177/0956797611417632

Wagenmakers, E. J., Beek, T., Dijkhoff, L., Gronau, Q. F., Acosta, A., Adams Jr, R. B., … & Bulnes, L. C. (2016). Registered Replication Report: Strack, Martin, & Stepper (1988). Perspectives on Psychological Science, 11(6), 917-928. http://journals.sagepub.com/doi/abs/10.1177/1745691616674458

 

Mainokset

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out /  Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out /  Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out /  Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out /  Muuta )

Muodostetaan yhteyttä palveluun %s