← Takaisin sanastoon

Tilastollinen merkitsevyys

Tilastollinen merkitsevyys kertoo, kuinka varmoja voimme olla siitä, että A/B-testin tulokset eivät johdu sattumasta vaan todellisesta erosta versioiden välillä.

Tilastollinen merkitsevyys on matematiikan avulla laskettu todennäköisyys sille, että A/B-testin tai muun kokeen tulokset ovat tosia eivätkä johdu pelkästä sattumasta. Se kertoo, kuinka luotettavia testimme tulokset ovat ja voimmeko tehdä niiden perusteella päätöksiä.

Verkkosivuston optimoinnissa tilastollinen merkitsevyys on kriittinen käsite. Jos lopetamme testin liian aikaisin tai tulkitsemme satunnaista vaihtelua todelliseksi eroksi, saatamme tehdä virheellisiä päätöksiä, jotka itse asiassa heikentävät sivuston suorituskykyä.

Miksi tilastollinen merkitsevyys on tärkeä

Kuvittele että testaat kahta eri otsikkoa laskeutumissivulla. Ensimmäisen päivän jälkeen versio B näyttää tuottavan 20% paremman konversion. Tämä vaikuttaa hyvältä, mutta onko tulos luotettava vai vain sattumaa?

Satunnaisvaihtelu on todellista. Joskus parempana näyttävä versio voittaa vain siksi, että sille sattui ohjautumaan enemmän ostovalmiita kävijöitä sinä hetkenä. Kun testiä jatketaan, ero saattaa hävitä tai jopa kääntyä. Tilastollinen merkitsevyys auttaa erottamaan todellisen eron satunnaisesta vaihtelusta.

Pk-yritykselle virheelliset päätökset voivat olla kalliita. Jos implementoit version, joka itse asiassa toimii huonommin, menetät liidejä ja asiakkaita. Tilastollinen merkitsevyys toimii suojana tällaisia virheitä vastaan.

Luottamustaso ja p-arvo

Tilastollista merkitsevyyttä mitataan kahdella keskeisellä käsitteellä: luottamustasolla ja p-arvolla. Luottamustaso (usein 95% tai 99%) kertoo, kuinka varmoja haluamme olla tuloksesta. 95% luottamustaso tarkoittaa, että vain 5% todennäköisyydellä tulos johtuu sattumasta.

P-arvo on todennäköisyys sille, että havaittu ero voisi syntyä sattumasta, vaikka versioiden välillä ei olisi todellista eroa. Jos p-arvo on 0.05 tai pienempi, tulos katsotaan yleisesti tilastollisesti merkitseväksi 95% luottamustasolla.

Käytännössä tämä tarkoittaa: jos A/B-testimme saavuttaa 95% luottamustason ja p-arvo on 0.03, voimme olla 95% varmoja siitä, että näkemämme ero versioiden välillä on todellinen eikä satunnaista vaihtelua.

Useimmat A/B-testaustyökalut laskevat nämä arvot automaattisesti ja ilmoittavat kun testi on saavuttanut tilastollisen merkitsevyyden. Sinun ei tarvitse tehdä manuaalisia laskuja, mutta on hyvä ymmärtää mitä luvut tarkoittavat.

Kuinka saavuttaa tilastollinen merkitsevyys

Tilastollinen merkitsevyys vaatii riittävän määrän dataa. Mitä pienempi ero versioiden välillä, sitä enemmän tarvitset kävijöitä. Jos versio B on 50% parempi kuin A, ero näkyy nopeasti. Jos ero on vain 5%, tarvitaan tuhansia kävijöitä merkitsevyyden saavuttamiseksi.

Älä lopeta testiä liian aikaisin, vaikka näyttäisi siltä että toinen versio voittaa selvästi. Anna testin pyöriä vähintään 1-2 viikkoa saadaksesi dataa eri viikonpäiviltä ja välttääksesi viikonpäivien väliset erot. Esimerkiksi B2B-sivustolla viikonloppuliikenne käyttäytyy eri tavalla kuin arkiliikenne.

Älä myöskään kurkista tuloksia jatkuvasti ja lopeta testiä heti kun merkitsevyys saavutetaan. Tämä “p-hacking” voi johtaa virheellisiin tuloksiin. Aseta ennalta tietty minimiaika tai kävijämäärä ja pidä siitä kiinni.

Jos sivustollasi on vähän liikennettä, keskity testaamaan suurempia muutoksia, jotka todennäköisemmin tuottavat selviä eroja. Pienten nyanssien testaaminen vaatii niin paljon liikennettä, ettei se ole realistista pienille sivustoille.

Yhteenveto

Tilastollinen merkitsevyys mittaa sitä, kuinka luotettavia A/B-testin tulokset ovat ja voimmeko olla varmoja siitä, että näkemämme ero ei johdu sattumasta. Se esitetään yleensä luottamustasona (esim. 95%) ja p-arvona. Tilastollinen merkitsevyys on kriittinen käsite verkkosivuston optimoinnissa, koska se suojaa tekemästä virheellisiä päätöksiä satunnaisen vaihtelun perusteella. Merkitsevyyden saavuttamiseksi tarvitaan riittävästi dataa, aikaa ja kärsivällisyyttä olla lopettamatta testiä liian aikaisin.

  • tilastollinen merkitsevyys
  • testaus
  • tilastot
  • luotettavuus