Samplaus (sampling) on analytiikassa käytetty menetelmä, jossa raportti lasketaan vain osan datasta sen sijaan että käytettäisiin kaikkea dataa. Tämä nopeuttaa raporttien luomista suurilla sivustoilla, mutta heikentää tarkkuutta. Samplaus tapahtuu automaattisesti, kun datamäärä ylittää tietyn rajan.
Samplauksen toimintaperiaate
Kun sivusto kerää valtavia datamääriä (miljoonia tapahtumia), kaiken datan analysointi reaaliajassa on laskennallisesti raskasta. Google Analyticsin ratkaisuna on ottaa satunnainen otos datasta ja ekstrapoloida (laskea) kokonaistulos sen perusteella.
Esimerkiksi:
- Sivustolla on 10 miljoonaa tapahtumaa
- GA4 ottaa 10 % otoksen eli 1 miljoona tapahtumaa
- Raportti lasketaan tämän 1 miljoonan perusteella
- Tulokset kerrotaan 10:llä saadakseen kokonaisarviot
Samplaus-prosentti näkyy raportissa vihreänä ikonina: esim. “Based on 10% of sessions”. Jos otos on 100 %, samplausta ei ole käytetty ja raportti on täysin tarkka.
Milloin samplausta tapahtuu
Google Analytics 4:ssä samplaus tapahtuu automaattisesti, kun:
Exploration-raportit – Jos päivämääräväli on pitkä tai segmenttejä on useita, GA4 voi käyttää samplausta. Yleensä otanta alkaa, jos data ylittää noin 10 miljoonaa tapahtumaa kyselyssä.
Pitkät aikavälit – Jos raportti kattaa esimerkiksi koko vuoden ja sivusto on suuriliikkeinen, samplaus on todennäköisempi.
Monimutkaiset kyselyt – Kun käytetään useita dimensioita, mittareita ja suodattimia, laskenta on raskasta ja samplaus aktivoituu herkemmin.
Perusraportit (Reports-osio) – Nämä raportit ovat esilaadittuja eivätkä yleensä käytä samplausta, koska Google laskee ne etukäteen.
Pk-yritysten sivustoilla (alle 1 miljoonaa tapahtumaa kuukaudessa) samplausta tapahtuu harvoin. Se on ongelma lähinnä suurilla yrityksillä ja verkkokaupilla, joilla on satoja tuhansia tai miljoonia kävijöitä.
Samplauksen vaikutus raportteihin
Samplaus ei välttämättä ole ongelma, jos otos on riittävän suuri. Jos otos on 50 % (puolet kaikesta datasta), tulokset ovat yleensä hyvin tarkkoja. Ongelma syntyy, kun otos on pieni (esim. 1–5 %), jolloin:
Pienet luvut vääristyvät – Jos todellisuudessa tapahtuma on sattunut 10 kertaa, 1 % otos voi jättää sen kokonaan näkemättä tai näyttää sen 20 kertana.
Trendit säilyvät – Kokonaistrendit (kasvu vs. lasku) näkyvät yleensä oikein, mutta tarkat luvut voivat olla virheellisiä.
Segmenttivertailu kärsii – Kun verrataan kahta segmenttiä (esim. mobiili vs. työpöytä), samplaus voi vääristää eroja jos otos on epätasapainossa.
Pk-yritykselle samplaus ei yleensä ole huolenaihe, koska datamäärät ovat hallittavia. Mutta jos huomaat vihreän samplaus-ikonin raportissa, on hyvä tietää että luvut ovat arvioita eivätkä absoluuttisia.
Samplauksen välttäminen
Jos samplaus haittaa analyysejä, on muutama keino välttää sitä:
Lyhennä päivämääräväliä – Sen sijaan että analysoit koko vuoden kerralla, jaa analyysi kuukausittaisiin osiin ja yhdistä tulokset manuaalisesti.
Vähennä dimensioita ja suodattimia – Yksinkertaisemmat kyselyt eivät laukaise samplausta yhtä helposti.
Käytä perusraportteja Exploration-raporttien sijaan – Perusraportit (Reports-osiossa) perustuvat esiladattuun dataan eivätkä yleensä käytä samplausta.
BigQuery-integraatio – Kun GA4-data viedään BigQueryyn, voit tehdä kyselyitä täyteen, samplamattomaan dataan. Tämä on ainoa tapa taata 100 % tarkkuus suurilla sivustoilla.
Google Analytics 360 – Maksullinen GA4 360 -versio tarjoaa korkeammat samplaus-rajat ja paremman suorituskyvyn. Tämä on kuitenkin kallista (noin 150 000 $/vuosi) ja sopii vain suurille yrityksille.
Samplaus vs. BigQuery
Pk-yritykselle, joka kohtaa samplaus-ongelmia, BigQuery on paras ratkaisu. BigQuery ei käytä samplausta – jokainen kysely analysoi kaikki tapahtumat. Tämä tarkoittaa:
- 100 % tarkkuutta
- Ei rajoituksia päivämääräväleille
- Monimutkaiset kyselyt toimivat ilman samplausta
BigQuery on ilmainen pienessä käytössä (1 TB kyselyitä/kk), joten pk-yritys voi hyödyntää sitä ilman merkittäviä kustannuksia.
Yhteenveto
Samplaus on Google Analyticsin tapa käsitellä valtavia datamääriä nopeasti, mutta se heikentää raporttien tarkkuutta. Pk-yritykselle se on harvoin ongelma, koska datamäärät eivät yleensä ylitä samplaus-rajoja. Jos samplausta tapahtuu, lyhennä aikavälejä, yksinkertaista kyselyitä tai harkitse BigQuery-integrointia täydellisen tarkkuuden saavuttamiseksi.