← Takaisin sanastoon

Samplaus

Samplaus on analytiikassa käytetty menetelmä, jossa raportteihin otetaan vain osa kaikesta datasta suorituskyvyn parantamiseksi suurilla sivustoilla.

Samplaus (sampling) on analytiikassa käytetty menetelmä, jossa raportti lasketaan vain osan datasta sen sijaan että käytettäisiin kaikkea dataa. Tämä nopeuttaa raporttien luomista suurilla sivustoilla, mutta heikentää tarkkuutta. Samplaus tapahtuu automaattisesti, kun datamäärä ylittää tietyn rajan.

Samplauksen toimintaperiaate

Kun sivusto kerää valtavia datamääriä (miljoonia tapahtumia), kaiken datan analysointi reaaliajassa on laskennallisesti raskasta. Google Analyticsin ratkaisuna on ottaa satunnainen otos datasta ja ekstrapoloida (laskea) kokonaistulos sen perusteella.

Esimerkiksi:

  • Sivustolla on 10 miljoonaa tapahtumaa
  • GA4 ottaa 10 % otoksen eli 1 miljoona tapahtumaa
  • Raportti lasketaan tämän 1 miljoonan perusteella
  • Tulokset kerrotaan 10:llä saadakseen kokonaisarviot

Samplaus-prosentti näkyy raportissa vihreänä ikonina: esim. “Based on 10% of sessions”. Jos otos on 100 %, samplausta ei ole käytetty ja raportti on täysin tarkka.

Milloin samplausta tapahtuu

Google Analytics 4:ssä samplaus tapahtuu automaattisesti, kun:

Exploration-raportit – Jos päivämääräväli on pitkä tai segmenttejä on useita, GA4 voi käyttää samplausta. Yleensä otanta alkaa, jos data ylittää noin 10 miljoonaa tapahtumaa kyselyssä.

Pitkät aikavälit – Jos raportti kattaa esimerkiksi koko vuoden ja sivusto on suuriliikkeinen, samplaus on todennäköisempi.

Monimutkaiset kyselyt – Kun käytetään useita dimensioita, mittareita ja suodattimia, laskenta on raskasta ja samplaus aktivoituu herkemmin.

Perusraportit (Reports-osio) – Nämä raportit ovat esilaadittuja eivätkä yleensä käytä samplausta, koska Google laskee ne etukäteen.

Pk-yritysten sivustoilla (alle 1 miljoonaa tapahtumaa kuukaudessa) samplausta tapahtuu harvoin. Se on ongelma lähinnä suurilla yrityksillä ja verkkokaupilla, joilla on satoja tuhansia tai miljoonia kävijöitä.

Samplauksen vaikutus raportteihin

Samplaus ei välttämättä ole ongelma, jos otos on riittävän suuri. Jos otos on 50 % (puolet kaikesta datasta), tulokset ovat yleensä hyvin tarkkoja. Ongelma syntyy, kun otos on pieni (esim. 1–5 %), jolloin:

Pienet luvut vääristyvät – Jos todellisuudessa tapahtuma on sattunut 10 kertaa, 1 % otos voi jättää sen kokonaan näkemättä tai näyttää sen 20 kertana.

Trendit säilyvät – Kokonaistrendit (kasvu vs. lasku) näkyvät yleensä oikein, mutta tarkat luvut voivat olla virheellisiä.

Segmenttivertailu kärsii – Kun verrataan kahta segmenttiä (esim. mobiili vs. työpöytä), samplaus voi vääristää eroja jos otos on epätasapainossa.

Pk-yritykselle samplaus ei yleensä ole huolenaihe, koska datamäärät ovat hallittavia. Mutta jos huomaat vihreän samplaus-ikonin raportissa, on hyvä tietää että luvut ovat arvioita eivätkä absoluuttisia.

Samplauksen välttäminen

Jos samplaus haittaa analyysejä, on muutama keino välttää sitä:

Lyhennä päivämääräväliä – Sen sijaan että analysoit koko vuoden kerralla, jaa analyysi kuukausittaisiin osiin ja yhdistä tulokset manuaalisesti.

Vähennä dimensioita ja suodattimia – Yksinkertaisemmat kyselyt eivät laukaise samplausta yhtä helposti.

Käytä perusraportteja Exploration-raporttien sijaan – Perusraportit (Reports-osiossa) perustuvat esiladattuun dataan eivätkä yleensä käytä samplausta.

BigQuery-integraatio – Kun GA4-data viedään BigQueryyn, voit tehdä kyselyitä täyteen, samplamattomaan dataan. Tämä on ainoa tapa taata 100 % tarkkuus suurilla sivustoilla.

Google Analytics 360 – Maksullinen GA4 360 -versio tarjoaa korkeammat samplaus-rajat ja paremman suorituskyvyn. Tämä on kuitenkin kallista (noin 150 000 $/vuosi) ja sopii vain suurille yrityksille.

Samplaus vs. BigQuery

Pk-yritykselle, joka kohtaa samplaus-ongelmia, BigQuery on paras ratkaisu. BigQuery ei käytä samplausta – jokainen kysely analysoi kaikki tapahtumat. Tämä tarkoittaa:

  • 100 % tarkkuutta
  • Ei rajoituksia päivämääräväleille
  • Monimutkaiset kyselyt toimivat ilman samplausta

BigQuery on ilmainen pienessä käytössä (1 TB kyselyitä/kk), joten pk-yritys voi hyödyntää sitä ilman merkittäviä kustannuksia.

Yhteenveto

Samplaus on Google Analyticsin tapa käsitellä valtavia datamääriä nopeasti, mutta se heikentää raporttien tarkkuutta. Pk-yritykselle se on harvoin ongelma, koska datamäärät eivät yleensä ylitä samplaus-rajoja. Jos samplausta tapahtuu, lyhennä aikavälejä, yksinkertaista kyselyitä tai harkitse BigQuery-integrointia täydellisen tarkkuuden saavuttamiseksi.

  • analytiikka
  • data
  • suorituskyky