Anonymisointi — Miten data tehdään tunnistamattomaksi ja milloin se on tarpeen

Anonymisointi tarkoittaa henkilötietojen muokkaamista niin, ettei henkilöä voi enää tunnistaa. Opi miten anonymisointi eroaa pseudonymisoinnista, mitkä menetelmät toimivat ja mitä GDPR sanoo.

Anonymisointi (anonymization) on prosessi, jossa henkilötiedoista poistetaan kaikki tunnisteet ja tunnisteisiin viittaavat tiedot pysyvästi ja peruuttamattomasti, siten että yksittäistä henkilöä ei voi enää tunnistaa datasta millään järkevillä keinoilla. Anonymisoitu data ei ole enää henkilötietoa GDPR:n mukaan.

Anonymisoinnin määritelmä GDPR:ssä

GDPR:n johdanto-osan kappale 26 määrittää, että anonymisointi poistaa datan GDPR:n soveltamisalasta. Jos data on aidosti anonymisoitu, sitä ei pidetä henkilötietona, eikä GDPR:ää sovelleta.

Peruuttamattomuus on avain. Anonymisoinnin tulee olla pysyvä prosessi, joka ei ole käännettävissä. Jos data voidaan yhdistää takaisin yksilöön, se ei ole anonymisoitu, vaan pseudonymisoitu.

Järkevät keinot -testi: Anonymisoinnin tulee estää tunnistaminen kaikilla järkevillä keinoilla, ottaen huomioon nykyiset ja tulevat teknologiat sekä kustannukset. Jos tunnistaminen on teoreettisesti mahdollista mutta käytännössä mahdotonta, data voi olla anonymisoitu.

Anonymisointitekniikat

Datan poisto eli suppression tarkoittaa tunnisteiden poistamista kokonaan. Esim. nimet, sähköpostiosoitteet, henkilötunnukset, IP-osoitteet poistetaan datasta.

Generalisointi tarkoittaa datan karkeistamista. Esim. tarkka ikä (32 vuotta) korvataan ikäryhmällä (30-40 vuotta), tarkka osoite (Mannerheimintie 12) korvataan kaupungilla (Helsinki), tarkka palkka (45 000 €) korvataan palkkaluokalla (40 000–50 000 €).

Aggregointi yhdistää usean henkilön tiedot summaksi tai keskiarvoksi. Esim. “250 käyttäjää Helsingistä” sen sijaan, että listattaisiin jokainen henkilö erikseen.

Data masking tai randomization lisää kohinaa dataan tai sekoittaa arvoja siten, että alkuperäistä ei voi palauttaa.

K-anonymiteetti on tekniikka, jossa varmistetaan, että jokainen henkilö on erottamaton vähintään k-1 muusta henkilöstä datassa. Esim. jos k=5, jokainen rivi datassa on identtinen vähintään 4 muun rivin kanssa.

Anonymisointi vs. pseudonymisointi

Pseudonymisointi korvaa tunnisteet pseudonyymillä (esim. satunnaisella ID:llä), mutta yhdistäminen takaisin yksilöön on mahdollista käyttämällä erillistä avainta. Pseudonymisoidut tiedot ovat edelleen henkilötietoja GDPR:n mukaan.

Anonymisointi poistaa mahdollisuuden tunnistaa henkilö pysyvästi. Ei ole mitään avainta tai keinoa yhdistää dataa takaisin yksilöön.

GDPR soveltuu pseudonymisoituun dataan, mutta ei anonymisoituun dataan. Tämä tekee anonymisoinnista houkuttelevan, mutta samalla vaikeamman toteuttaa oikein.

Anonymisoinnin haasteet

Uudelleen tunnistamisen riski on todellinen. Tutkimukset ovat osoittaneet, että näennäisesti anonymisoitu data voidaan usein yhdistää muihin datasetteihin ja tunnistaa yksilöt. Esim. postinumero + ikä + sukupuoli voivat riittää tunnistamiseen pienillä paikkakunnilla.

Linkitettävyys muihin tietoihin voi paljastaa identiteetin. Vaikka yhden datasettin tiedot olisivat anonymisoituja, niiden yhdistäminen julkisiin tai vuotaneisiin datasetteihin voi mahdollistaa tunnistamisen.

Datan hyödyllisyys kärsii. Mitä enemmän dataa anonymisoidaan (generalisoidaan, aggregoidaan), sitä vähemmän siitä on hyötyä analytiikkaan ja personointiin.

Teknologian kehitys muuttaa peliä. Tekoäly ja koneoppiminen voivat löytää malleja ja yhdistää dataa tavoilla, jotka eivät olleet mahdollisia aikaisemmin. Tämä tekee “järkevät keinot” -testin arvioinnista vaikeaa.

Aidot käyttötapaukset

Tutkimusdata voidaan anonymisoida, jotta sitä voi jakaa tutkijoiden kesken ilman yksityisyyden vaarantumista. Esim. lääketieteellinen data, josta on poistettu kaikki tunnisteet.

Aggregate analytics eli aggregoitu analytiikka, esim. “1000 käyttäjää klikkaisi tätä nappia” vs. “Käyttäjä X klikkaisi”. Tämä on hyödyllistä trendianalyysiin ilman yksilöiden seurantaa.

Julkiset datasetit, kuten väestötilastot, voivat olla anonymisoituja, jotta ne voidaan julkaista avoimesti ilman yksityisyyteen liittyviä huolia.

Väärinkäsityksiä anonymisoinnista

“Poistimme nimet, joten se on anonymisoitu” – Ei riitä. Muut tiedot (ikä, asuinpaikka, ammatti) voivat silti tunnistaa henkilön.

“Käytämme satunnaista ID:tä, joten se on anonymisoitu” – Ei, se on pseudonymisoitu. Jos ID voidaan yhdistää takaisin henkilöön, se on henkilötieto.

“Aggregoimme datan, joten se on anonymisoitu” – Ei välttämättä. Pienet ryhmät voivat silti olla tunnistettavissa. Esim. “Yksi 65-vuotias naispuolinen toimitusjohtaja Helsingissä” voi olla tunnistettavissa.

Merkitys yritykselle

Aito anonymisointi on vaikeaa, mutta jos se onnistuu, data ei ole enää henkilötietoa eikä GDPR:ää sovelleta. Tämä vapauttaa datan käytön moniin tarkoituksiin ilman suostumusvaatimuksia.

Pk-yritykselle varoitus: älä oleta, että olet anonymisoinut datan oikein ilman asiantuntija-apua. Virhe voi johtaa GDPR-rikkomukseen ja sakkoihin.

Pseudonymisointi on useimmissa tapauksissa turvallisempi valinta, jos tarvitset mahdollisuuden yhdistää data takaisin yksilöön (esim. asiakaspalvelua varten). Se on helpompi toteuttaa ja GDPR hyväksyy sen suojatoimena.

Jos tavoitteesi on julkaista dataa tai jakaa sitä kolmansille osapuolille tutkimusta varten, harkitse anonymisointia, mutta konsultoi tietosuoja-asiantuntijaa varmistaaksesi, että se on tehty oikein.

Anonymisointi ei ole “aseta ja unohda” -ratkaisu. Teknologian kehittyessä aiemmin anonymisoidut datasetit voivat tulla uudelleen tunnistettaviksi. Seuraa alan kehitystä ja arvioi riskejä säännöllisesti.

Anonymisointi (Anonymization)

Anonymisoinnin määritelmä GDPR:ssä

Anonymisointitekniikat

Anonymisointi vs. pseudonymisointi

Anonymisoinnin haasteet

Aidot käyttötapaukset

Väärinkäsityksiä anonymisoinnista

Merkitys yritykselle

Aiheeseen liittyvät termit

GDPR

Privacy by Design

Pseudonymisointi (Pseudonymization)

App Tracking Transparency

CCPA

CNAME Cloaking

Käytämme evästeitä 🍪