Robots.txt on verkkosivuston juurihakemistossa sijaitseva tekstitiedosto, joka antaa ohjeita hakuroboteille siitä, mitä sivuston osia ne saavat ja mitä eivät saa crawlata. Se on yksi vanhimmista ja perustavanlaatuisimmista teknisen SEO:n työkaluista.
Miten robots.txt toimii?
Robots.txt-tiedosto sijaitsee aina sivuston juuressa osoitteessa esimerkiksi sivusto.fi/robots.txt. Kun hakurobotti saapuu sivustolle, se lukee ensin tämän tiedoston ja noudattaa sen ohjeita. Tiedosto käyttää yksinkertaista syntaksia, jossa määritellään käyttäjäagentti (User-agent) ja sallitut tai estetyt polut (Allow/Disallow).
On tärkeää ymmärtää, että robots.txt on pyyntö, ei pakko. Hyvin käyttäytyvät hakurobotit kuten Googlebot kunnioittavat robots.txt-ohjeita, mutta haitalliset robotit voivat jättää ne huomiotta. Robots.txt ei siis ole turvallisuusmekanismi — arkaluontoista sisältöä ei pidä suojata pelkällä robots.txt-estolla.
Robots.txt:n käyttökohteet
Robots.txt on hyödyllinen työkalu crawl budgetin optimointiin. Sen avulla voidaan estää hakurobottia crawlaamasta turhia sivuja — kuten ylläpitosivuja, hakutulossivuja sivuston sisällä tai duplikaattisisältöä — ja ohjata resurssit tärkeämpiin sisältöihin.
Tyypillisiä robots.txt-estoja ovat hallintapaneelit (/admin/), sisäiset hakutulokset (/haku/), tulostusversiot ja muut tekniset sivut, joiden indeksointi ei ole tarpeellista. Robots.txt:n kautta voi myös viitata XML-sivustokarttaan, mikä auttaa hakurobottia löytämään sivuston rakenteen.
Yleisiä virheitä robots.txt:n kanssa
Yksi yleisimmistä virheistä on tärkeiden sivujen tahaton estäminen robots.txt-tiedostossa. Esimerkiksi liian laaja Disallow-sääntö voi estää hakurobottia pääsemästä CSS- ja JavaScript-tiedostoihin, jotka ovat välttämättömiä sivun renderöinnille. Tämä voi vaikuttaa negatiivisesti sivuston hakukonesijoituksiin.
Toinen yleinen harhaluulo on, että robots.txt-esto tarkoittaa sivun poistumista hakutuloksista. Todellisuudessa robots.txt estää vain crawlauksen — jos muut sivustot linkittävät estettyyn sivuun, Google voi silti näyttää sen hakutuloksissa (ilman kuvausta). Sivun poistamiseksi hakutuloksista tulee käyttää noindex-metataggia.
Merkitys yritykselle
Pienyrityksen verkkosivustolla robots.txt on tyypillisesti yksinkertainen tiedosto, joka sallii kaiken crawlauksen ja viittaa sivustokarttaan. Tärkeintä on varmistaa, ettei tiedosto vahingossa estä hakurobottia pääsemästä tärkeille sivuille. Robots.txt-tiedoston tarkistaminen Google Search Consolessa on helppo tapa varmistua sen oikeellisuudesta.