← Takaisin sanastoon

Robots.txt

Robots.txt on verkkosivuston juurihakemistossa oleva tekstitiedosto, joka ohjaa hakurobottien toimintaa kertomalla, mitä sivuston osia ne saavat crawlata.

Robots.txt on verkkosivuston juurihakemistossa sijaitseva tekstitiedosto, joka antaa ohjeita hakuroboteille siitä, mitä sivuston osia ne saavat ja mitä eivät saa crawlata. Se on yksi vanhimmista ja perustavanlaatuisimmista teknisen SEO:n työkaluista.

Miten robots.txt toimii?

Robots.txt-tiedosto sijaitsee aina sivuston juuressa osoitteessa esimerkiksi sivusto.fi/robots.txt. Kun hakurobotti saapuu sivustolle, se lukee ensin tämän tiedoston ja noudattaa sen ohjeita. Tiedosto käyttää yksinkertaista syntaksia, jossa määritellään käyttäjäagentti (User-agent) ja sallitut tai estetyt polut (Allow/Disallow).

On tärkeää ymmärtää, että robots.txt on pyyntö, ei pakko. Hyvin käyttäytyvät hakurobotit kuten Googlebot kunnioittavat robots.txt-ohjeita, mutta haitalliset robotit voivat jättää ne huomiotta. Robots.txt ei siis ole turvallisuusmekanismi — arkaluontoista sisältöä ei pidä suojata pelkällä robots.txt-estolla.

Robots.txt:n käyttökohteet

Robots.txt on hyödyllinen työkalu crawl budgetin optimointiin. Sen avulla voidaan estää hakurobottia crawlaamasta turhia sivuja — kuten ylläpitosivuja, hakutulossivuja sivuston sisällä tai duplikaattisisältöä — ja ohjata resurssit tärkeämpiin sisältöihin.

Tyypillisiä robots.txt-estoja ovat hallintapaneelit (/admin/), sisäiset hakutulokset (/haku/), tulostusversiot ja muut tekniset sivut, joiden indeksointi ei ole tarpeellista. Robots.txt:n kautta voi myös viitata XML-sivustokarttaan, mikä auttaa hakurobottia löytämään sivuston rakenteen.

Yleisiä virheitä robots.txt:n kanssa

Yksi yleisimmistä virheistä on tärkeiden sivujen tahaton estäminen robots.txt-tiedostossa. Esimerkiksi liian laaja Disallow-sääntö voi estää hakurobottia pääsemästä CSS- ja JavaScript-tiedostoihin, jotka ovat välttämättömiä sivun renderöinnille. Tämä voi vaikuttaa negatiivisesti sivuston hakukonesijoituksiin.

Toinen yleinen harhaluulo on, että robots.txt-esto tarkoittaa sivun poistumista hakutuloksista. Todellisuudessa robots.txt estää vain crawlauksen — jos muut sivustot linkittävät estettyyn sivuun, Google voi silti näyttää sen hakutuloksissa (ilman kuvausta). Sivun poistamiseksi hakutuloksista tulee käyttää noindex-metataggia.

Merkitys yritykselle

Pienyrityksen verkkosivustolla robots.txt on tyypillisesti yksinkertainen tiedosto, joka sallii kaiken crawlauksen ja viittaa sivustokarttaan. Tärkeintä on varmistaa, ettei tiedosto vahingossa estä hakurobottia pääsemästä tärkeille sivuille. Robots.txt-tiedoston tarkistaminen Google Search Consolessa on helppo tapa varmistua sen oikeellisuudesta.

  • robots.txt
  • tekninen seo
  • crawlaus
  • hakurobotti