Crawlaus eli indeksoijan ryömintä (Crawling) tarkoittaa prosessia, jossa hakukoneen robotti — kuten Googlebot — käy järjestelmällisesti läpi verkkosivuston sivuja, seuraa linkkejä ja kerää sivujen sisällön analysointia ja indeksointia varten.
Miten crawlaus toimii?
Hakukoneen robotti aloittaa crawlauksen tyypillisesti tunnetuista sivuista, kuten sivuston etusivulta tai aiemmin indeksoiduilta sivuilta. Sieltä se seuraa sivuilla olevia linkkejä löytääkseen uusia sivuja. Tätä prosessia jatketaan linkkejä pitkin, kunnes robotti on käynyt läpi kaikki löydettävissä olevat sivut.
Crawlauksen aikana robotti lataa jokaisen sivun, lukee sen lähdekoodin ja analysoi sisällön, otsikot, metatiedot, kuvat ja linkit. Kerätty tieto välitetään eteenpäin indeksointiprosessille, jossa päätetään, tallennetaanko sivu hakukoneen tietokantaan ja miten se luokitellaan.
Hakukone ei crawlaa kaikkia sivuja yhtä usein. Usein päivittyvät sivut — kuten uutissivustot — crawlataan useammin, kun taas harvoin muuttuvia sivuja käydään läpi harvemmin. XML-sivustokartta ja sivuston sisäinen linkkirakenne auttavat robottia löytämään ja priorisoimaan tärkeimmät sivut.
Crawlauksen optimointi
Crawlauksen optimointi on tärkeä osa teknistä hakukoneoptimointia. Tavoitteena on varmistaa, että hakurobotti löytää ja pääsee käsiksi kaikkiin tärkeisiin sivuihin mahdollisimman tehokkaasti. Tähän vaikuttavat sivuston rakenne, sisäinen linkitys, latausnopeus ja robots.txt-tiedoston asetukset.
Hyvä sivuston rakenne tarkoittaa, että jokainen tärkeä sivu on saavutettavissa muutamalla klikkauksella etusivulta. Liian syvällä sivuston hierarkiassa olevat sivut voivat jäädä crawlaamatta. Selkeä ja looginen URL-rakenne sekä kattava sisäinen linkitys auttavat robottia navigoimaan sivustolla tehokkaasti.
Crawlaukseen liittyviä ongelmia
Yleisiä crawlausongelmia ovat sivut, joita robotti ei löydä lainkaan (orphan pages), hitaat latausajat jotka kuluttavat crawl budgettia, JavaScript-pohjainen sisältö jota robotti ei pysty lukemaan ja robots.txt-tiedoston liian tiukat estot.
Myös loputtomiin jatkuvat URL-parametrit ja kalenteri-sivut voivat luoda niin sanottuja crawl-loukkuja, joissa robotti käyttää resurssejaan tarpeettomien sivujen crawlaamiseen. Nämä ongelmat voidaan ratkaista oikeanlaisella robots.txt-konfiguraatiolla ja canonical-tagien käytöllä.
Merkitys yritykselle
Pienyrityksen sivustolla crawlaus harvoin aiheuttaa ongelmia, koska sivusto on tyypillisesti pieni ja hakurobotilla on riittävästi resursseja käydä se kokonaan läpi. Tärkeintä on varmistaa, ettei tärkeitä sivuja ole vahingossa estetty hakurobotilta ja että sivuston rakenne on selkeä. Google Search Console tarjoaa crawlausraportin, josta voi seurata mahdollisia ongelmia.