Useimmat kokeneet bloggaajat tietävät varmasti, mikä on robots.txt ja miksi tarvitset tätä tiedostoa. Mutta harvat kirjoittajat kiirehtivät heti luomaan robots.txt-tiedoston blogin asentamisen jälkeen WordPressiin.
Robots.txt on tekstitiedosto, joka ladataan sivustosi juurihakemistoon ja sisältää ohjeita indeksoijille. Sen käytön päätarkoitus on kieltää yksittäisten sivujen ja osioiden indeksointi sivustolla. Robots.txt-tiedoston avulla voit kuitenkin määrittää myös oikean verkkotunnuksen peilin, määrätä sivustokartan polun ja vastaavat.
Suurin osa nykyaikaisista hakukoneista on oppinut navigoimaan suositussa CMS: ssä hyvin eivätkä yleensä yritä indeksoida sisältöä, jota ei ole tarkoitettu tähän. Esimerkiksi Google ei indeksoi WordPress-blogisi järjestelmänvalvojan aluetta, vaikka et määritä sitä suoraan robots.txt-tiedostossa. Joissakin tapauksissa suorien kieltojen käyttö voi kuitenkin olla hyödyllistä. Ja puhumme ensisijaisesti päällekkäisen sisällön kieltämisestä.
Jotkut verkkovastaavat kieltävät luokkien ja tunnisteiden indeksoinnin, koska heidän sisällönsä kopioi osittain pääsivun sisällön. Mutta suurin osa rajoittuu trackback- ja feed-sivujen kieltämiseen, jotka kopioivat täysin artikkelin sisällön eivätkä ole tarkoitettu lainkaan hakukoneille. Tällainen varotoimi ei pelkästään tee sivuston tuloksista "puhtaampia", vaan myös säästää sinua mahdollisilta hakusuodattimilta varsinkin uuden Google Panda -algoritmin käyttöönoton jälkeen.
Tässä ovat robots.txt-tiedoston suositellut ohjeet (se toimii melkein missä tahansa WordPress-blogissa):
User-Agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: / wp-admin Disallow: / wp-sisältää Disallow: / wp-content / plugins Estä: / wp-content / cache Disallow: / wp-content / themes Estä: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed /
Huomaa, että robots.txt-tiedostossa olevat hallintakansiot wp-admin ja wp-include ovat täysin suljettuja indeksointia varten. Wp-content-kansio on suljettu vain osittain, koska se sisältää lataushakemiston, joka sisältää kaikki blogisi kuvat, jotka tulisi indeksoida.
Sinun tarvitsee vain kopioida ohjeet yllä olevasta koodista (huomaa, että jokainen direktiivi on kirjoitettava uudelle riville), tallentaa ne tekstitiedostoon robots.txt ja ladata ne sivustosi juurihakemistoon.
Voit aina tarkistaa, toimiiko robots.txt oikein Google Webmaster Tools- ja Yandex Webmaster -rajapintojen kautta.