Yksi työkalu sivustojen indeksoinnin hallintaan hakukoneilla on robots.txt-tiedosto. Sitä käytetään pääasiassa estämään kaikkia tai vain tiettyjä robotteja lataamasta tiettyjen sivuryhmien sisältöä. Tämän avulla voit päästä eroon "roskista" hakukoneiden tuloksissa ja joissakin tapauksissa parantaa huomattavasti resurssin sijoitusta. On tärkeää, että sinulla on oikea robots.txt-tiedosto onnistuneeseen sovellukseen.
Tarpeellinen
tekstieditori
Ohjeet
Vaihe 1
Tee luettelo roboteista, joille asetetaan erityiset poissulkemissäännöt, tai laajennetun robots.txt-standardin direktiivejä sekä epätyypillisiä ja erityisiä direktiivejä (tietyn hakukoneen laajennuksia) käytetään. Syötä tähän luetteloon valittujen robottien sivustopalvelimelle lähettämien HTTP-kyselyotsikkojen User-Agent-kenttien arvot. Robottien nimet löytyvät myös hakukoneiden sivustojen viiteosista.
Vaihe 2
Valitse niiden sivustoresurssien URL-ryhmät, joihin pääsy on evättävä jokaiselle ensimmäisessä vaiheessa kootun luettelon robotille. Suorita sama toimenpide kaikille muille roboteille (määrittelemätön joukko indeksointirobotteja). Toisin sanoen tuloksena tulisi olla useita luetteloita, jotka sisältävät linkkejä sivuston osioihin, sivuryhmiin tai mediasisällön lähteisiin, joiden indeksointi on kielletty. Jokaisen luettelon on vastattava eri robottia. Lisäksi tulisi olla luettelo kielletyistä URL-osoitteista kaikille muille roboteille. Tee luettelot, jotka perustuvat sivuston loogisen rakenteen ja palvelimen tietojen fyysisen sijainnin vertailuun sekä ryhmittelemällä sivujen URL-osoitteet niiden toiminnalliset ominaisuudet. Voit esimerkiksi lisätä kieltoluetteloihin minkä tahansa palveluluettelon (ryhmitelty sijainnin mukaan) tai kaikkien käyttäjäprofiilisivujen (ryhmitelty tarkoituksen mukaan) sisällön.
Vaihe 3
Valitse URL-merkit jokaiselle resurssille, jotka sisältyvät toisessa vaiheessa koottuihin luetteloihin. Kun käsittelet robottien poissulkemisluetteloita, jotka käyttävät vain vakio-robots.txt-direktiivejä ja määrittelemättömiä robotteja, korosta enimmäispituiset yksilölliset URL-osoitteet. Muille osoitesarjoille voit luoda malleja tiettyjen hakukoneiden määritysten mukaisesti.
Vaihe 4
Luo robots.txt-tiedosto. Lisää siihen direktiiviryhmiä, joista kukin vastaa joukkoa tiettyä robottia koskevia kieltosääntöjä, joiden luettelo laadittiin ensimmäisessä vaiheessa. Jälkimmäisen tulisi seurata joukko direktiivejä kaikille muille roboteille. Erota sääntöryhmät yhdellä tyhjällä rivillä. Jokaisen sääntöjoukon on aloitettava robotti tunnistava User-agent-direktiivi, jota seuraa Disallow-direktiivi, joka kieltää URL-ryhmien indeksoinnin. Tee kolmannessa vaiheessa saadut rivit Disallow-direktiivien arvoilla. Erota direktiivit ja niiden merkitykset kaksoispisteellä Harkitse seuraavaa esimerkkiä: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Tämä direktiivijoukko opastaa päärobottia Yandex-hakukone ei indeksoi URL-osoitetta. Joka sisältää alimerkkijonon / temp / data / images /. Se estää myös kaikkia muita robotteja indeksoimasta URL-osoitteita, jotka sisältävät / temp / data /.
Vaihe 5
Täydennä robots.txt-tiedostoa laajennetuilla vakiodirektiiveillä tai erityisillä hakukoneiden direktiiveillä. Esimerkkejä tällaisista direktiiveistä ovat: Host, Sitemap, Request-rate, Visit-time, Crawl-delay.