Robots Exclusion Standard

Uppslagsordet ”Robots.txt” leder hit. För Wikipedias robots.txt-fil, se MediaWiki:Robots.txt och sv.wikipedia.org/robots.txt.

Robots Exclusion Standard, även Robots Exclusion Protocol, robots.txt-protokoll är ett sätt att be sökspindlar och andra robotar, alltså datorprogram som samlar information åt söktjänster på Internet eller annars automatiskt eller halvautomatiskt besöker många webbsidor, att inte besöka vissa delar av en webbplats. Anledningen kan vara att man vill minska belastningen på servern eller förbindelsen eller undvika att inaktuella sidor eller visst material dyker upp på ett vilseledande sätt bland sökresultaten, trots att sidorna är tillgängliga för allmänheten via länkar. Metoden bygger på samarbete från söktjänsternas och robotkodarnas sida – det finns inget krav på att sökspindlar måste följa konventionen. Det finns ingen officiell standard, utan konventionen bygger på informell konsensus.

Tillämpning

Rent praktiskt tillämpas metoden i form av en fil, "robots.txt", som placeras i webbplatsens rotkatalog (/). I filen anges regler för vilka kataloger eller sidor som inte skall besökas, och det är även möjligt att ge individuella regler för olika sökspindlar.

Exempel

Detta exempel ger alla spindlar rätt att indexera alla sidor, eftersom jokertecknet "*" matchar alla spindlar och inga sidor anges som förbjudna ("disallow"):

User-agent: *
Disallow:

Detta exempel gör att inga sidor på webbplatsen indexeras (åtminstone inte av de robotar som följer konventionen)

User-agent: *
Disallow: /

Följande exempel förbjuder Googlebot (Googles sökspindel) att besöka sidan /private/private.htm och alla filer i katalogen /cgi-bin/ utom index.txt

User-agent: Googlebot
Allow: /cgi-bin/index.txt
Disallow: /cgi-bin/
Disallow: /private/private.htm

Strängen matchas mot början av sökvägen. Regeln för private.htm bör alltså tolkas att matcha också private.html. Nyckelordet "Allow" fanns inte med i den ursprungliga specifikationen, men torde numera förstås av alla viktigare robotar.

Det finns ett antal funktioner för att styra sökspindlarnas beteende, bland annat kan deras hastighet begränsas för att minska belastningen på webbservern.

Alternativ

Speciella HTML-taggar kan användas för att förhindra indexering av enskilda sidor eller delar av dem (till exempel bilder). Även detta bygger på sökspindlarnas utvecklares goda vilja.

Källor

Delar av artikeln är en översättning av motsvarande artikel på den engelskspråkiga upplagan av Wikipedia.
A Standard for Robot Exclusion, sammanfattning av de diskussioner som ledde fram till konventionen, tillgänglig på https://web.archive.org/web/20071107172207/http://www.robotstxt.org/wc/norobots.html.

Externa länkar

robotstxt.org (engelska)
Specifikation från 1997 (engelska)

Navigation

Navigering

Temaportaler