Robots Exclusion Standard
- Uppslagsordet ”Robots.txt” leder hit. För Wikipedias robots.txt-fil, se MediaWiki:Robots.txt och
sv.wikipedia.org/robots.txt
.
Robots Exclusion Standard, även Robots Exclusion Protocol, robots.txt-protokoll är ett sätt att be sökspindlar och andra robotar, alltså datorprogram som samlar information åt söktjänster på Internet eller annars automatiskt eller halvautomatiskt besöker många webbsidor, att inte besöka vissa delar av en webbplats. Anledningen kan vara att man vill minska belastningen på servern eller förbindelsen eller undvika att inaktuella sidor eller visst material dyker upp på ett vilseledande sätt bland sökresultaten, trots att sidorna är tillgängliga för allmänheten via länkar. Metoden bygger på samarbete från söktjänsternas och robotkodarnas sida – det finns inget krav på att sökspindlar måste följa konventionen. Det finns ingen officiell standard, utan konventionen bygger på informell konsensus.
Tillämpning
Rent praktiskt tillämpas metoden i form av en fil, "robots.txt", som placeras i webbplatsens rotkatalog (/). I filen anges regler för vilka kataloger eller sidor som inte skall besökas, och det är även möjligt att ge individuella regler för olika sökspindlar.
Exempel
Detta exempel ger alla spindlar rätt att indexera alla sidor, eftersom jokertecknet "*" matchar alla spindlar och inga sidor anges som förbjudna ("disallow"):
User-agent: * Disallow:
Detta exempel gör att inga sidor på webbplatsen indexeras (åtminstone inte av de robotar som följer konventionen)
User-agent: * Disallow: /
Följande exempel förbjuder Googlebot (Googles sökspindel) att besöka sidan /private/private.htm och alla filer i katalogen /cgi-bin/ utom index.txt
User-agent: Googlebot Allow: /cgi-bin/index.txt Disallow: /cgi-bin/ Disallow: /private/private.htm
Strängen matchas mot början av sökvägen. Regeln för private.htm bör alltså tolkas att matcha också private.html. Nyckelordet "Allow" fanns inte med i den ursprungliga specifikationen, men torde numera förstås av alla viktigare robotar.
Det finns ett antal funktioner för att styra sökspindlarnas beteende, bland annat kan deras hastighet begränsas för att minska belastningen på webbservern.
Alternativ
Speciella HTML-taggar kan användas för att förhindra indexering av enskilda sidor eller delar av dem (till exempel bilder). Även detta bygger på sökspindlarnas utvecklares goda vilja.
Källor
- Delar av artikeln är en översättning av motsvarande artikel på den engelskspråkiga upplagan av Wikipedia.
- A Standard for Robot Exclusion, sammanfattning av de diskussioner som ledde fram till konventionen, tillgänglig på https://web.archive.org/web/20071107172207/http://www.robotstxt.org/wc/norobots.html.
Externa länkar
- robotstxt.org (engelska)
- Specifikation från 1997 (engelska)