Robots.txt

Filen robots.txt är en enkel textfil på roten i din domän, www.dindomän.se/robots.txt, som ger instruktioner till sökmotorer gällande hur de kan spindla.

Om du inte har någon robots.txt

Alla sökmotorer och andra program som spindlar internet har fritt fram att komma åt och indexera allt innehåll på din webbplats.
Många efterfrågar denna filen och om den inte finns så kan det påverka prestanda negativt för din webbplats.

Det är alltid rekommenderat att du har en sådan fil även om den är tom (tillåt allt) eftersom sökmotorerna kommer att förfrågningar efter den.

Alla stora sökmotorer (Google, Yahoo, Live) och förmodligen de flesta små har kommit överens om en gemensam standard och följer de instruktioner du har i din robots.txt.

Använd inte robots.txt för att hindra indexering!

Spindling (crawling) och indexering är inte samma sak. Om en URL kan nås genom en intern eller extern länk så kommer den säkerligen att indexeras trots att den inte spindlas. Facebook fick under 2012 miljoner hemliga URLer innehållande epostadresser indexerade i Google som var blockerade genom robots.txt (info).

Använd istället följande för hindra indexering:

Meta noindex
X-Robots-Tag HTTP header. (info)
Implementera htpasswd på servern.
Blockera på annat vis.

Tips!

Jim Westergren har utvecklat Domainstats, en grym tjänst inom SEO där du kan se inlänkar med mera.

Exempel

Blockera hela webbplatsen från alla sökmotorer:


User-agent: *
Disallow: /

Blockera mappen temp:


User-agent: *
Disallow: /temp/

Blockera alla URLer som börjar med konto:


User-agent: *
Disallow: /konto

Kommentarer markeras med en inledande #:


# Här kommer en kommentar

Blockera särskilda delar från enbart Google:


User-agent: Googlebot
Disallow: /temp/
Disallow: /onödigt/skräpkatalog/
Disallow: /privat_fil.html

Blockera och ta bort alla bilder från Google Bildsökning:


User-agent: Googlebot-Image
Disallow: /

Tvinga robotar att vänta 10 sekunder mellan förfrågningar i sin spindling:


User-agent: *
Crawl-delay: 10

Ge godkännande till en viss fil i en annars ej godkänd mapp:


User-agent: *
Disallow: /mapp1/
Allow: /mapp1/fil.html

Blockera alla robotar förutom Google:


User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Visa var din XML-sitemap finns (du kan ange flera):


Sitemap: http://www.din-domän.com/sitemap.xml
Sitemap: http://www.din-domän.com/sitemap2.xml

Exempel på mönstermatchning

Asterisk (*) matchar en teckensekvens och dollartecken ($) anger slutet på en URL.

Blockera alla kataloger som inleds med privat:


User-agent: *
Disallow: /privat*/

Blockera alla URLer på din domän som slutar med .gif:


User-agent: *
Disallow: /*.gif$

Blockera alla URLer där ett frågetecken (?) ingår:


User-agent: *
Disallow: /*?

Blockera alla URLer som innehåller sessionid men tillåt /hur-du-fixar-sessionid.html:


User-agent: *
Allow: /hur-du-fixar-sessionid.html
Disallow: /*sessionid

Mer exempel:


# Gäller alla
User-agent: *
# Blockera allt som finns i mappen konto men inte URLen /konto/
Disallow: /konto/*
# Blockera alla URLer som börjar på /checkout
Disallow: /checkout

Verkliga exempel:

robots.txt på SEO-guide.se (skapas automatiskt av N.nu)
robots.txt på Regeringen.se
robots.txt på Google.com

Exempel för WordPress

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: */trackback/
Disallow: */feed/
# Se alltid till så att CSS och Javascript inte blockeras:
Allow: /*.css$
Allow: /*.js$

Sitemap: http://www.exempel.se/sitemap.xml

Lista på vanliga spindlar att användas med robots.txt

Googlebot - Googles huvudbot för deras sökmotor
Slurp - Yahoo!
msnbot - Live Sök
Mediapartners-Google - bot från Google som används för AdSense
Googlebot-Image - bot från Google som används för Googles bildsök

Några råd och varningar

Du ska inte blockera CSS och Javascript eftersom då kan inte Googlebot rendera sidan på ett korrekt sätt vilket kan göra att din sajt straffas av Panda.
Använd inte robots.txt för att blockera hemliga platser eftersom alla med en webbläsare kan se din robots.txt som ligger öppet för alla och kan därefter surfa till de platser du vill hålla hemligt. Använd i så fall hellre META-robots eller blockera på servernivå såsom med .htaccess.
Var noga med att inkludera / i slutet på mappar du vill blockera - annars blockerar du alla filer som börjar med de bokstäverna. Till exempel så blockerar /temp/ mappen temp medan /temp blockerar alla filer som börjar med temp som till exempel template.php.
Det är skillnad på stora och små bokstäver.
Illasinnade bottar och spindlar som till exempel de som söker efter e-postadresser att spamma ignorerar din robots.txt.
Om du använder komplicerade regler med till exempel mönstermatchning så rekommenderar jag att du testar din robots.txt i Googles verktyg för webbansvariga under Crawl -> Blocked URLs så att du inte gjort något misstag.
Sökresultatsidor från internsökning ska nästan alltid blockeras med robots.txt

Subdomäner

Filen exempel.se/robots.txt är inte giltig för blogg.exempel.se/robots.txt. Varje subdomän måste ha sin egen robots.txt.

Min erfarenhet som SEO-konsult

De vanligaste misstagen jag sett genom mina år som SEO-konsult:

Finns ingen robots.txt
Sökväg till XML-sitemap saknas.
Sådant som ska blockeras blockeras inte.

Mer läsning / källor

Fråga / diskutera på SEO-forum.se

I denna tråden eller som en ny tråd i sektionen Övrigt inom SEO.

Andra inlägg

Denna artikel är skriven av Jim Westergren

Senast redigerad: 7 Jul 2014
Feedback uppskattas.

SEO-guide.se

Guide av Jim Westergren