Robots.txt

Filen robots.txt är en enkel textfil på roten i din domän, www.dindomän.se/robots.txt, som ger instruktioner till sökmotorer gällande hur de kan spindla.

Om du inte har någon robots.txt

Det är alltid rekommenderat att du har en sådan fil även om den är tom (tillåt allt) eftersom sökmotorerna kommer att förfrågningar efter den.

Alla stora sökmotorer (Google, Yahoo, Live) och förmodligen de flesta små har kommit överens om en gemensam standard och följer de instruktioner du har i din robots.txt.

Använd inte robots.txt för att hindra indexering!

Spindling (crawling) och indexering är inte samma sak. Om en URL kan nås genom en intern eller extern länk så kommer den säkerligen att indexeras trots att den inte spindlas. Facebook fick under 2012 miljoner hemliga URLer innehållande epostadresser indexerade i Google som var blockerade genom robots.txt (info).

Använd istället följande för hindra indexering:

Tips!

Domainstats logga Jim Westergren har utvecklat Domainstats, en grym tjänst inom SEO där du kan se inlänkar med mera.

Exempel

Blockera hela webbplatsen från alla sökmotorer:

User-agent: *
Disallow: /
Blockera mappen temp:

User-agent: *
Disallow: /temp/
Blockera alla URLer som börjar med konto:

User-agent: *
Disallow: /konto
Kommentarer markeras med en inledande #:

# Här kommer en kommentar
Blockera särskilda delar från enbart Google:

User-agent: Googlebot
Disallow: /temp/
Disallow: /onödigt/skräpkatalog/
Disallow: /privat_fil.html
Blockera och ta bort alla bilder från Google Bildsökning:

User-agent: Googlebot-Image
Disallow: /
Tvinga robotar att vänta 10 sekunder mellan förfrågningar i sin spindling:

User-agent: *
Crawl-delay: 10
Ge godkännande till en viss fil i en annars ej godkänd mapp:

User-agent: *
Disallow: /mapp1/
Allow: /mapp1/fil.html
Blockera alla robotar förutom Google:

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Visa var din XML-sitemap finns (du kan ange flera):

Sitemap: http://www.din-domän.com/sitemap.xml
Sitemap: http://www.din-domän.com/sitemap2.xml

Exempel på mönstermatchning

Asterisk (*) matchar en teckensekvens och dollartecken ($) anger slutet på en URL.

Blockera alla kataloger som inleds med privat:

User-agent: *
Disallow: /privat*/
Blockera alla URLer på din domän som slutar med .gif:

User-agent: *
Disallow: /*.gif$
Blockera alla URLer där ett frågetecken (?) ingår:

User-agent: *
Disallow: /*?
Blockera alla URLer som innehåller sessionid men tillåt /hur-du-fixar-sessionid.html:

User-agent: *
Allow: /hur-du-fixar-sessionid.html
Disallow: /*sessionid
Mer exempel:

# Gäller alla
User-agent: *
# Blockera allt som finns i mappen konto men inte URLen /konto/
Disallow: /konto/*
# Blockera alla URLer som börjar på /checkout
Disallow: /checkout

Verkliga exempel:

Exempel för WordPress

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: */trackback/
Disallow: */feed/
# Se alltid till så att CSS och Javascript inte blockeras:
Allow: /*.css$
Allow: /*.js$

Sitemap: http://www.exempel.se/sitemap.xml

Lista på vanliga spindlar att användas med robots.txt

Några råd och varningar

Subdomäner

Filen exempel.se/robots.txt är inte giltig för blogg.exempel.se/robots.txt. Varje subdomän måste ha sin egen robots.txt.

Min erfarenhet som SEO-konsult

De vanligaste misstagen jag sett genom mina år som SEO-konsult:


Mer läsning / källor

Fråga / diskutera på SEO-forum.se

I denna tråden eller som en ny tråd i sektionen Övrigt inom SEO.

7 Jul 2014

Denna artikel är skriven av
Senast redigerad: 7 Jul 2014
Feedback uppskattas.