Filen robots.txt är en enkel textfil på roten i din domän, www.dindomän.se/robots.txt
, som ger instruktioner till sökmotorer gällande hur de kan spindla.
Det är alltid rekommenderat att du har en sådan fil även om den är tom (tillåt allt) eftersom sökmotorerna kommer att förfrågningar efter den.
Alla stora sökmotorer (Google, Yahoo, Live) och förmodligen de flesta små har kommit överens om en gemensam standard och följer de instruktioner du har i din robots.txt.
Spindling (crawling) och indexering är inte samma sak. Om en URL kan nås genom en intern eller extern länk så kommer den säkerligen att indexeras trots att den inte spindlas. Facebook fick under 2012 miljoner hemliga URLer innehållande epostadresser indexerade i Google som var blockerade genom robots.txt (info).
Använd istället följande för hindra indexering:
X-Robots-Tag
HTTP header. (info)Jim Westergren har utvecklat Domainstats, en grym tjänst inom SEO där du kan se inlänkar med mera.
User-agent: *
Disallow: /
User-agent: *
Disallow: /temp/
User-agent: *
Disallow: /konto
#
:
# Här kommer en kommentar
User-agent: Googlebot
Disallow: /temp/
Disallow: /onödigt/skräpkatalog/
Disallow: /privat_fil.html
User-agent: Googlebot-Image
Disallow: /
User-agent: *
Crawl-delay: 10
User-agent: *
Disallow: /mapp1/
Allow: /mapp1/fil.html
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Sitemap: http://www.din-domän.com/sitemap.xml
Sitemap: http://www.din-domän.com/sitemap2.xml
Asterisk (*) matchar en teckensekvens och dollartecken ($) anger slutet på en URL.
User-agent: *
Disallow: /privat*/
User-agent: *
Disallow: /*.gif$
User-agent: *
Disallow: /*?
User-agent: *
Allow: /hur-du-fixar-sessionid.html
Disallow: /*sessionid
# Gäller alla
User-agent: *
# Blockera allt som finns i mappen konto men inte URLen /konto/
Disallow: /konto/*
# Blockera alla URLer som börjar på /checkout
Disallow: /checkout
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: */trackback/
Disallow: */feed/
# Se alltid till så att CSS och Javascript inte blockeras:
Allow: /*.css$
Allow: /*.js$
Sitemap: http://www.exempel.se/sitemap.xml
Googlebot
- Googles huvudbot för deras sökmotorSlurp
- Yahoo!msnbot
- Live SökMediapartners-Google
- bot från Google som används för AdSenseGooglebot-Image
- bot från Google som används för Googles bildsök/
i slutet på mappar du vill blockera - annars blockerar du alla filer som börjar med de bokstäverna. Till exempel så blockerar /temp/
mappen temp medan /temp
blockerar alla filer som börjar med temp som till exempel template.php.Filen exempel.se/robots.txt är inte giltig för blogg.exempel.se/robots.txt. Varje subdomän måste ha sin egen robots.txt.
De vanligaste misstagen jag sett genom mina år som SEO-konsult:
I denna tråden eller som en ny tråd i sektionen Övrigt inom SEO.