Robots.txt fil. Vad det är, hur du gör och varför. Lucka 21.

Marika Sjöberg - Technical manager/Project manager
rebecca@sesnordic.se

Välkommen till Lucka 21 i SESNordics julkalender! jul-sesnordic-21Idag tittar vi närmare på robots.txt filer så bara häng på!

Vad är en robots.txt fil

En robots.txt fil är en enkelt textfil som ska ligga i roten på din webbplats. En robots.txt fil används för att blockera ex undersidor, bilder eller annan information på din webbplats för sökmotorerna. En robots.txt fil används även för att ta bort indexerat innehåll från din webbplats i ex Google. Google genomsöker eller indexerar inte innehåll på sidor som blockeras av robots.txt.

När ska jag använda en robots.txt fil?

Du ska använda en robots.txt fil när det finns innehåll på din webbplats som du inte vill att sökmotorerna ska spindla och vidare indexera. Det kan ex röra sig om sidor under administrationslogin, sidor med interna dokument, vissa bilder eller några pfd:filer.

Du behöver bara en robots.txt fil om det finns innehåll på din webbplats som du inte vill att sökmotorerna ska indexera. Om du vill att sökmotorerna ska indexera allt på din webbplats behöver du ingen robots.txt-fil (inte ens en tom fil).

För att använda en robots.txt fil måste du ha tillgång till domänens rotkatalog (om du inte är säker frågar du ditt webbhotell). Om du inte har åtkomst till roten för en domän kan du begränsa åtkomsten med hjälp av en metatagg för sökrobotar (noindex) eller med en x-robots-tagg.

Skapa en robots.txt fil

Den enklaste formen av en robots.txt-fil använder följande två regler:

  • User-agent: den sökrobot som följande regel gäller för
  • Disallow: den webbadress du vill blockera

Dessa två rader räknas som en enda post i filen. Du kan ha med så många poster du vill. Du kan ange flera Disallow-rader och flera användaragenter i en och samma post.

Alla avsnitt i robots.txt-filen är separata och bygger inte på föregående avsnitt. Exempel:

User-agent: *
Disallow: /mapp1/
User-agent: Googlebot
Disallow: /mapp2/

I det här exemplet skulle endast de webbplatser som matchar /mapp2/ blockeras för Googlebot (Googles sökrobot för webbsökning).

User-agents och robotar

En användaragent (user-agent) är en specifik sökrobot. I Webbrobotdatabasen finns en lista över de vanligaste sökrobotarna. Du kan ange att en post ska gälla för en specifik sökrobot (genom att ange namnet). Du kan också ange att den ska gälla för alla sökrobotar (genom att ange en asterisk). En post som gäller för alla sökrobotar ser ut så här:

User-agent: *

Blockera user-agents

På Disallow-raden ska du ange de webbsidor som du vill blockera. Du kan ange en särskild webbadress eller ett mönster. Posten måste inledas med ett snedstreck (/).

  • Använd ett snedstreck för att blockera hela webbplatsen.
    Disallow: /
  • Om du vill blockera en katalog och allt som finns i den anger du ett snedstreck efter katalognamnet.
    Disallow: /skräpkatalog/
  • Ange webbsidan för att blockera en webbsida.
    Disallow: /privat_fil.html
  • Om du vill blockera en särskild bild från Google Bilder anger du följande:
    User-agent: Googlebot-Image
    Disallow: /images/privatabilder.jpg
  • Ta bort alla bilder från Google Bilder:
    User-agent: Googlebot-Image
    Disallow: /
  • Om du vill blockera alla filer av en viss filtyp (t.ex. .gif) anger du följande:
    User-agent: Googlebot
    Disallow: /*.gif$

Viktigt att tänka på

Direktiven är skiftlägeskänsliga. Exempel, Disallow: /skrapfil.asp blockerar http://www.example.com/skrapfil.asp men inte http://www.example.com/SkrapFil.asp.

Spara och lägg upp din robots.txt fil

Spara robots.txt-filen genom att spara innehållet till en textfil som du sparar med namnet robots.txt. Spara filen på den högsta katalognivån på webbplatsen. Filen robots.txt måste placeras i roten för domänen och ha namnet “robots.txt”. En robots.txt-fil som finns i en underkatalog är inte giltig eftersom sökrobotarna bara söker efter filen i roten för domänen. http://www.exempel.se/robots.txt är till exempel en giltig plats, medan http://www.exempel.se/minwebb/robots.txt inte är det.

Lycka till med din robots.txt fil och vi hörs imorgon!

Har du frågor? Kontakta oss!