Dit is de eerste plaats om na te kijken bij het optimaliseren van je website. Dit is een eenvoudig bestand, en wordt gewoonlijk onderhouden door de webmasters. Het is niet noodzakelijk, maar helpt zeker bij SEO.
In grotere organisaties, kunnen er jaren voorbijgaan alvorens iemand deze file nauwkeurigheid controleert, of zelfs verifiërt of deze bestaat. Het is een kritieke file voor de onderzoeksmotoren, aangezien zij dit bestand downloaden alvorens de pagina's van uw website te indexeren. Als Google, MSN of Yahoo je site bezoeken, zou het dus al aanwezig moeten zijn, en zonder fouten! Één verkeerde voorwaartse schuine streep kan uw plaats in deze onderzoeksmotoren onzichtbaar maken.
De robot.txt file is eigenlijk niet meer dan een reeks server commando's voor search engines, waar personen problemen mee hebben om deze machine taal te begrijpen. Als deze file niet bestaat, zal 'page not found' verschijnen in je log files.Je kan deze file het best vergelijken met een 'welcome' mat voor je huis. Het zegt de search engines dat ze welkom zijn om deze site te bezoeken. Ze is niet noodzakelijk voor je bezoekers om binnen te komen, maar het is wel aangenamer voor hen.
Je kan ook zeggen waar je bezoekers niet gewenst zijn met deze file. Dit zijn de pagina's die je niet wenst te tonen in in de search engines. Maar dit is geen beveiliging, als ze echt niet gevonden mogen worden, moet je deze pagina's achter een paswoord plaatsen. De file verbergt immers geen informatie, het zegt enkel tegen de zoekrobot om de informatie niet te indexeren.
De structuur van de Robot.txt file
Er zijn maar twee lijnen verplicht in een standaard robots.txt file.
User-agent: *
Disallow:
De eerste lijn bepaalt de robots. De * is een wildcard en betekent hier dat de volgende commando's voor alle robots gelden.
De tweede lijn zegt aan de robots wat ze niet mogen indexeren. Dit kan zowel op directory niveau, als op pagina niveau. Als alles geïndexeerd mag worden, laat je dit leeg. Heb je 'duplicate content' op je site, dan kan je die best niet indexeren.
voorbeeld Heb je printvriendelijke pagina's aangemaakt en deze staan in de subdirectory 'printerfriendly', dan kan je best volgende regel aanpassen:
Dissallow: /printerfriendly/
Let op de 'forward slash', dit is de meest voorkomende fout.
Blokkeer de volledige site
Plaats enkel de 'forward slash' en de search engines zullen geen pagina's indexeren.
Dissallow:/
Meer info over robot.txt vind je hier:
- http://www.robotstxt.org/ (met oa. een lijst van meer dan 300 robots)
- Official Google Blog - The Robots Exclusion, pt 1
- Robot.txt Code Generation Tool
- robots.txt validator
Geen opmerkingen:
Een reactie posten