Robots Exclusion Protocol

standaard voor het uitsluiten van indexering van delen van websites door webcrawlers

Het Robots Exclusion Protocol, robots exclusion standard of robots.txt protocol is een conventie om (delen van) een normaal toegankelijke website af te schermen voor bepaalde webspiders en zoekrobots. Dit wordt met name gebruikt om te voorkomen dat (delen van) een website ongevraagd automatisch wordt gekopieerd en bijvoorbeeld daarmee wordt opgenomen in zoekresultaten van zoekmachines. Het kopiëren kan ook gevolgen hebben voor de bereikbaarheid van een website, vooral als het een druk bezochte website is. Tevens gebruiken websites dit protocol om er bijvoorbeeld voor te zorgen dat zoekmachines alleen de startpagina van een website weergeven.

Het protocol maakt gebruik van het robots.txt-bestand, dat in de rootdirectory van een website wordt gezet. Als alternatief voor dit speciale bestand kan in bestaande HTML-bestanden middels HTML-tag Meta het attribuut "robots" worden opgenomen.

Ontstaan en gebruik

bewerken

Er is geen officiële standaard of RFC van het Robots Exclusion Protocol. Het werd met behulp van een consensus in juni 1994 gecreëerd door leden van de WWW Robots Mailing List ([email protected])

Het protocol dient echter alleen ter advies en gaat uit van medewerking van de bezoekende webrobot. Het kan dus niet daadwerkelijk de toegang tot bestanden en mappen ontzeggen en is daarmee ongeschikt om (delen van) een website af te schermen. Er zijn robots die het protocol (al dan niet bedoeld) negeren of niet kennen. Tevens is het robots.txt-bestand voor iedereen zichtbaar. Dat kan dan weer gebruikt worden om bijvoorbeeld de useragent van een robot als een normale webbrowser in te stellen, zodat de robot zonder problemen zijn werk op een website kan doen. Ook al wordt zulk gedrag afgeraden en als zeer onbeleefd gezien, het protocol kan dus absoluut niet de afscherming van de website garanderen. Het protocol is dan ook voornamelijk bedoeld om gegevens die irrelevant zijn voor bezoekers niet weer te geven in de zoekresultaten van zoekmachines.

Optie 1: speciaal bestand robots.txt

bewerken

robots.txt is het computerbestand dat instructies bevat voor useragents, conform het protocol.

Een simpel voorbeeld van de syntaxis is:

User-agent: spambot10000
Disallow: /

Bovenstaande zegt dat alle useragents die zich identificeren als spambot10000 verzocht worden om geen toegang te nemen tot "/" en alle onderliggende mappen. In andere woorden: geen toegang tot de gehele website.

User-agent: *
Disallow: /cgi-bin/
Disallow: /test/
Disallow: /prive/

In het tweede voorbeeld zien we een asterisk staan: * achter User-agent:. Dit betekent: "alle robots". Alle robots mogen in dit voorbeeld dus alle directory's bezoeken behalve de directory's cgi-bin, test en privé.

Zie externe links voor enkele voorbeeldbestanden.

Optie 2: attribuut Meta name="robots" in bestaande HTML-pagina's

bewerken

Het alternatief voor het speciale bestand robots.txt is om aan bestaande HTML-pagina's een attribuut van de HTML-tag Meta toe te voegen, genaamd "robots". Hiermee kan een robot de instructie gegeven worden om een bepaalde webpagina wel of niet te indexeren en wel of niet de links te volgen naar een andere webpagina. Het volgende voorbeeld is een instructie in een HTML-pagina waarmee alle robots verzocht worden om deze pagina wel te indexeren, maar niet de links te volgen die in de pagina staan:

<meta name="robots" content="index,nofollow" />

Het is met deze optie echter niet mogelijk om instructies te geven aan bepaalde useragents. Dit kan alleen met gebruik van robots.txt.

Zie ook

bewerken
bewerken

Algemeen

bewerken

Voorbeelden

bewerken