SEO is best een saaie business. Klanten zijn over het algemeen alleen geïnteresseerd in het resultaat. Er is weinig interesse in de werkwijze. Tijd voor verandering. Tijd voor een beetje plezier met robots.txt!

Wat is een robots.txt bestand en waar heb ik het in überhaupt voor nodig?

Het doel van een robots.txt bestand is niets anders dan het suggereren aan zoekmachines wat zij wel en niet kunnen indexeren. In de meeste gevallen hebben ondernemers hier niets mee te maken. Sterker nog, de meeste CMS’en wordt dit automatisch geregeld. Vaak krijg je hier pas mee te maken als je instellingen verkeerd hebt staan of hier typefouten in hebt staan.

Een kort lesje robots.txt

Zoekmachines indexeren websites. Mocht je niet weten hoe dit precies werkt dan kun je het beste even kort het onderstaande filmpje bekijken:

Let wel op! Deze video is een aantal jaar oud. Er zijn inmiddels verschillende updates geweest. Toch geeft dit nog steeds een duidelijk inzicht in hoe pagina’s geïndexeerd worden.

Jij kunt als eigenaar van je eigen website invloed uitoefenen op wat geïndexeerd wordt. Dit doe je via een robots.txt bestand.

Dit zijn de belangrijkste onderdelen / functies in het bestand:

  • User-agent — Geeft aan welke indexatie robot.
  • Disallow — Vraagt robots dit gedeelte van de website niet te crawlen.
  • Allow — Vraagt robots dit gedeelte wel te crawlen.
  • Crawl-delay — Vraagt robots enkele seconden te wachten voor zij verder crawlen.
  • Sitemap — Dit is de locatie van de sitemap.xml.
  • Noindex — Vertelt Google om deze pagina’s niet te indexeren.
  • # — Hiermee comment je een regel uit voor intern gebruik.
  • — match elke tekst.
  • $ — Hier moet de URL eindigen.

Verder is het nog handig om de volgende dingen te weten:

  • Robots.txt moeten direct in de root folder van het project worden geplaatst: jouwdomein.nl/robots.txt.
  • Elk subdomein heeft zijn eigen robots.txt.
  • Zoekmachines kunnen robots.txt negeren.
  • URL’s zijn CaSe-SenSiTive.
  • Disallow is simpelweg een suggestie. Je kunt hiermee geïndexeerde pagina’s niet uit zoekmachines verwijderen.
  • Je kunt je robots.txt bestand valideren via Google Search Console.
  • Gebruik robots.txt niet om dubbele content te verbergen
  • De maximale grote voor het bestand is 500KB.

Goed, genoeg saaie uitleg. Tijd voor wat plezier:

Vaak zie je dat saaie klusjes zoals het opstellen van een robots.txt toch leuk gemaakt kunnen worden. Hieronder zie je 5 grappige voorbeelden:

Nike

Nike heeft zijn eigen logo en de slogan “Just crawl it” toegevoegd.

robots-nike

Youtube

Youtube verwijst naar een Robotic uprising in de jaren 90.

robots-youtube

Misschien zijn ze wel fan van Flight of the Conchords:

Tripadvisor

Tripadvisor is duidelijk op zoek naar nieuwe SEO specialisten. Iedereen dit dit bestand leest wordt uitgenodigd om te solliciteren. Benieuwd hoeveel mensen hierop hebben gereageerd.

robots-trip-advisors

Onbekend: Wel vet

Geen idee van wie dit bestand is. Wel ben ik een grote Futurama fan. Jij ook?

bender-robots

Mischa Groenen marketing

Zelf weet ik nog niet of ik dit ga toevoegen? Wat denk jij? Zou het er goed uitzien?

screenshot-www-text-image-com-2016-11-27-16-39-43

  • Neem contact op

    Heb je vragen over deze post? Twijfel niet!