robots.txt tool von Google

Februar 8, 2006 von Gerald

Eines muss man Google lassen, sie bieten immer wieder interessante Tools an, die dem gestressten Webmaster das Leben erleichtern können. Mit der Google Sitemaps haben sie vielen Webmastern ein Tool an die Hand gegeben, um ihre Seiten besser im Google Index zu platzieren. Und nicht nur das, diese Tools werden immer weiter verfeinert und nutzerfreundlicher gemacht. So gibt es mittlerweile Zusatz-Informationen wie die Top Suchanfragen und Klicks, Common Keywords und Anchor-Texte, umfassende Fehler-Reports und seit neuestem das robots.txt tool. Vorgestellt wurde es soeben von Matt Cutts in seinem Weblog-Beitrag New robots.txt tool.

Nette Sache, damit kann man endlich verlässliche Aussagen zu Googles Auslegung der Robots-Regeln bekommen. Denn bislang wurde oft mehr spekuliert als belegt, ab jetzt sollte es in der Hinsicht einfacher werden. Selbstverständlich sind viele Dinge nämlich nicht, auch Google hält sich nicht nur an den Quasi-Standard des Robots Exclusion Protocols, sondern nutzt einige Erweiterungen wie Allow oder Wildcards und weicht mit seinen Auslegungen u.a. von denen anderer Suchmaschinen ab. Wenn jetzt Google auch noch ähnlich wie MSN und Yahoo ein Crawler-Delay einführen könnte, wäre die Geschichte rund.

7 Gedanken zu „robots.txt tool von Google“

Pingback: Cyberoog, die Insel im Web (Blog)
Pingback: Spider Trap Blog » Blog Archive » Google Robots.txt Tool
fob

Februar 10, 2006 um 12:48 Uhr

Ich habe hiermit ganz gute Erfahrungen gemacht:

# ——————————————-

User-agent: *
Disallow:

User-agent: Mediapartners-Google*
Disallow:

User-Agent: Googlebot
Disallow:

# ——————————————-

Wenn man Dateien oder Verzeichnisse ausschließen möchte, braucht man diese ja eigentlich nur hinter „Disallow“ zu schreiben. Das Ganze fix als robots.txt abspeichern und hoch damit. Braucht man dazu wirklich ein „robots.txt-Tool“? Na ja, vielleicht für die PR-Maschine. ;-)
Antworten
roman libbertz

Februar 15, 2006 um 12:45 Uhr

hört sich interessanst an werd mal checken , ob das tool greift
Antworten
jan

April 24, 2006 um 21:25 Uhr

mh, „Allow“ ist keine Erweiterung von Google, sondern ebenso wie Wildcards auch, ganz regulärer Bestandteil des RFCs zum Ausschluß von robots:

http://www.robotstxt.org/wc/norobots-rfc.html
Antworten
Gerald

April 24, 2006 um 23:08 Uhr

Das Robots Exclusion Protocol hat es nie zu einem RFC geschafft, die Erweiterung von 1997 ist ein Draft und wurde nie fertig gestellt. Unter http://www.robotstxt.org/wc/exclusion.html ist folgendes zu lesen:
„The revised Internet-Draft specification, which is not yet completed or implemented.“

Da sich früher fast alle Robots nur an das Basis Protokol gehalten haben, war es lange ratsam, nur den kleinsten gemeinsamen Nenner der Robotsregeln als gegeben vorauszusetzen. Mittlerweile sind einige Suchmaschinen schlauer geworden und interpretieren die Regeln nach dem neueren Draft. Man kann aber auch heute noch nicht voraussetzen, dass z.B. Allow von allen Robots verstanden wird.
Antworten
Marc

April 2, 2007 um 01:35 Uhr

man sollte nur dran denken in der robots.txt google separat zu nennen, da hatte ich mal Probleme Seiten aus dem Index zu bekommen…
Antworten

7 Gedanken zu „robots.txt tool von Google“

Schreibe einen Kommentar Antworten abbrechen