robots.txt tool von Google

Eines muss man Google lassen, sie bieten immer wieder interessante Tools an, die dem gestressten Webmaster das Leben erleichtern können. Mit der Google Sitemaps haben sie vielen Webmastern ein Tool an die Hand gegeben, um ihre Seiten besser im Google Index zu platzieren. Und nicht nur das, diese Tools werden immer weiter verfeinert und nutzerfreundlicher gemacht. So gibt es mittlerweile Zusatz-Informationen wie die Top Suchanfragen und Klicks, Common Keywords und Anchor-Texte, umfassende Fehler-Reports und seit neuestem das robots.txt tool. Vorgestellt wurde es soeben von Matt Cutts in seinem Weblog-Beitrag New robots.txt tool.

Nette Sache, damit kann man endlich verlässliche Aussagen zu Googles Auslegung der Robots-Regeln bekommen. Denn bislang wurde oft mehr spekuliert als belegt, ab jetzt sollte es in der Hinsicht einfacher werden. Selbstverständlich sind viele Dinge nämlich nicht, auch Google hält sich nicht nur an den Quasi-Standard des Robots Exclusion Protocols, sondern nutzt einige Erweiterungen wie Allow oder Wildcards und weicht mit seinen Auslegungen u.a. von denen anderer Suchmaschinen ab. Wenn jetzt Google auch noch ähnlich wie MSN und Yahoo ein Crawler-Delay einführen könnte, wäre die Geschichte rund.

7 Gedanken zu „robots.txt tool von Google“

  1. Pingback: Cyberoog, die Insel im Web (Blog)
  2. Ich habe hiermit ganz gute Erfahrungen gemacht:

    # ——————————————-

    User-agent: *
    Disallow:

    User-agent: Mediapartners-Google*
    Disallow:

    User-Agent: Googlebot
    Disallow:

    # ——————————————-

    Wenn man Dateien oder Verzeichnisse ausschließen möchte, braucht man diese ja eigentlich nur hinter „Disallow“ zu schreiben. Das Ganze fix als robots.txt abspeichern und hoch damit. Braucht man dazu wirklich ein „robots.txt-Tool“? Na ja, vielleicht für die PR-Maschine. ;-)

    Antworten
  3. Das Robots Exclusion Protocol hat es nie zu einem RFC geschafft, die Erweiterung von 1997 ist ein Draft und wurde nie fertig gestellt. Unter http://www.robotstxt.org/wc/exclusion.html ist folgendes zu lesen:
    „The revised Internet-Draft specification, which is not yet completed or implemented.“

    Da sich früher fast alle Robots nur an das Basis Protokol gehalten haben, war es lange ratsam, nur den kleinsten gemeinsamen Nenner der Robotsregeln als gegeben vorauszusetzen. Mittlerweile sind einige Suchmaschinen schlauer geworden und interpretieren die Regeln nach dem neueren Draft. Man kann aber auch heute noch nicht voraussetzen, dass z.B. Allow von allen Robots verstanden wird.

    Antworten

Schreibe einen Kommentar