robots.txt auf www.perl-community.de - #134508 (Bugs)

2010-03-11 23:32

User since
2003-08-04
12209 Artikel
Admin1

2010-03-11T22:11:11 kristian
Ein Bot liest die komplette robots.txt und speichert "*" in "anonymous", wenn er sich selbst findet geht das in "is_me".

danke, habs grad bei wikipedia nachgelesen.

im falle von MJ12bot war es jedoch so, dass er überhaupt keine der anweisungen befolgt (also auch die Disallows oben nicht, weswegen ich in dem Fall auch nicht überprüfen konnte, ob das Crawl-Delay denn wirkt.

Quote
Bei der Abfrage ob etwas erlaubt ist guckt er in "is_me" || "anonymous".
Sprich wenn er sich selbst gefunden hat wird "anonymous" ignoriert.
d.h. der MJ12 darf hier alles lesen was er will solange er sich an das Delay hält.

hm, das widerspricht doch der ersten aussage?
"Nach einem Block, dessen erste Zeile mit User-agent: * beginnt, stoppt ein Webcrawler und liest den Rest der Datei nicht mehr" ( Wikipedia:

Robots.txt).
Ich verstehe das also so, dass ich den MJ12bot zum einen nach oben nehmen muss und zum zweiten die Disallows dort alle wiederholen muss. edit: was ich jetzt gemacht habe.

Quote
Achso, beim GoogleBot ist in der Vergangenheit oft aufgefallen, dass "*" ignoriert wird, dieser "Fürst" will mit seinem Namen angesprochen werden.

kann ich nicht bestätigen, da Googlebot zurst /bat/member crawlte und nach dem Disallow damit aufhörte.
Last edited: 2010-03-11 23:33:56 +0100 (CET)

Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
lesen: Wiki:

Wie frage ich & perlintro Wiki:

brian's Leitfaden für jedes Perl-Problem