Thread robots.txt auf www.perl-community.de (7 answers)
Opened by kristian at 2010-03-11 23:11

kristian
 2010-03-12 09:08
#134531 #134531
User since
2005-04-14
684 Artikel
BenutzerIn
[Homepage] [default_avatar]
2010-03-11T22:32:09 pq
danke, habs grad bei wikipedia nachgelesen.

Wikipedia ist nicht immer das Maß der Dinge.
Die einzig offizielle Seite zu diesem nicht offiziellen Quasi-Standard ist wohl http://www.robotstxt.org/orig.html
2010-03-11T22:32:09 pq
im falle von MJ12bot war es jedoch so, dass er überhaupt keine der anweisungen befolgt (also auch die Disallows oben nicht, weswegen ich in dem Fall auch nicht überprüfen konnte, ob das Crawl-Delay denn wirkt.

Ob ein Bot die robots.txt liest und beachtet ist seine Sache, es gibt ja kein Gesetz diesbezüglich. Ob Sachen wie Allow oder Crawl-Delay beachtet werden ist von Bot zu Bot verschieden. (Yahoo beachtet Crawl-Delay auf jeden Fall das ist bekannt.)

Ich denke man sollte einem Bot auf jeden Fall auferlegen, die robots.txt zu lesen und nach bestem Wissen zu beachten. Besser man liest zu wenig Urls' als zuviel.

Die robots.txt sollte auf jeden Fall bis zum Schluß gelesen werden es gibt Helden, die machen sowas:
Code: (dl )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
User-agent:  *
Disallow: /foo
Disallow: /bar

User-agent: Bot1
Disallow: /foo
Disallow: /bar
Disallow: /baz

User-agent: Bot2
Disallow: /foo
Disallow: /bar
Disallow: /baz

User-agent: Bot3
Disallow: /foo
Disallow: /bar
Disallow: /baz

User-agent: Bot1
Crawl-Delay: 10

User-agent: Bot2
Crawl-Delay: 10


Lächel, ich habe schon robots.txt gesehen, da war eine Keywordsammlung und Seitenbeschreibung drinn, am besten finde ich aber die, wo man ein WordDocument parsen soll.

Unterm Strich, die Bot-Betreiber die sich bemühen landen seltener in der .htaccess, die Seiten-Betreiber die sich halbwegs an den Standard halten haben gute Chancen, dass es funktioniert, mehr ist da nicht.
2010-03-11T22:32:09 pq
kann ich nicht bestätigen, da Googlebot zurst /bat/member crawlte und nach dem Disallow damit aufhörte.

Es ist nicht immer so, wann und warum es passiert kann ich nicht sagen. Ich weiß aber, dass die Leute die meckerten "G beachtet die robots.txt nicht" Erfolg hatten, nachdem sie G namentlich erwähnten.

Gruß
Kristian

View full thread robots.txt auf www.perl-community.de