Friday, July 27, 2007

yetibotの再来

スポンサードリンク

先日の記事を書いてrobots.txtを設定したあと、ぱったりこなくなっていたyetibot@naver.comさんですが、robots.txtの制限を外しておいたかいあって(?)、25日の朝9時頃から活動を再開したようです。例のサイトへのアクセスが25日の朝9時から26日の朝3時までで4247アクセスでした。そのうち約半数の2125アクセスがcssファイルです。例によって。

今回はいろいろ実験してみたいので、素直にはじくのはやめて、robots.txtに次のように書いてみました。


User-agent: Yeti
Disallow: /css/
Disallow: /img/
Crawl-delay: 180

User-agent: Baidu
Disallow: /css/
Disallow: /img/
Crawl-delay: 180

User-agent: *
Disallow:

Crawl-delayはA Standard for Robot Exclusionには含まれていないようですが、ask.comやYahoo!のボットはサポートしているようです。参考文献[2]によるとYetiさんはCrawl-delayを理解できないようですが、まあいちおうわたしも試してみたいので、書いてみました。あとはcssを毎回(!)読みにきてうるさいので、これも禁止に。イメージファイルは読みにきてはいないけど、念のため。

ついでに(?)Baiduさんも指定してみた。現在のところ、Baiduspiderさんはコンスタントに2分に1アクセス、1時間に30回x24時間=720アクセス程度の「良識的」アクセスです。とりあえず間隔を3分にしてもらえるかどうかテストのため加えてみました。

さあどうなるかなー?

参考文献

  1. A Standard for Robot Exclusion, robotstxt.org
  2. 噂のBaiduとNaverのクローラはwikiがお好き, blog@browncat.org, 2007

No comments: