Bot

ロボット(クローラー)のメモ。いや、スパイダーなのか。
自サイトのアクセスログよりロボットらしいものはメモってます。順次追加中。
UAとrobots.txtまとめ。

世の中いくつクローラーがいるのか…とりあえずNaverだけはIPごと弾いてます。Navar(・∀・)カエレ!

間違ってるところがあるかもしれません。むしろあります(ノД`)

情報が古くなっていっているため、Robots&Crawlerメモスレ@ねこまぐろBBSにて情報収集中です。情報求むー。

読み方

『UA:』はロボットのUser-Agentです。Denyするときに使ったりするといいのかも。
『robots.txt:』はrobots.txtに『User-agent: Googlebot』などと書く時に使う単語です。

一時的にage

ndl-japan
UA: ndl-japan-research-robot-1.1 (http://www.ndl.go.jp/jp/aboutus/bulkresearch2004/index.html)(http://e-public.nttdata.co.jp/bulkresearch2004/index.html)
robots.txt: ndl-japan
平成16年12月〜平成17年3月(予定)のロボット。あれだ、国会図書館で収集予定の調査ロボットのようです(サイト参照)
JPドメインのみかと思ったら日本で管理されているドメインも対象なのかっ。 でもMETAやrobots.txtで拒否したら収集しないようです。

有名どころ

Naverbot(NAVER)
UA:NaverBot-1.0 (NHN Corp. / +82-2-3011-1954 / nhnbot@naver.com)
robots.txt:Naverbot*
(・∀・)カエレ!
IP単位で弾かないと効果が無い orz
3000ログ中1000を占めていたことは忘れない(つД`)

Googlebot(Google)
UA:Googlebot/2.1 (+http://www.googlebot.com/bot.html)
robots.txt:Googlebot

Googlebot(Google AdSense)
UA:Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)
robots.txt:
Google AdSenseのクローラーだそうです。

Yahoo! Slurp(Yahoo! Japan)
UA:Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
robots.txt: Slurp
キャッシュがあるようなのでMETAにnoarchive。Yahoo!って関係ない単語で引っかかるんですが…。ついでにクローラーヘルプページへリンク。

msnbot(msn)
UA:msnbot/0.3 (+http://search.msn.com/msnbot.htm)
robots.txt:
検索したページのサムネイルが表示されたりする。表示されないようにするには<meta name="robots" content="noimageindex,nomediaindex">を<head>内に書いときましょう。

ichiro
UA: ichiro/1.0 (ichiro@nttr.co.jp)
旧UA: gazz/5.0 (gazz@nttr.co.jp)
robots.txt: ?
画像検索用のgooロボット。マルチメディアなファイルを収集しているらしい。 gazzからichiroに変更。参考ページ→新BB検索のクローラ ichiro/1.0

ia_archiver(Internet Archive)
UA:ia_archiver
robots.txt: ia_archiver
過去のページが当時のまま保存されててかなり恥ずかしい……
保存されないようにするには<meta name="robots" content="noarchive">を<head>内に書いときましょう。

よくわからん

picnavi http://picnavi.net/
UA: DoCoMo/1.0/ISIM60/sp
robots.txt:
待ち受け画像サーチなのですがっ、画像直接リンクしてくるのでDenyしたいのにアドレスに自サイトのアドレス入れてくるので弾けない… orz
直リンクうぜえぇぇ( ゜Д゜) http://ぴくなびcheck.php?i=http://mobile.tailtame.com/画像ファイル のような感じで。

UA: Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)
謎。

psbot(Picsearch)
UA:psbot/0.1 (+http://www.picsearch.com/bot.html)
robots.txt: psbot
 イメージ検索っぽい。

Baiduspider
UA: Baiduspider+(+http://www.baidu.com/search/spider.htm)
robots.txt: User-agent: baiduspider
中国のロボット?

SKIZZLE!
UA:User-Agent: Mozilla/4.0 (SKIZZLE! Distributed Internet Spider v1.0 - www.SKIZZLE.com)
リンク張るのもなにか嫌。何かよく分かりません。Denyするべきか…poliliに来てましたよ。

Exalead(exabot.com)
情報なくしたorz

TutorGig.com(TutorGigBot)
UA:TutorGigBot/1.5 ( +http://www.tutorgig.info )
User-agent:
よくわからん(;´Д`)
リンク先が説明になってます。robots.txtは読むようです。

JetEye(Jetbot)
UA:Jetbot/1.0
User-agent: JetBot ←違うかもしれない。
キャッシュを行うようなのでnoarchiveが必要です。
<META NAME="JetBot" CONTENT="noarchive,nofollow">と書いても効くようです。

TurnitinBot(http://www.turnitin.com/)
UA:TurnitinBot/2.0 http://www.turnitin.com/robot/crawlerinfo.html
User-agent: TurnitinBot

IconSurf(Visual Surf Engine)
UA:IconSurf/2.0 favicon finder (see http://iconsurf.com/robot.html)
robots.txt: IconSurf
favicon.icoを集めてるロボット。面白いですが、トップが重い。favicon.ico置いてたら収集されます(直リンク)

Nutch(nutch)
UA:NutchCVS/DoCoMo/J-PHONE/KDDI/0.03-dev (Nutch; http://www.nutch.org/docs/en/bot.html; nutch-agent@lists.sourceforge.net)
UA:DoCoMo/2.0 N900i(c100;TB;W24H12)/J-PHONE/3.0/KDDI/NutchCVS/0.03-dev (Nutch; http://www.nutch.org/docs/en/bot.html; nutch-agent@lists.sourceforge.net)
robots.txt:Nutch
オープンソースのウェブ検索エンジンで非営利?
UAに"DoCoMo/J-PHONE/KDDI"を入れてるあたりで携帯ページ閲覧されそうですなぁ。UA振り分けだと。
追記:なんか2つも来てたよ。

SurveyBot
UA:SurveyBot/2.3 (Whois Source)
robots.txt:
wwwドメインのトップページをクロールしてるみたい。http://www.whois.sc/tailtame.comみたいな感じで。

Asterias Crawler(singingfish)
UA:Mozilla/4.0 (compatible; MSIE 6.0 compatible; Asterias Crawler v4; +http://www.singingfish.com/help/spider.html; webmaster@singingfish.com); SpiderThread Revision: 1.9
robots.txt: asterias
 UAなげぇー。

?
UA:TAMU_CS_IRL_CRAWLER/1.0
robots.txt:
 学校で運営?

ページビューカウンター

Copyright © 2001-2008 Mikamo Nekotani. All rights reserved.