摘要:
也许很多站长对搜索引擎爬行抓取蜘蛛(机器人)程序感到很神秘,有一些好奇的站长去专研了一下,譬如flymorn等。搜索引擎抓取蜘蛛(机器人)程序其实很有趣,看他们的名字吧。Googlebot,BaiduSpider,Yahoo! Slurp关键字:
搜索引擎 蜘蛛 机器人 正文:
也许很多站长对搜索引擎爬行抓取蜘蛛(机器人)程序感到很神秘,认为:我的网站内容好好的为什么突然被这些蜘蛛人拿去了,并给我存档呢?当然也有一些好奇的站长去专研了一下,譬如flymorn等。
搜索引擎抓取蜘蛛(机器人)程序其实很有趣,看他们的名字吧。获取来源当然是我们网站的日志,打开日志,(以.LOG结尾),就可以一窥蜘蛛的真面目了:
首先看Google,机器人叫Googlebot:
2007-09-02 04:09:40 W3SVC78302822 58.17.36.91 GET /vod/html/16/4788.html - 80 - 66.249.72.137 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 200 0 1236
2007-09-02 04:09:42 W3SVC78302822 58.17.36.91 GET /vod/html/16/4788.html - 80 - 202.75.217.186 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 200 0 0
2007-09-02 04:58:37 W3SVC78302822 59.53.88.91 GET /mp3/s.asp kw=%D6%DC%B4%AB%D0%DB 80 - 66.249.72.141 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 200 0 64
2007-09-02 23:59:32 W3SVC78302822 59.53.88.91 GET /mp3/s.asp kw=%BA%C3%BA%C3%B0%AE%CE%D2 80 - 66.249.72.133 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 200 0 64
从这随机抽取出来的4条记录看,GOOGLEBOT几乎是从早忙到晚,一直在我的网站上抓取内容,它是一直勤快的小蜜蜂哦,呵呵。由于我的空间采用了智能双线解析,所以你可以看出GOOGLEboT也智能起来了。哪个速度快,它就爬行哪个IP,2个IP是电信59.53.88.91,网通/铁通58.17.36.91。同时可以看到google的抓取服务器IP一直在变换着,可以看出google的蜘蛛服务器数量之庞大。版本是Googlebot/2.1;++http://www.google.com/bot.html
再看百度的机器人BaiduSpider:
2007-09-02 04:26:06 W3SVC78302822 59.53.88.91 GET /mp3/s.asp kw=一场游戏一场梦+王杰 80 - 220.181.38.205 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0
2007-09-02 04:27:42 W3SVC78302822 59.53.88.91 GET /mp3/s.asp kw=蝴蝶泉边 80 - 220.181.38.205 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0
2007-09-02 04:37:27 W3SVC78302822 59.53.88.91 GET /video/list/video2/v88186157.htm - 80 - 220.181.38.205 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0
2007-09-02 23:58:17 W3SVC78302822 59.53.88.91 HEAD /vod/html/17/4809.html - 80 - 61.135.166.233 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0
很显然,百度的机器人BaiduSpider一直在电信的IP上抓取,它并没有跑去网通的IP,可能百度偏爱电信吧。同样,机器人也是从早忙到晚 ,一直在抓取内容。百度的抓取服务器也在变换着,早上的是:220.181.38.205;晚上换成了61
[1][2]