raksmart活动促销

分享

写回答

发帖

有什么办法可以降低百度爬虫对服务器资源的占用。。。

互联网出海创业 互联网出海创业 6766 人阅读 | 15 人回复

发表于 2009-5-4 12:47:39 | 显示全部楼层 |阅读模式

虽然说不能封掉百度爬虫,不过最近它实在是过于疯狂。
我服务器4GB的内存它就吃掉了600多MB,不停的在论坛里抓文章
请问各位有何办法可以降低百度爬虫对服务器资源的占用率。
baidu爬虫吃掉了我日IP的88%的流量。。。现在不知怎么办才好

来自搜索引擎的访问量 (18657IP ) 占总访问量 ( 21047 IP ) 的 88%

回答|共 15 个

ffnn

发表于 2009-5-4 12:51:34 | 显示全部楼层

没办法吧,百度能调整抓取频率吗?
google就能。

ffnn

发表于 2009-5-4 12:52:08 | 显示全部楼层

没办法吧,百度能调整抓取频率吗?
google就能。

chenqibinxf

发表于 2009-5-4 13:35:34 | 显示全部楼层

百度确是很占流量,封了吧

ultramanclub

发表于 2009-5-4 14:14:27 | 显示全部楼层

原帖由 chenqibinxf 于 2009-5-4 01:35 PM 发表
百度确是很占流量,封了吧

还有其他好办法么。

ma-qun

发表于 2009-5-4 14:52:27 | 显示全部楼层

想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

  方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

  方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

  对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。

jeffreyhhh

发表于 2009-5-4 15:34:59 | 显示全部楼层

秀一下站,看看,怎么牛,百度爬了18000个ip?

另,怎么看百度爬虫来过呀,我怎么没遇到这么等好事呀

潜水学习

发表于 2009-5-4 16:34:36 | 显示全部楼层

封了它一部分  没事的   

或者给百度邮件 说明问题

ultramanclub

发表于 2009-5-4 17:35:23 | 显示全部楼层

怎么封一部分?

respr

发表于 2009-5-4 19:01:52 | 显示全部楼层

发邮件给他们,就说他们吃你的资源又没下个蛋给你。。。。。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则