想屏蔽百度蜘蛛 尝试以下方法
作者:uu1001
好像现在屏蔽baiduspider已经成为一种时尚,难道这玩意也跟着纳斯达克变?
首先我自己不会屏蔽baiduspider,也不大相信baiduspider会故意忽略robots.txt,但如果你真的想屏蔽 baiduspider,可尝试以下方法:
1. 上传一个robots.txt到根目录,内容为:
User-agent: baiduspider
Disallow: /
一个搜索引擎爬虫工作前首先应该访问/robots.txt制定排除列表,baiduspider还无法高级到故意忽略某些网站的robots.txt,不知道baiduspider怎么折腾才能让robots.txt失效。
2. 如果仅仅因为服务器吃不消,不防按照的指示写信给百度。估计很多人试过得不到回复(Google基本都是2个工作日内回复)。
3. 如果还没有办法,可尝试.htaccess屏蔽,上传一个.htaccess文件到根目录,内容为:
SetEnvIfNoCase User-Agent "^baiduspider" ban_bot
deny from env=ban_bot
还可以扩大这个列表,屏蔽那些Email提取爬虫、网站克隆爬虫等(小偷一般不守法,但总比自己什么都不做强):
SetEnvIfNoCase User-Agent "^baiduspider" ban_bot
SetEnvIfNoCase User-Agent "^HTTrack" ban_bot
SetEnvIfNoCase User-Agent "^EmailCollector" ban_bot
SetEnvIfNoCase User-Agent "^EmailWolf" ban_bot
SetEnvIfNoCase User-Agent "^ExtractorPro" ban_bot
SetEnvIfNoCase User-Agent "^Offline" ban_bot
SetEnvIfNoCase User-Agent "^WebCopier" ban_bot
SetEnvIfNoCase User-Agent "^Webdupe" ban_bot
SetEnvIfNoCase User-Agent "^WebZIP" ban_bot
SetEnvIfNoCase User-Agent "^Web Downloader" ban_bot
SetEnvIfNoCase User-Agent "^WebAuto" ban_bot
SetEnvIfNoCase User-Agent "^WebCapture" ban_bot
SetEnvIfNoCase User-Agent "^WebMirror" ban_bot
SetEnvIfNoCase User-Agent "^WebStripper" ban_bot
deny from env=ban_bot
.htaccess要用文本方式上传,有些Apache配置比较怪异,防止引起冲突建议上传后立刻看看是否影响普通用户的访问。如果浏览正常,再用FlashGet模拟baiduspider测试这个.htaccess是否工作,方法是:
FlashGet->工具->选项->协议,把HTTP用户代理改成用户自定义:baiduspider;然后用FlashGet下载该网站任意页面,在FlashGet的下载日志里得到HTTP/1.1 403 Forbidden则成功。
文章来源:中国建站论坛
更多关于 百度,蜘蛛 的文章
- [新闻]超级计算机可以帮助拯救经济危机吗?
- [新闻]所有的Linux重大发行版都遵从IPv6标准
- [OS]最新:Opera 10 下周发布Alpha测试
- [OS]Windows Vista SP2明年四月发布(图)
- [新闻]IBM日本公司今年年底之前将裁员千人
- [新闻]经济危机 全球芯片厂商集体“猫冬”
- [新闻]戴尔:在中国没有宣布过任何裁员的计划
- [新闻]Intel不挖墙脚:近期无大规模招募计划
- [虚拟化]虚拟化应用 依然半梦半醒
- [虚拟化]十大理由——企业需加快云计算应用
精彩专题
- [网页技术]国内主流PHP类CMS数据负载测评报告
- [SEO]提高内页权重 把内页当成首页来进行优化
- [SEO]上线不到一天就被Google收录经验之谈
- [新闻]雅虎内部选拔CEO 女总裁德克尔最有戏(图)
- [网页技术]十二个常见的PHP+MySql类免费CMS系统
- [SEO]增强网站原创内容的持久性 更好提升排名
- [SEO]什么是黑帽子优化 六个常用链接作弊伎俩
- [SEO]利用搜狗指数和搜狐论坛来转换和增加流量
- [SEO]搜索引擎的五个局限性 不仅仅是针对谷歌
- [SEO]被百度降权两次 决心好好做内容
- [小希大人]關於cloudcompute對云計算
- [DU的世界]美国在反身份窃取方面努力
- [bigrong]向托马斯.弗里德曼致敬
- [blue]最近火起来的RUBY
- [淡月]国外十大著名IT类网站
- [宋家雨]失望的芯片虚拟化调查结果
- [姜子牙]采购大型化主机应对金融
- [小卡罗]再强也拼不过数据中心掉电
- [owenglyn]10大最流行开源软件!
- [淡月]QQ好友“集体出国”
- [ly]Ruby的日期和时刻
- [skke]快速排除PC上网故障
- [淡月]笔记本活拆键盘实录!(图)
- [姜子牙]Sun公司面临陨落
- [jyiufe]ARP攻击防御术心法
- [papada]生命游戏 c语言完成
- [淡月]裁员名单让你一次看个够!
- [wope]Linux命令之网络安全基础知识
- [obfw]机房网速缓慢真相
- [owenglyn]杨致远下课了我有点难过
- [软件下载] 轻松录制流畅视频
- [软件下载] MyReader语音阅读器
- [软件下载] 电影收藏大师绿色免费版
- [网管专区] 多线路叠加要注意的事项
- [网管专区] Web服务器Ping通不能访问
- [网管专区] 端口映射不成功找出原因
- [网管专区] 由故障性质排除网络故障
- [争议人物] 李想:汽车站大都是垃圾
- [争议人物] 梁永伦:上任半年别盛大
- [争议人物] 李一男:思维要转型
- [争议人物] 马化腾:曾想摆摊装电脑
- [争议人物] 梁念坚:14月挖来的高管!
- [IDC专区] “CMS文章”的汇总贴
- [IDC专区] 让中国web2.0去死!
- [网络安全] 能解任何电脑的开机密码
- [网络安全]教你如何防范U盘病毒
- [网络安全] 把自己的IP地址隐藏起来
- [网络安全] 六大措施保障网络安全
- [系统应用] 30秒完成清除任务
- [系统应用] 无线网络下载小技巧
- [网页技术]国内主流PHP类CMS数据负载测评报告
- [网页技术]Jadu:让PHP和.NET这对冤家和平共处
- [新闻]雅虎杨致远陨落:从神奇小子到最差CEO
- [SEO]网站被搜索引擎处理掉的十二个原因
- [SEO]上线不到一天就被Google收录经验之谈
- [新闻]雅虎内部选拔CEO 女总裁德克尔最有戏(图)
- [网页技术]十二个常见的PHP+MySql类免费CMS系统
- [新闻].NET开源CMS 系统DotNetNuke 获首轮投资
- [新闻]五大主流企业邮箱横向评测
- [新闻]“黑屏”月余后 正版软件销量增两成
- [网页技术]国内主流PHP类CMS数据负载测评报告
- [新闻]雅虎杨致远陨落:从神奇小子到最差CEO
- [新闻]雅虎内部选拔CEO 女总裁德克尔最有戏(图)
- [网页技术]十二个常见的PHP+MySql类免费CMS系统
- [新闻].NET开源CMS 系统DotNetNuke 获首轮投资
- [新闻]五大主流企业邮箱横向评测
- [网页技术]如何用ASP来获取客户端真实IP的地址?
- [网页技术]用ASP木马实现FTP和解压缩
- [虚拟化]看好桌面虚拟化 DevonIT设中国测试中心
- [SEO]搜索引擎的五个局限性 不仅仅是针对谷歌






