大家有没有遇到过 Baiduspider/2.0 不遵守 robots.txt 的情况？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 3257 天前的主题，其中的信息可能已经有所发展或是发生改变。

Apache 纪录里面发现了好多纪录都是百度访问本该 Disallow 的页面，大家有没有碰到过类似的情况？都是怎么解决的...直接屏蔽掉百度爬出么？

百度

disallow

Apache

robots

15 条回复 • 2016-01-29 12:44:32 +08:00

580a388da131

2016-01-29 03:14:23 +08:00

修改 robots 后有一段时间内蜘蛛还回来

Andy1999

2016-01-29 04:28:09 +08:00 via iPhone

谷歌也不遵守，悉听尊便吧

Khlieb

2016-01-29 04:43:55 +08:00 via Android

坐等大神出来分析

czb

2016-01-29 05:41:11 +08:00 via Android

有验证是真的 spider 吗

ryd994

2016-01-29 06:29:32 +08:00 via Android

怎么单独屏蔽百度爬虫？真心要爬你，换个 UA 就行了
要屏蔽就要屏蔽所有（至少绝大部分）爬虫

DesignerSkyline

2016-01-29 08:19:15 +08:00

只需要上全站 HTTPS+只开启 CHACHA20_POLY1305 即可让多数爬虫敬而远之

xrui

2016-01-29 08:24:34 +08:00 via Android

对，直接 403

keinx

2016-01-29 09:03:56 +08:00

蜘蛛是会来爬的，但是不一定收录。

Hello1995

2016-01-29 09:17:01 +08:00 via Android

@ryd994 大部分搜索引擎爬虫的 UA 里有 spider / bot 字样，屏蔽之，亲测有效。不过少量的爬虫没有这两个字眼的就没办法了。

xiaoyustudio

2016-01-29 10:36:34 +08:00

@czb IP 地址查了一下确实是百度的...

xujif

2016-01-29 11:19:36 +08:00

难道不知道现在很多采集程序都把自己标记为 spider 吗

libook

2016-01-29 12:15:39 +08:00

我们是用 Nginx 检测 UA ，然后直接内部跳转。如果换 UA 偷偷爬我也没办法。
阴谋论：别的厂商的爬虫用了百度的 UA ？
还有个好方法是用 Angular 路由，百度爬不到#之后的部分。。。

xiaoyustudio

2016-01-29 12:35:42 +08:00

@czb @xujif @libook, 之前想到过阴谋论... 然后 double check 了一下各种 IP 发现确实是百度的.... 再观察一下好了如果实在太嚣张就 .htaccess UA 识别一下全部 redirect 到主页哈哈... 感谢大家!

wy315700

2016-01-29 12:38:56 +08:00

robots.txt 只是规定了不收录，但是没有规定不爬取

TheCure

2016-01-29 12:44:32 +08:00

是的百度不会按照 robot 里面的目录来爬,但是一般情况下不会收录你 disallow 的目录

比如各种网站都会把后台管理目录放到 disallow 里,但是在百度搜索是搜不到这些目录的

如果你 disallow 根目录,那是不会来爬了
估计百度一开始的实现有问题,后来规模大了问题很难修改?