爬虫Robots协议

一粒微尘_1

已于 2022-02-23 17:23:48 修改

阅读量1.1k

点赞数 1

分类专栏： Python爬虫文章标签：爬虫搜索引擎

于 2022-02-23 17:22:44 首次发布

本文链接：https://blog.csdn.net/zhangke0426/article/details/123094877

版权

Robots协议规定了爬虫可以抓取和禁止抓取的网页，是爬虫行业的道德规范。通过访问网站的/robots.txt可查看协议。尽管非强制，但在爬取数据时应遵守此协议，尊重网站服务器，避免恶意爬取带来法律风险。同时，了解并应对反爬虫策略，合理控制爬虫速度，维护互联网秩序。

摘要由CSDN通过智能技术生成

Robots协议是互联网爬虫的一项公认的道德规范，它的全称是“网络爬虫排除标准”（Robots exclusion protocol），这个协议用来告诉爬虫，哪些页面是可以抓取的，哪些不可以。

如何查看网站的robots协议呢，很简单，在网站的域名后加上/robots.txt就可以了。

如百度https://www.baidu.com/robots.txt

User-agent: Baiduspider     #  百度爬虫
Disallow: /baidu         #disallow禁止访问，allow允许访问
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Baiduspider-image
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/