电商商品爬虫

۩ﺴ往后余生ﺴ۩

已于 2022-05-20 13:02:23 修改

阅读量1.1k

点赞数 1

分类专栏： # python爬虫总结一些认知与理解文章标签： python

于 2021-05-01 20:38:24 首次发布

本文链接：https://blog.csdn.net/weixin_44404350/article/details/116299063

版权

总结一些认知与理解同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

python爬虫

4 篇文章 0 订阅

订阅专栏

电商网商品爬虫

本文只用于学习。

文章目录

电商网商品爬虫
一、Robots基本语法
二、总结

一、Robots基本语法

Robots协议他通过了一个基本语法来告知所有的爬虫，它内部资源能够被访问的权限，这个语法就是User-agent和Disallow。

User-agent 表明的是哪些爬虫，如果我们想代表所有爬虫就用User-agent: *。
Disallow 代表的是不允许这个爬虫访问的资源的目录。

有了这样的一个基本协议，就可以对整个网站的内容做一个相关的规范，使得所有的爬虫知道他可以访问哪里，不可以访问哪里。

爬虫之前先看看，robots.txt协议
查看淘宝robots.txt，有协议，意思是所有网络爬虫爬虫，不能爬取所有目录
发现淘宝不允许任何人对淘宝信息进行爬取。那么作为一名守法公民为了不要引起不必要的麻烦：
一，不要爬取，二，爬取的程序不要做任何商业用途，仅仅只能用作技术学习。
在这里插入图片描述
额，同理。再看看京东的Robots协议，浏览器打开网址：https://www.jd.com/robots.txt，我们看到Robots协议的文本里面有：

User-agent: ：指的是对于任何的网络爬虫来源（定义为user-agent），也就是说无论你是什么样的网络爬虫都应该遵守如下的协议。
Disallow: /? ：不允许所有爬虫访问以问号开头的路径。
Disallow: /pop/.html ：不允许所有爬虫访问pop目录下的所有HTML页面。
Disallow: /pinpai/.html?* ：符合这个通配符的内容也是不允许任何网络爬虫访问的
此外，京东的robots协议又提供了User-agent: EtaoSpider 这样的一个内容，其实不只是EtaoSpider，后面还有四个网络爬虫，后面都跟了一句Disallow: / 指的是这四个网络爬虫，是不允许爬去京东的任何资源
提示：以下是本篇文章正文内容，下面案例可供参考