电商网商品爬虫
本文只用于学习。
一、Robots基本语法
Robots协议他通过了一个基本语法来告知所有的爬虫,它内部资源能够被访问的权限,这个语法就是User-agent和Disallow。
User-agent 表明的是哪些爬虫,如果我们想代表所有爬虫就用User-agent: *。
Disallow 代表的是不允许这个爬虫访问的资源的目录。
有了这样的一个基本协议,就可以对整个网站的内容做一个相关的规范,使得所有的爬虫知道他可以访问哪里,不可以访问哪里。
爬虫之前先看看,robots.txt协议
查看淘宝robots.txt,有协议,意思是所有网络爬虫爬虫,不能爬取所有目录
发现淘宝不允许任何人对淘宝信息进行爬取。那么作为一名守法公民为了不要引起不必要的麻烦:
一,不要爬取,二,爬取的程序不要做任何商业用途,仅仅只能用作技术学习。
额,同理。再看看京东的Robots协议,浏览器打开网址:https://www.jd.com/robots.txt,我们看到Robots协议的文本里面有:
User-agent: :指的是对于任何的网络爬虫来源(定义为user-agent),也就是说无论你是什么样的网络爬虫都应该遵守如下的协议。
Disallow: /? :不允许所有爬虫访问以问号开头的路径。
Disallow: /pop/.html :不允许所有爬虫访问pop目录下的所有HTML页面。
Disallow: /pinpai/.html?* :符合这个通配符的内容也是不允许任何网络爬虫访问的
此外,京东的robots协议又提供了User-agent: EtaoSpider 这样的一个内容,其实不只是EtaoSpider,后面还有四个网络爬虫,后面都跟了一句Disallow: / 指的是这四个网络爬虫,是不允许爬去京东的任何资源
提示:以下是本篇文章正文内容,下面案例可供参考
电商一,这里是北理嵩天老师的MOOC中的一个实例。
内容是根据中国大学嵩天老师的python网络爬虫与信息提取进行的
视频课件中的方法失效了,在其基础上改了一点点。
加入了带header的请求,来模拟浏览器,骗过服务器,获取和浏览器一致的内容
功能描述:
目的:获取搜索页面信息,提取其中的商品名称和价格
理解:搜索接口,翻页处理
技术路线: requests-re
程序的结构设计
步骤1:提交商品搜索请求,循环获取页面
步骤2:对于每个页面,提取商品名称和价格信息
步骤3:将信息输出到屏幕上
右键查看网页源代码,寻找到货品名称和价格
电商二,店铺商品价格数据(更新版)
lyhsdy
二、总结
其实代码和原理是差不多的,这里就点到为止哈。