电商商品爬虫

电商网商品爬虫

本文只用于学习。

一、Robots基本语法

Robots协议他通过了一个基本语法来告知所有的爬虫,它内部资源能够被访问的权限,这个语法就是User-agent和Disallow。

User-agent 表明的是哪些爬虫,如果我们想代表所有爬虫就用User-agent: *。
Disallow 代表的是不允许这个爬虫访问的资源的目录。

有了这样的一个基本协议,就可以对整个网站的内容做一个相关的规范,使得所有的爬虫知道他可以访问哪里,不可以访问哪里。

爬虫之前先看看,robots.txt协议
查看淘宝robots.txt,有协议,意思是所有网络爬虫爬虫,不能爬取所有目录
发现淘宝不允许任何人对淘宝信息进行爬取。那么作为一名守法公民为了不要引起不必要的麻烦:
一,不要爬取,二,爬取的程序不要做任何商业用途,仅仅只能用作技术学习。
在这里插入图片描述
额,同理。再看看京东的Robots协议,浏览器打开网址:https://www.jd.com/robots.txt,我们看到Robots协议的文本里面有:
在这里插入图片描述
User-agent: :指的是对于任何的网络爬虫来源(定义为user-agent),也就是说无论你是什么样的网络爬虫都应该遵守如下的协议。
Disallow: /?
:不允许所有爬虫访问以问号开头的路径。
Disallow: /pop/.html :不允许所有爬虫访问pop目录下的所有HTML页面。
Disallow: /pinpai/
.html?* :符合这个通配符的内容也是不允许任何网络爬虫访问的
此外,京东的robots协议又提供了User-agent: EtaoSpider 这样的一个内容,其实不只是EtaoSpider,后面还有四个网络爬虫,后面都跟了一句Disallow: / 指的是这四个网络爬虫,是不允许爬去京东的任何资源
提示:以下是本篇文章正文内容,下面案例可供参考


电商一,这里是北理嵩天老师的MOOC中的一个实例。

内容是根据中国大学嵩天老师的python网络爬虫与信息提取进行的
视频课件中的方法失效了,在其基础上改了一点点。
加入了带header的请求,来模拟浏览器,骗过服务器,获取和浏览器一致的内容

功能描述:
目的:获取搜索页面信息,提取其中的商品名称和价格
理解:搜索接口,翻页处理
技术路线: requests-re
程序的结构设计
步骤1:提交商品搜索请求,循环获取页面
步骤2:对于每个页面,提取商品名称和价格信息
步骤3:将信息输出到屏幕上
右键查看网页源代码,寻找到货品名称和价格

此处参考作者:有槑有
不秃不强
源码和操作步骤都在这

电商二,店铺商品价格数据(更新版)
lyhsdy

二、总结

其实代码和原理是差不多的,这里就点到为止哈。

爬取 脚本执行下面的命令,项目目录下会创建产品目录,所有的爬取到的商品图片和信息总体出现在里面。 python crawl.py supreme https://www.supremecommunity.com/season/spring-summer2020/droplist/2020-02-27/ 其他依赖 为了使用正确使用nike爬虫,你还需要: Chrome浏览器(chrome 85版) ChromeDriver 85.0.4183.87 缺失它们不会影响其他爬虫的使用。 配置问题 通过修改IMAGES_STORE可以自定义文件的存储位置。 默认开启了AUTOTHROTTLE,可以通过设置AUTOTHROTTLE_ENABLED为False关闭。 基本使用 项目下执行命令: python crawl.py brand start_url... 把brand替换为品牌名。 把start_url替换为要开始爬取的网页。 爬虫 最高 爬取某一季所有周的商品 python crawl.py supreme https://www.supremecommunity.com/season/spring-summer2020/droplists/ 浏览某一周所有的商品 python crawl.py supreme https://www.supremecommunity.com/season/spring-summer2020/droplist/2020-02-27/ 游走取一些周的商品 python crawl.py supreme https://www.supremecommunity.com/season/spring-summer2020/droplist/2020-02-27/ https://www.supremecommunity.com/season/spring-summer2020/droplist/2020-05-21/ 资本 去取某一特定下的所有商品 python crawl.py kapital https://www.kapital-webshop.jp/category/W_COAT/ 耐克 爬取当前搜索的商品(包括所有颜色) python crawl.py nike https://www.nike.com/cn/w?q=CU6525&vst=CU6525 熊砖 去取当前分类的所有商品 python crawl.py bearbrick http://www.bearbrick.com/product/12_0 已知问题:BearBrickLoader 的category_in无法达到预期的行为。 United Arrows 网上商店 取当前商品 python crawl.py uastore https://store.united-arrows.co.jp/shop/mt/goods.html?gid=52711245 特拉维斯·斯科特 爬取所有商品 python crawl.py ts https://shop.travisscott.com/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值