爬虫：网易严选

最新推荐文章于 2021-09-29 20:30:32 发布

捶捶小学

最新推荐文章于 2021-09-29 20:30:32 发布

阅读量734

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_44261015/article/details/103962007

版权

爬虫：网易严选
作者：石头炒面
联系方式：903565442@qq.com
声明：任何形式的转载都需要过问本人，否则后果自负。本文技术入门级，所以请不要引起没必要的争论。互相学习就好。

摘要：网易严选是国内知名的电商平台，其商品数量繁多，所以在网站中可以大量的挖掘其数据进行商业分析，本文章采用requests技术对网站进行爬虫分析，并对其后的数据结果进行处理分析。

1.爬虫篇
1.1爬虫包的总述
题主这里对爬虫技术做简单的归纳和综述。python爬虫的依赖包常见的有三种：requests，urllib和selenium。其中urllib为python的内置包，其使用操作可以满足大多的网络爬虫工作，是最原始的爬虫包，其使用方法简单，容易上手。requests是基于urllib整合的爬虫包，其在urllib的基础上继续升华，是目前使用最广泛，应用最简单的爬虫包。selenium的角色比较特殊，网站的服务器对爬虫的识别是网站反爬的必要环节，而爬虫对服务器的伪装是反反扒的关键。但是不管的requests还是urllib都无法完全模拟人类访问服务器的操作，但是selenium做到了，selenium或许是反爬虫的顶端，但是对比另外的两个包，selenium往往要花更长的时间去获取数据，所以我建议能不用就不用。
1.2开始爬虫
首先要建立自己的工作目录：网易严选爬虫（文档）。
建立第一个py文件：获取网页的html代码。
这里插一句，不管是任何形式的网络爬虫，是要从网页中获取信息，那么网页中的信息是如何呈现的呢？很简单，网页的信息是Html5代码呈现的，我们都知道互联网前端的三个常用工具：HTML，CSS和JavaScript，这三者共同呈现了我们能够获取信息的网页。而其中的HTML就是呈现信息的最基本载体，这并不是说要我们精通前端的技术，但是一定要懂得其中的道理，才能从网站中获取有用的信息。
接下来我们上代码：

import requests as rq
#调用requests包

url='http:

最低0.47元/天解锁文章

捶捶小学

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
爬虫：网易严选

爬虫：网易严选作者：石头炒面联系方式：903565442@qq.com声明：任何形式的转载都需要过问本人，否则后果自负。本文技术入门级，所以请不要引起没必要的争论。互相学习就好。摘要：网易严选是国内知名的电商平台，其商品数量繁多，所以在网站中可以大量的挖掘其数据进行商业分析，本文章采用requests技术对网站进行爬虫分析，并对其后的数据结果进行处理分析。1.爬虫篇1.1爬虫包的总述...
复制链接

扫一扫