爬虫:网易严选

爬虫:网易严选
作者:石头炒面
联系方式:903565442@qq.com
声明:任何形式的转载都需要过问本人,否则后果自负。本文技术入门级,所以请不要引起没必要的争论。互相学习就好。

摘要:网易严选是国内知名的电商平台,其商品数量繁多,所以在网站中可以大量的挖掘其数据进行商业分析,本文章采用requests技术对网站进行爬虫分析,并对其后的数据结果进行处理分析。

1.爬虫篇
1.1爬虫包的总述
题主这里对爬虫技术做简单的归纳和综述。python爬虫的依赖包常见的有三种:requests,urllib和selenium。其中urllib为python的内置包,其使用操作可以满足大多的网络爬虫工作,是最原始的爬虫包,其使用方法简单,容易上手。requests是基于urllib整合的爬虫包,其在urllib的基础上继续升华,是目前使用最广泛,应用最简单的爬虫包。selenium的角色比较特殊,网站的服务器对爬虫的识别是网站反爬的必要环节,而爬虫对服务器的伪装是反反扒的关键。但是不管的requests还是urllib都无法完全模拟人类访问服务器的操作,但是selenium做到了,selenium或许是反爬虫的顶端,但是对比另外的两个包,selenium往往要花更长的时间去获取数据,所以我建议能不用就不用。
1.2开始爬虫
首先要建立自己的工作目录:网易严选爬虫(文档)。
建立第一个py文件:获取网页的html代码。
这里插一句,不管是任何形式的网络爬虫,是要从网页中获取信息,那么网页中的信息是如何呈现的呢?很简单,网页的信息是Html5代码呈现的,我们都知道互联网前端的三个常用工具:HTML,CSS和JavaScript,这三者共同呈现了我们能够获取信息的网页。而其中的HTML就是呈现信息的最基本载体,这并不是说要我们精通前端的技术,但是一定要懂得其中的道理,才能从网站中获取有用的信息。
接下来我们上代码:

import requests as rq
#调用requests包

url='http:
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值