《python爬爬乐》爬虫篇:爬虫对应知识点全梳理

前言

网络爬虫,本质就是数据采集器,主要作用是模拟人工浏览网络数据的方式,把满足一定规则的数据保存到本地。从本章开始,我们就以python来实现爬虫功能,从基本的爬虫原理,到实际中的爬虫应用,再到爬虫数据的存储和可视化进行一一分析演练。

 

功能分析

现在各行各业都在做大数据分析,最有动力的学习方式,最好是边学边用,能赚钱最好。经过我的对比,现在最火的有两个方向,一个是A股,一个是热门小视频分析。

为什么选A股呢?

  1. 数据丰富,各大财经网站都有数据可以爬取,有些网站还提供了接口,可以直接获取历史数据。各大财经网站每天的复盘总结数据都已经整理好了,不用我们自己再写算法来过滤数据。
  2. 如果能找到一套合理的自动化交易方案,按每周1次,每次2%,一年下来可以赚7倍。(当然,这是理想状态。但是,这不就是学习的动力么,学会了爬虫,再学习数据分析,每天都有一台电脑自动帮你赚钱,是不是有些小激动了!\(≧▽≦)/)
  3. 数据获取方式:东方财富网的行情中心或问财,或大家自行找更好的数据提供网站。

为什么选小视频?

  1. 网上盛传2019年是小视频元年,最火的几个小视频APP相信大家都不陌生。很多人都通过小视频实现了财富自由,难道你不动心么?但是,现在的小视频运营越来越专业化,需要做大量的数据分析,来不断的调整自己的账号。
  2. 我们可以通过爬虫爬取每天的爆款选题,再通过数据分析其共同点。然后再结合自己的定位,再录制视频,这样出爆款的机率要大很多。甚至后期,你还可以用python人工智能做视频自动合成。同样可以每天躺着赚钱了!是不是想想又激动起来了!

 

知识点分析

现在最流行的数据提供方式有两种:一种是网页方式,一种是手机APP方式。

网页使用的是HTTP协议,网页一般使用HTML语言来显示,数据的更新有可能使用javascript语言,有时候为了验证是否是合法用户,还会把一些验证数据放在Cookie中。另外,如果同一IP需要反复多次访问同一网站,最好还是使用代理,不然容易被判断为恶意用户。

网页数据的展示又分为两种,一种是一次把所有的数据都显示到网页上,称之为静态页面,静态页面可以直接使用urllibrequestsbeautifulSoup三个库就能完成数据读取。一种是每次显示少量数据,使用ajax动态更新数据,称之为动态网页。动态网页可以使用selenium来读取数据。

手机APP方式需要使用数据抓包分析类的软件来进行处理,涉及到的包有charles、mitmproxy、mitmdump和appium这四个库。

除此之外,python爬虫库还有两个比较常用的框架,pyspider和scrapy。如果你是想要快速达到目的,可以直接学习配置这两个框架即可,如果你是想定制自己的爬虫,甚至是想写出有“智能”的,会自我优化的爬虫,那还是老老实实把基础库过一遍吧。

在编写爬虫的过程中,有的时候我们希望能按某种规则来匹配数据,这就需要学习正则表达式;有的时候需要把爬取的数据保存到本地,这就需要学习文件操作或数据库操作;在编写代码的过程不可避免会出错,或者出现意外情况,这就需要学习异常处理

以上,就是为大家梳理的python爬虫相关的知识点。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值