《python爬爬乐》爬虫篇：爬虫对应知识点全梳理_python 爬虫爬取离散数学知识点-CSDN博客

本文链接：https://blog.csdn.net/xy229935/article/details/103580176

前言

网络爬虫，本质就是数据采集器，主要作用是模拟人工浏览网络数据的方式，把满足一定规则的数据保存到本地。从本章开始，我们就以python来实现爬虫功能，从基本的爬虫原理，到实际中的爬虫应用，再到爬虫数据的存储和可视化进行一一分析演练。

功能分析

现在各行各业都在做大数据分析，最有动力的学习方式，最好是边学边用，能赚钱最好。经过我的对比，现在最火的有两个方向，一个是A股，一个是热门小视频分析。

为什么选A股呢？

数据丰富，各大财经网站都有数据可以爬取，有些网站还提供了接口，可以直接获取历史数据。各大财经网站每天的复盘总结数据都已经整理好了，不用我们自己再写算法来过滤数据。
如果能找到一套合理的自动化交易方案，按每周1次，每次2%，一年下来可以赚7倍。（当然，这是理想状态。但是，这不就是学习的动力么，学会了爬虫，再学习数据分析，每天都有一台电脑自动帮你赚钱，是不是有些小激动了！\(≧▽≦)/）
数据获取方式：东方财富网的行情中心或问财，或大家自行找更好的数据提供网站。

为什么选小视频？

网上盛传2019年是小视频元年，最火的几个小视频APP相信大家都不陌生。很多人都通过小视频实现了财富自由，难道你不动心么？但是，现在的小视频运营越来越专业化，需要做大量的数据分析，来不断的调整自己的账号。
我们可以通过爬虫爬取每天的爆款选题，再通过数据分析其共同点。然后再结合自己的定位，再录制视频，这样出爆款的机率要大很多。甚至后期，你还可以用python人工智能做视频自动合成。同样可以每天躺着赚钱了！是不是想想又激动起来了！

知识点分析

现在最流行的数据提供方式有两种：一种是网页方式，一种是手机APP方式。

网页使用的是HTTP协议，网页一般使用HTML语言来显示，数据的更新有可能使用javascript语言，有时候为了验证是否是合法用户，还会把一些验证数据放在Cookie中。另外，如果同一IP需要反复多次访问同一网站，最好还是使用代理，不然容易被判断为恶意用户。

网页数据的展示又分为两种，一种是一次把所有的数据都显示到网页上，称之为静态页面，静态页面可以直接使用urllib、requests和beautifulSoup三个库就能完成数据读取。一种是每次显示少量数据，使用ajax动态更新数据，称之为动态网页。动态网页可以使用selenium来读取数据。

手机APP方式需要使用数据抓包分析类的软件来进行处理，涉及到的包有charles、mitmproxy、mitmdump和appium这四个库。

除此之外，python爬虫库还有两个比较常用的框架，pyspider和scrapy。如果你是想要快速达到目的，可以直接学习配置这两个框架即可，如果你是想定制自己的爬虫，甚至是想写出有“智能”的，会自我优化的爬虫，那还是老老实实把基础库过一遍吧。

在编写爬虫的过程中，有的时候我们希望能按某种规则来匹配数据，这就需要学习正则表达式；有的时候需要把爬取的数据保存到本地，这就需要学习文件操作或数据库操作；在编写代码的过程不可避免会出错，或者出现意外情况，这就需要学习异常处理。

以上，就是为大家梳理的python爬虫相关的知识点。