更新日期: 2021.04.04
2021.02.01 开始学习 Python,3月开始学习爬虫,现在4月初了,基本学完了初级爬虫的内容,总结一下~~
目录
1. 学到了什么~
经过了一个月的学习和操练,基本可以从没有反扒机制的网站采集数据了~~
学习了获取静态网页代码的 requests 库,解析代码的 bs4 库和精细解析的 re 库,存为 txt 和 Excel (通过xlwings库) 文档的方法,还尝试了使用词云图展示中文文档的词频分布~
学习这几个库的时候,开始都是直接看官网文档,再参考其他帖子,就像一个认真的小学生,后来…有点不那么用心了,因为,发现想学的东西太多了…时间不够用啊…
其实,刚开始学 Python 不久就被深度学习吸引了,看了两本书,不过了解下来感觉自己能做的就是调参…就放在一边了…
2. 经验和教训…
2.1 学习资料的选择
找到逻辑清晰且内容全面的学习资料,再开始学习。
- 学习一个知识点后,我会按照自己的方式总结。如果学习资料的结构混乱,总结时几乎需要重构。
- 有的知识点内容比较多,其中一部分现在不需要,但还是要了解一下,知道有这个功能,以便于将来需要的时候可以回来找到它~
2.2 爬取对象的选择
学习写爬虫,不能期望别人写的代码和提供的内容都 perfect,只能去适应不同质量的网页代码和目标信息。初级阶段结束后更是这样。
主动寻找有难度的网站,是一个有上进心的爬虫应有的心态~~
2.3 专(sǐ)研(kē) v.s. 百度
特别喜欢死磕…我写的都对啊,怎么就是不行呢?!
我知道这样不好,可是,我就是不改,哈哈哈哈~~
3. 接下来~
开始面对有反扒措施的网站。
3.1 获取动态网页的代码
动态网页:打开网址不能获得全部网页代码的网站(如需要点击, 下拉等操作)。
3.2 解析代码中的私密信息
私密信息:从网页代码中不能直接获得网页上显示的信息,如网页上是数字而代码中是图片或密文,或者由JavaScript处理。
3.3 数据预处理,数据分析及可视化
获取数据后,即使是为了给自己看,也应该把它可视化。
初步了解了从数据采集到可视化之间的过程,感觉非常有兴趣,有点怕上面的内容还没学完,就忍不住要来学这一部分了…
- 数据清洗:采集到的数据,需先做缺失值处理,数据类型和格式的统一,异常值处理和重复值处理。
- 数据转化:将数据转化为便于分析的形式,如把中文文件分词,把数值型数据归一化等。
- 数据分析和可视化:分析数据规律,可视化展示,对分析过程和得出的规律进行说明,并尝试应用。
这一部分,计划学习 Python数据分析三剑客:numpy, pandas, plt, 还有关系型数据库 MySQL。
3.4 其他
对于以下问题的解决兴趣不大,放在最后。
- 解决登录限制:滑块验证和图片识别等,使用代理(池)
- 提升效率(异步等方法)
- 存储信息:使用MongDB
- 其他解析工具:熟悉除 bs4 之外的基本解析工具
- 学习爬取手机 app 的信息