Python爬虫学习笔记 (12) [初级] 阶段总结~

更新日期: 2021.04.04

2021.02.01 开始学习 Python,3月开始学习爬虫,现在4月初了,基本学完了初级爬虫的内容,总结一下~~

1. 学到了什么~

经过了一个月的学习和操练,基本可以从没有反扒机制的网站采集数据了~~

学习了获取静态网页代码的 requests 库,解析代码的 bs4 库和精细解析的 re 库,存为 txt 和 Excel (通过xlwings库) 文档的方法,还尝试了使用词云图展示中文文档的词频分布~

学习这几个库的时候,开始都是直接看官网文档,再参考其他帖子,就像一个认真的小学生,后来…有点不那么用心了,因为,发现想学的东西太多了…时间不够用啊…

其实,刚开始学 Python 不久就被深度学习吸引了,看了两本书,不过了解下来感觉自己能做的就是调参…就放在一边了…

2. 经验和教训…

2.1 学习资料的选择

找到逻辑清晰且内容全面的学习资料,再开始学习。

  • 学习一个知识点后,我会按照自己的方式总结。如果学习资料的结构混乱,总结时几乎需要重构。
  • 有的知识点内容比较多,其中一部分现在不需要,但还是要了解一下,知道有这个功能,以便于将来需要的时候可以回来找到它~

2.2 爬取对象的选择

学习写爬虫,不能期望别人写的代码和提供的内容都 perfect,只能去适应不同质量的网页代码和目标信息。初级阶段结束后更是这样。

主动寻找有难度的网站,是一个有上进心的爬虫应有的心态~~

2.3 专(sǐ)研(kē) v.s. 百度

特别喜欢死磕…我写的都对啊,怎么就是不行呢?!

我知道这样不好,可是,我就是不改,哈哈哈哈~~

3. 接下来~

开始面对有反扒措施的网站。

3.1 获取动态网页的代码

动态网页:打开网址不能获得全部网页代码的网站(如需要点击, 下拉等操作)。

3.2 解析代码中的私密信息

私密信息:从网页代码中不能直接获得网页上显示的信息,如网页上是数字而代码中是图片或密文,或者由JavaScript处理。

3.3 数据预处理,数据分析及可视化

获取数据后,即使是为了给自己看,也应该把它可视化。

初步了解了从数据采集到可视化之间的过程,感觉非常有兴趣,有点怕上面的内容还没学完,就忍不住要来学这一部分了…

  • 数据清洗:采集到的数据,需先做缺失值处理,数据类型和格式的统一,异常值处理和重复值处理。
  • 数据转化:将数据转化为便于分析的形式,如把中文文件分词,把数值型数据归一化等。
  • 数据分析和可视化:分析数据规律,可视化展示,对分析过程和得出的规律进行说明,并尝试应用。

这一部分,计划学习 Python数据分析三剑客:numpy, pandas, plt, 还有关系型数据库 MySQL。

3.4 其他

对于以下问题的解决兴趣不大,放在最后。

  • 解决登录限制:滑块验证和图片识别等,使用代理(池)
  • 提升效率(异步等方法)
  • 存储信息:使用MongDB
  • 其他解析工具:熟悉除 bs4 之外的基本解析工具
  • 学习爬取手机 app 的信息
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值