Python爬虫学习笔记 (12) [初级] 阶段总结~

最新推荐文章于 2024-04-28 00:56:31 发布

Alice

最新推荐文章于 2024-04-28 00:56:31 发布

阅读量127

点赞数

分类专栏： Python爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54955821/article/details/115433505

版权

Python爬虫专栏收录该内容

16 篇文章 1 订阅

订阅专栏

更新日期: 2021.04.04

2021.02.01 开始学习 Python，3月开始学习爬虫，现在4月初了，基本学完了初级爬虫的内容，总结一下~~

目录

1. 学到了什么~
2. 经验和教训...
3. 接下来~

1. 学到了什么~

经过了一个月的学习和操练，基本可以从没有反扒机制的网站采集数据了~~

学习了获取静态网页代码的 requests 库，解析代码的 bs4 库和精细解析的 re 库，存为 txt 和 Excel (通过xlwings库) 文档的方法，还尝试了使用词云图展示中文文档的词频分布~

学习这几个库的时候，开始都是直接看官网文档，再参考其他帖子，就像一个认真的小学生，后来…有点不那么用心了，因为，发现想学的东西太多了…时间不够用啊…

其实，刚开始学 Python 不久就被深度学习吸引了，看了两本书，不过了解下来感觉自己能做的就是调参…就放在一边了…

2. 经验和教训…

2.1 学习资料的选择

找到逻辑清晰且内容全面的学习资料，再开始学习。

学习一个知识点后，我会按照自己的方式总结。如果学习资料的结构混乱，总结时几乎需要重构。
有的知识点内容比较多，其中一部分现在不需要，但还是要了解一下，知道有这个功能，以便于将来需要的时候可以回来找到它~

2.2 爬取对象的选择

学习写爬虫，不能期望别人写的代码和提供的内容都 perfect，只能去适应不同质量的网页代码和目标信息。初级阶段结束后更是这样。

主动寻找有难度的网站，是一个有上进心的爬虫应有的心态~~

2.3 专(sǐ)研(kē) v.s. 百度

特别喜欢死磕…我写的都对啊，怎么就是不行呢?!

我知道这样不好，可是，我就是不改，哈哈哈哈~~

3. 接下来~

开始面对有反扒措施的网站。

3.1 获取动态网页的代码

动态网页：打开网址不能获得全部网页代码的网站（如需要点击, 下拉等操作)。

3.2 解析代码中的私密信息

私密信息：从网页代码中不能直接获得网页上显示的信息，如网页上是数字而代码中是图片或密文，或者由JavaScript处理。

3.3 数据预处理，数据分析及可视化

获取数据后，即使是为了给自己看，也应该把它可视化。

初步了解了从数据采集到可视化之间的过程，感觉非常有兴趣，有点怕上面的内容还没学完，就忍不住要来学这一部分了…

数据清洗：采集到的数据，需先做缺失值处理，数据类型和格式的统一，异常值处理和重复值处理。
数据转化：将数据转化为便于分析的形式，如把中文文件分词，把数值型数据归一化等。
数据分析和可视化：分析数据规律，可视化展示，对分析过程和得出的规律进行说明，并尝试应用。

这一部分，计划学习 Python数据分析三剑客：numpy, pandas, plt，还有关系型数据库 MySQL。

3.4 其他

对于以下问题的解决兴趣不大，放在最后。

解决登录限制：滑块验证和图片识别等，使用代理（池）
提升效率（异步等方法）
存储信息：使用MongDB
其他解析工具：熟悉除 bs4 之外的基本解析工具
学习爬取手机 app 的信息

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Alice CSDN认证博客专家 CSDN认证企业博客

码龄4年

21: 原创

55万+: 周排名

114万+: 总排名

9966: 访问

: 等级

252: 积分

7: 粉丝

9: 获赞

19: 评论

16: 收藏

私信

关注

热门文章

分类专栏

力扣 2篇
Python学习 3篇
Python爬虫 16篇

最新评论

Python爬虫学习笔记 (9) [初级] 小练习爬取慕课网课程清单
L. Ying: AttributeError Traceback (most recent call last) ~\AppData\Local\Temp/ipykernel_2996/1954813770.py in <module> 65 66 if __name__ == '__main__': ---> 67 fetch_info() ~\AppData\Local\Temp/ipykernel_2996/1954813770.py in fetch_info() 53 sheet.range("D" + str(i)).value = soup.find("span", string=re.compile("时长")).next_sibling.string 54 sheet.range("E" + str(i)).value = soup.find("span", string=re.compile("综合评分")).next_sibling.string ---> 55 sheet.range("F" + str(i)).value = soup.find(class_="path-split").next_sibling.string 56 sheet.range("G" + str(i)).value = soup.find(class_="path-split").next_sibling.next_sibling.next_sibling.next_sibling.string 57 sheet.range("H" + str(i)).value = soup.find("span", class_="tit").next_element.next_element.string AttributeError: 'NoneType' object has no attribute 'next_sibling' 出现这种情况是怎么回事呀
Python爬虫学习笔记 (15) [中级] 动态网页处理 selenium 3 - Glidedsky爬虫基础2
LaoYuanPython: 希望以后看到博主更多的文章！学爬虫，用Python！欢迎博主回访我的爬虫专栏！
Python爬虫学习笔记 (15) [中级] 动态网页处理 selenium 3 - Glidedsky爬虫基础2
不正经的kimol君: 学到了，点赞支持
Python爬虫学习笔记 (11) [初级] 小练习爬取Eason所有歌曲歌词 & 制作词云图
不正经的kimol君: 代码之路任重道远，愿跟博主努力习之。
Python爬虫学习笔记 (11) [初级] 小练习爬取Eason所有歌曲歌词 & 制作词云图
普通网友: 写的很好，一起加油啊！可以抽空回访（评论+点赞）一下我吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。