实践五、六、七 -- 爬虫实践

随手记

1.JSON序列化与反序列化

在这里插入图片描述

2. Pandas库

  1. 常与Numpy和matplotlib一起用
  2. 核心数据结构:Series(一维数据)和DataFrame(多特征数据)
# 设置显示中文
plt.rcParams['font.sans-serif'] = ['simhei'] # 指定默认字体
# plt.rcParams['font.sans-serif']=['Fangsong'] # 用来显示中文标签
plt.rcParams['axes.unicode_minus']=False # 用来显示负号 
plt.rcParams['figure.dpi'] = 100 # 每英寸点数 

3. BeautifulSoups4用法:

一个可以从HTML或XML文件中提取数据的Python库。它通过转换器实现文档导航,查找,修改文档的方式。

4. csv模块:

以纯文本存储数和文本(此处找到一篇详细的博客,感谢这位作者)

5. matplotlib.pyplot模块:

用于将分析的数据通过图标的方式可视化出来,同样找到一篇博客

6. fake-useragent库用法(用于应对反爬):

!pip install fake_useragent
from fake_useragent import UserAgent

headers= {'User-Agent':str(UserAgent().random)}
r = requests.get(url, proxies=proxies, headers=headers, timeout=10)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值