python爬虫学习笔记 2 （非结构化数据和结构化数据提取）

最新推荐文章于 2024-04-10 12:15:00 发布

还算小萌新？

最新推荐文章于 2024-04-10 12:15:00 发布

阅读量778

点赞数 2

分类专栏： python爬虫学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zyzy123321/article/details/105673366

版权

python爬虫学习专栏收录该内容

40 篇文章

订阅专栏

python爬虫学习笔记 2 （非结构化数据和结构化数据提取）

python爬虫学习笔记 1.1（通用爬虫和聚焦爬虫）
python爬虫学习笔记 1.2 （ HTTP和HTTPS ）
python爬虫学习笔记 1.3 str和bytes的区别
 python爬虫学习笔记 1.4 （Request简单使用）request安装
 python爬虫学习笔记 1.5 （Requests深入）
python爬虫学习笔记 1.6 （HTTP/HTTPS抓包工具-Fiddler）
python爬虫学习笔记 1.7 （urllib模块的基本使用）
python爬虫学习笔记 1.8 （urllib:get请求和post请求）
python爬虫学习笔记 1.9 （Handler处理器和自定义Opener）
python爬虫学习笔记 2 （非结构化数据和结构化数据提取）
python爬虫学习笔记 2.1 （正则表达式re模块）
python爬虫学习笔记 2.2 （使用正则表达式得爬虫得简单案例）
python爬虫学习笔记 2.3 （XPath与lxml类库）
python爬虫学习笔记 2.4 （使用Xpath得案例）
python爬虫学习笔记 2.5 （json与JsonPath）
python爬虫学习笔记 2.6 （糗事百科案例）
python爬虫学习笔记 2.7 （多线程爬虫案例（初步了解））
python爬虫学习笔记 2.8 （beautifulsoup4）
python爬虫学习笔记 2.9 （使用bs4得案例）
python爬虫学习笔记 3 （动态HTML处理和机器图像识别）
python爬虫学习笔记 3.1 （动态HTML介绍）
python爬虫学习笔记 3.2 （Selenium与PhantomJS）
python爬虫学习笔记 3.#（番外）（selenium和chromedriver使用中得问题）
页面解析和数据提取

一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。

非结构化数据：先有数据，再有结构，（http://www.baidu.com）
结构化数据：先有结构、再有数据（http://wangyi.butterfly.mopaasapp.com/news/api?type=war&page=1&limit=10）
不同类型的数据，我们需要采用不同的方式来处理。

非结构化的数据处理

文本、电话号码、邮箱地址

正则表达式
HTML 文件
正则表达式
XPath
CSS选择器

结构化的数据处理

JSON 文件

JSON Path
转化成Python类型进行操作（json类）

XML 文件

转化成Python类型（xmltodict）
XPath
CSS选择器
正则表达式

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。