我们获取了想要的html页面之后,接下来的问题就是如何将我们需要的数据给提取下来,一 般来说有三种方式,分别是Xpath语法,正则表达式和bs4库。
解析方式 | 解析速度 | 难度 |
Xpath | 快 | 中等 |
bs4 | 慢 | 容易 |
re(正则表达式) | 最快 | 困难 |
Xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言, 可用来在XML和HTML文档中对元素和属性进行遍历。简单来说,我们的数据是超文本数据,想要获取超文本数据里面的内容&
我们获取了想要的html页面之后,接下来的问题就是如何将我们需要的数据给提取下来,一 般来说有三种方式,分别是Xpath语法,正则表达式和bs4库。
解析方式 | 解析速度 | 难度 |
Xpath | 快 | 中等 |
bs4 | 慢 | 容易 |
re(正则表达式) | 最快 | 困难 |
Xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言, 可用来在XML和HTML文档中对元素和属性进行遍历。简单来说,我们的数据是超文本数据,想要获取超文本数据里面的内容&