前言:
在学习爬虫的时候,除了要学会爬取数据以外,还要学习如何解析数据,在这里介绍常用的三种解析爬虫数据的方法,分别是正则表达式、Beautiful Soup、还有xpath。
正文:
首先分别介绍三种解析数据方式各自的特点:
Re(Regular Expression 正则表达式)速度快效率高准确性高,但使用起来可能相较于其他两种方法会更加的复杂多变,要学习的一些符号规则也会多一点。
bs4(Beautiful Soup)最简单但执行起来效率并不高,它的原理是通过对HTML的标签、属性以及属性值来进行定位的。
xpath最流行,语法规则比较舒服,使用起来效率更高更容易上手,xpath是在XML文档中搜索内容的一门语言课,也是现在爬虫用的比较多的一种解析数据的方式。
接下来进入到这三种方式当中Re的实例:
其中Re的常用的符号规则:
元字符:具有固定含义的特殊符号
常用元字符:
1 . 匹配除换行符以外的任意字符
2 \w 匹配字母或数字或下划线
3 \s 匹配任意的空白符
4 \d 匹配数字
5 \n 匹配一个换行符
6 \t 匹配一个制表符
7 ^ 匹配字符串的开始
8 $ 匹配字符串的结尾
9 \W 匹配非字母或数字或下划线
10 \D 匹配非数字
11 \S 匹配非空白符
12 a|b 匹配字符a或b
13