三种解析方式:
- re解析
- bs4解析
- xpath解析
这三种方式可以混合使用,完全以结果做向导,只要能拿到想要的数据,用什么方案并不重要,性能是后续需要考虑的问题
正则表达式:
Regular Expression:一种使用表达式的方式对字符串进行匹配的语法规则。
抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容,用正则表达式再适合不过了。
正则的优点:速度快,效率高,准确性高。
正则的缺点:新手上手难度高
语法:使用元字符进行排列组合用来匹配字符串。
常用元字符
. 匹配除换行符以外的任意字符
\w 匹配数字/字母/下划线
\d p
\s 匹配任意空白符
\n 匹配一个换行符
\t 匹配一个制表符
^ 匹配字符串的开始
$ 匹配字符串的结尾
\W 匹配非字母或数字或下划线
\D 匹配非数字
\S 匹配非空白符
a|b 匹配字符a或字符b
( ) 匹配括号内的表达式,也表示一个组
[...] 匹配字符组中的字符
[^...] 匹配除了字符组中字符的所有字符
量词:控制前面的元字符出现的次数
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次
贪婪匹配和惰性匹配
.*? 惰性匹配
.* 贪婪匹配
爬虫用的最多的就是惰性匹配。
用例:
# 惰性匹配 --> 尽可能少 d
import re
str = "玩儿吃鸡游戏,晚上一起打游戏,干嘛呢?打游戏啊!"
form = r"玩儿.*?游戏"
res = re.findall(form,str)
print(res)
-----------------------------------------------------
<re.Match object; span=(0, 6), match='玩儿吃鸡游戏'>
# 贪婪匹配 --> 尽可能多
import re
str = "玩儿吃鸡游戏,晚上一起打游戏,干嘛呢?打游戏啊!"
form = r"玩儿.*游戏"
res = re.findall(form,str)
print(res)
-----------------------------------------------------
<re.Match object; span=(0, 22), match='玩儿吃鸡游戏,晚上一起打游戏,干嘛呢?打游戏'>
import re
str = "<div class=\"jay\">周杰伦</div><div class=\"jj\">林俊杰</div>"
form = r"<div class=\".*?\">.*?</div>"
res = re.findall(form,str)
print(res)
-----------------------------------------------------
['<div class="jay">周杰伦</div>', '<div class="jj">林俊杰</div>']
re模块中我们需要记住的几个功能
lst1 = re.findall("m","mai le fo leng,mai ni mei!")
lst2 = re.findall(r"\d+","5点之前,给我5000万")
print(lst1)
print(lst2)
-----------------------------------------------
['m','m','m']
['5','5000']
ret = re.search(r"\d+","5点之前,给我5000万").group()
print(ret)
-----------------------------------------------
5
ret = re.match("a","abc").group()
print(ret)
-----------------------------------------------
a
it = re.finditer("m","mai le fo leng,mai ni mei!")
for el in it:
print(el.group())
obj = re.compile(r"\d{3}") # 将正则表达式编译成一个正则表达式对象,规则要匹配的是三个数字
ret = obj.search("abc123eeee") # 正则表达式对象调用search,参数为待匹配的字符串
print(ret.group())
-----------------------------------------------
123
单独获取到正则中的具体内容可以给分组起名字
import re
s = """
<div class='jay'><span id='1'>郭麒麟</span></div>
<div class='jj'><span id='2'>周杰伦</span></div>
<div class='jolin'><span id='3'>刘耕宏</span></div>
<div class='sylar'><span id='4'>宋轶</span></div>
<div class='alex'><span id='5'>李连杰</span></div>
"""
# (?P<分组名字>正则) 可以单独从正则匹配的内容中进一步提取内容
obj = re.compile(r"<div class='(?P<englishname>.*?)'><span id='(?P<id>\d+)'>(?P<name>.*?)</span></div>",re.S) # re.S让.能匹配换行符
result = obj.finditer(s)
for i in result:
print(i.group("englishname"),i.group("name"),i.group("id"),sep="***")
---------------------------------------------------------------------------------------------------------------------------------
jay***郭麒麟***1
jj***周杰伦***2
jolin***刘耕宏***3
sylar***宋轶***4
alex***李连杰***5
Beautiful Soup解析-HTML语法:
HTML(Hyper Text Markup Language)超文本标记语言,是编写网页的最基本也是最核心的一种语言,其语法规则就是用不同的标签对网页上的内容进行标记,从而使网页显示出不同的展示效果。
<h1>
i love you
</h1>
<h1 align="center">
i love you
</h1>
# h1:标签
# align:属性
# center:属性值
<标签 属性="属性值">
被标记的内容
</标签>
------------------------------------------------------
# 还有一些标签与上面的形式不同
<标签 />
<br />
<img src="xxxx.jpg">
from bs4 import BeautifulSoup as bs
# 2.从beautifulsoup中查找数据
# find:只找第一个,(标签,属性=值)
# findall:全部返回,(标签,属性=值)
# table = page.find("table",class_="layui-hide") # class是python关键字,bs4为了避免报错增加一个下划线
table = page.find("table",attrs={"class":"layui-hide"}) # 和上一行 效果一样,可以避免class报错
# 举例
alist = table.find_all("a") # 拿到table中所有的a标签值(或其他隶属于table的子标签值)[列表形式]
for a in alist:
# 拿到所有a标签
可以find().find_all()
不可以find_all().find_all()
Xpath解析:
# xpath 是xml文档中搜索内容的一门语言
# html是xml的一个子集
""" 父节点...子节点...兄弟节点(白话:层级关系)
<joint name="shoulder_pan_joint" type="revolute">
<parent link="base_link"/>
<child link="shoulder_link"/>
<origin rpy="0.0 0.0 0.0" xyz="0.0 0.0 0.1519"/>
<axis xyz="0 0 1"/>
<limit effort="330.0" lower="-3.14159265359" upper="3.14159265359" velocity="2.16"/>
</joint>
"""
# python中需要安装lxml模块
from lxml import etree
xml = """
<skills>
<skill>
<id>1</id>
<name lang="cn">咫尺天涯</name>
<div>
<name lang="cn">勇闯天涯</name>
<span>
<name lang="cn">勇闯天涯1</name>
</span>
</div>
<damage>100</damage>
</skill>
<skill>
<id>2</id>
<name lang="cn">零度空间</name>
<div>
<name lang="cn">哈哈哈哈</name>
<span>
<name lang="cn">哈哈哈哈1</name>
</span>
</div>
<damage>110</damage>
</skill>
<skill>
<id>3</id>
<name lang="cn">虎踞式</name>
<div>
<name lang="cn">嘿嘿嘿嘿</name>
<span>
<name lang="cn">嘿嘿嘿嘿1</name>
</span>
</div>
<damage>120</damage>
</skill>
</skills>
"""
tree = etree.XML(xml)
# result = tree.xpath("/skills/skill/name/text()") # /表示层级关系,第一个/是根节点 text()返回文本
# result = tree.xpath("/skills/skill//name/text()") # 不同层级内有同时想要的内容,跨层级搜索用//
result = tree.xpath("/skills/skill/div/*/name/text()") # *表示任意节点,通配符
# result = tree.xpath("/skills//name/text()") # 直接拿出所有name
print(result)
from lxml import etree
tree = etree.parse(r"E:\VSCodeFiles\python\crawler\test.html")
res1 = tree.xpath('/html/body/ul/li/a/text()') # xpath索引找内容
res2 = tree.xpath('/html/body/ul/li[1]/a/text()') # 只想要第一个
res3 = tree.xpath('/html/body/ol/li/a[@href="dapao"]/text()') # [@property=xxx]根据属性内容查找
li_list = tree.xpath('/html/body/ol/li') # 返回指定目录下li列表
for li in li_list:
res4 = li.xpath('./a/text()') # 在li中继续寻找 ./表示相对查找
res5 = li.xpath('./a/@href') # @表示属性
print(res4,res5,sep="||")
print(tree.xpath('/html/body/ul/li/a/@href'))
print(tree.xpath('/html/body/div[1]/text()'))
xpath爬猪八戒网:
# 爬猪八戒
# 提取和解析数据
import requests
from lxml import etree
url = "https://beijing.zbj.com/search/f/?kw=saas"
header = {
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"
}
resp = requests.get(url,headers=header)
resp.close()
# print(resp.text)
# 解析
html = etree.HTML(resp.text)
# 拿到每一个服务商的div
divs = html.xpath("/html/body/div[6]/div/div/div[2]/div[5]/div[1]/div")
for div in divs:
title = "SASS".join(div.xpath("./div/div/a[2]/div[2]/div[2]/p/text()"))
price = div.xpath("./div/div/a[2]/div[2]/div[1]/span[1]/text()")
volume = div.xpath("./div/div/a[2]/div[2]/div[1]/span[2]/text()")
company = div.xpath("./div/div/a[1]/div[1]/p/text()")
from_ = div.xpath("./div/div/a[1]/div[1]/div/span/text()")
print(f"标题:{title}")
print(f"公司:{company[1].lstrip()}")
print(f"地点:{from_[0]}")
print(f"价格:{price[0]}")
print(f"{volume[0]}")
print("-"*80)