【python爬虫学习记录 持续更新】数据解析方式 <re> <Beautiful Soup> <Xpath>

三种解析方式

  1. re解析
  2. bs4解析
  3. xpath解析

这三种方式可以混合使用,完全以结果做向导,只要能拿到想要的数据,用什么方案并不重要,性能是后续需要考虑的问题

正则表达式:

Regular Expression:一种使用表达式的方式对字符串进行匹配的语法规则。

抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容,用正则表达式再适合不过了。

正则的优点:速度快,效率高,准确性高。

正则的缺点:新手上手难度高

语法:使用元字符进行排列组合用来匹配字符串。

在线测试正则表达式

常用元字符

.		匹配除换行符以外的任意字符
\w		匹配数字/字母/下划线
\d		p
\s		匹配任意空白符
\n		匹配一个换行符
\t		匹配一个制表符

^		匹配字符串的开始
$		匹配字符串的结尾

\W		匹配非字母或数字或下划线
\D 		匹配非数字
\S		匹配非空白符
a|b		匹配字符a或字符b
( )		匹配括号内的表达式,也表示一个组
[...]	匹配字符组中的字符
[^...]	匹配除了字符组中字符的所有字符

量词:控制前面的元字符出现的次数

*		重复零次或更多次
+		重复一次或更多次
?		重复零次或一次
{n}		重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

贪婪匹配和惰性匹配

.*?		惰性匹配
.*		贪婪匹配

爬虫用的最多的就是惰性匹配。

用例:

# 惰性匹配 --> 尽可能少 d
import re
str = "玩儿吃鸡游戏,晚上一起打游戏,干嘛呢?打游戏啊!"
form = r"玩儿.*?游戏"
res = re.findall(form,str)
print(res)
-----------------------------------------------------
<re.Match object; span=(0, 6), match='玩儿吃鸡游戏'>


# 贪婪匹配 --> 尽可能多
import re
str = "玩儿吃鸡游戏,晚上一起打游戏,干嘛呢?打游戏啊!"
form = r"玩儿.*游戏"
res = re.findall(form,str)
print(res)
-----------------------------------------------------
<re.Match object; span=(0, 22), match='玩儿吃鸡游戏,晚上一起打游戏,干嘛呢?打游戏'>


import re
str = "<div class=\"jay\">周杰伦</div><div class=\"jj\">林俊杰</div>"
form = r"<div class=\".*?\">.*?</div>"
res = re.findall(form,str)
print(res)
-----------------------------------------------------
['<div class="jay">周杰伦</div>', '<div class="jj">林俊杰</div>']
re模块中我们需要记住的几个功能
  1. re.findall匹配字符串中所有符合正则的内容[返回列表]
lst1 = re.findall("m","mai le fo leng,mai ni mei!")
lst2 = re.findall(r"\d+","5点之前,给我5000万")
print(lst1)
print(lst2)
-----------------------------------------------
['m','m','m']
['5','5000']
  1. re.search,全文匹配,找到一个结果就返回,返回的结果是match对象,拿数据需要.group()
ret = re.search(r"\d+","5点之前,给我5000万").group()
print(ret)
-----------------------------------------------
5
  1. re.match,从头开始匹配,相当于加了个^
ret = re.match("a","abc").group()
print(ret)
-----------------------------------------------
a
  1. re.finditer,匹配字符串中所有内容[返回迭代器],从迭代器中拿到内容需要.group()
it = re.finditer("m","mai le fo leng,mai ni mei!")

for el in it:
    print(el.group())
  1. re.compile,可以将一个长正则表达式预加载,方便后续使用
obj = re.compile(r"\d{3}") # 将正则表达式编译成一个正则表达式对象,规则要匹配的是三个数字
ret = obj.search("abc123eeee") # 正则表达式对象调用search,参数为待匹配的字符串
print(ret.group())
-----------------------------------------------
123
  1. 正则中的内容如何单独提取?

​ 单独获取到正则中的具体内容可以给分组起名字

import re

s = """
<div class='jay'><span id='1'>郭麒麟</span></div>
<div class='jj'><span id='2'>周杰伦</span></div>
<div class='jolin'><span id='3'>刘耕宏</span></div>
<div class='sylar'><span id='4'>宋轶</span></div>
<div class='alex'><span id='5'>李连杰</span></div>
"""

# (?P<分组名字>正则) 可以单独从正则匹配的内容中进一步提取内容
obj = re.compile(r"<div class='(?P<englishname>.*?)'><span id='(?P<id>\d+)'>(?P<name>.*?)</span></div>",re.S) # re.S让.能匹配换行符
result = obj.finditer(s)
for i in result:
    print(i.group("englishname"),i.group("name"),i.group("id"),sep="***")
    
---------------------------------------------------------------------------------------------------------------------------------
jay***郭麒麟***1
jj***周杰伦***2
jolin***刘耕宏***3
sylar***宋轶***4
alex***李连杰***5

Beautiful Soup解析-HTML语法:

HTML(Hyper Text Markup Language)超文本标记语言,是编写网页的最基本也是最核心的一种语言,其语法规则就是用不同的标签对网页上的内容进行标记,从而使网页显示出不同的展示效果。

<h1>
    i love you
</h1>

<h1 align="center">
    i love you
</h1>
# h1:标签
# align:属性
# center:属性值
<标签 属性="属性值">
    被标记的内容
</标签>
------------------------------------------------------
# 还有一些标签与上面的形式不同
<标签 />
<br />
<img src="xxxx.jpg">
from bs4 import BeautifulSoup as bs
# 2.从beautifulsoup中查找数据
# find:只找第一个,(标签,属性=值)
# findall:全部返回,(标签,属性=值)

# table = page.find("table",class_="layui-hide") # class是python关键字,bs4为了避免报错增加一个下划线
table = page.find("table",attrs={"class":"layui-hide"}) # 和上一行 效果一样,可以避免class报错


# 举例
alist = table.find_all("a") # 拿到table中所有的a标签值(或其他隶属于table的子标签值)[列表形式]
for a in alist:
    # 拿到所有a标签
    

可以find().find_all()不可以find_all().find_all()

Xpath解析:

# xpath 是xml文档中搜索内容的一门语言
# html是xml的一个子集
""" 父节点...子节点...兄弟节点(白话:层级关系)
<joint name="shoulder_pan_joint" type="revolute">
    <parent link="base_link"/>
    <child link="shoulder_link"/>
    <origin rpy="0.0 0.0 0.0" xyz="0.0 0.0 0.1519"/>
    <axis xyz="0 0 1"/>
    <limit effort="330.0" lower="-3.14159265359" upper="3.14159265359" velocity="2.16"/>
  </joint>
"""

# python中需要安装lxml模块
from lxml import etree

xml = """
<skills>
 <skill>
    <id>1</id>
        <name lang="cn">咫尺天涯</name>
            <div>
                <name lang="cn">勇闯天涯</name>
                <span>
                    <name lang="cn">勇闯天涯1</name>
                </span>
            </div>
        <damage>100</damage>
 </skill>
 <skill>
    <id>2</id>
        <name lang="cn">零度空间</name>
            <div>
                <name lang="cn">哈哈哈哈</name>
                    <span>
                        <name lang="cn">哈哈哈哈1</name>
                    </span>
            </div>
        <damage>110</damage>
 </skill>
 <skill>
    <id>3</id>
        <name lang="cn">虎踞式</name>
            <div>
                <name lang="cn">嘿嘿嘿嘿</name>
                    <span>
                        <name lang="cn">嘿嘿嘿嘿1</name>
                    </span>
            </div>
        <damage>120</damage>
 </skill>
</skills>
"""
tree = etree.XML(xml)
# result = tree.xpath("/skills/skill/name/text()") # /表示层级关系,第一个/是根节点 text()返回文本
# result = tree.xpath("/skills/skill//name/text()") # 不同层级内有同时想要的内容,跨层级搜索用//
result = tree.xpath("/skills/skill/div/*/name/text()") # *表示任意节点,通配符
# result = tree.xpath("/skills//name/text()") # 直接拿出所有name
print(result)
from lxml import etree

tree = etree.parse(r"E:\VSCodeFiles\python\crawler\test.html")
res1 = tree.xpath('/html/body/ul/li/a/text()') # xpath索引找内容
res2 = tree.xpath('/html/body/ul/li[1]/a/text()') # 只想要第一个
res3 = tree.xpath('/html/body/ol/li/a[@href="dapao"]/text()') # [@property=xxx]根据属性内容查找
li_list = tree.xpath('/html/body/ol/li') # 返回指定目录下li列表
for li in li_list:
    res4 = li.xpath('./a/text()') # 在li中继续寻找 ./表示相对查找
    res5 = li.xpath('./a/@href') # @表示属性

    print(res4,res5,sep="||")

print(tree.xpath('/html/body/ul/li/a/@href'))

print(tree.xpath('/html/body/div[1]/text()'))
xpath爬猪八戒网:
# 爬猪八戒
# 提取和解析数据
import requests
from lxml import etree

url = "https://beijing.zbj.com/search/f/?kw=saas"
header = {
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"
}
resp = requests.get(url,headers=header)
resp.close()
# print(resp.text)

# 解析
html = etree.HTML(resp.text)

# 拿到每一个服务商的div
divs = html.xpath("/html/body/div[6]/div/div/div[2]/div[5]/div[1]/div")
for div in divs:
    title = "SASS".join(div.xpath("./div/div/a[2]/div[2]/div[2]/p/text()"))
    price = div.xpath("./div/div/a[2]/div[2]/div[1]/span[1]/text()")
    volume = div.xpath("./div/div/a[2]/div[2]/div[1]/span[2]/text()")
    company = div.xpath("./div/div/a[1]/div[1]/p/text()")
    from_ = div.xpath("./div/div/a[1]/div[1]/div/span/text()")
    print(f"标题:{title}")
    print(f"公司:{company[1].lstrip()}")
    print(f"地点:{from_[0]}")
    print(f"价格:{price[0]}")
    print(f"{volume[0]}")
    print("-"*80)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值