BeautifulSoup4、pyquery基本用法

最新推荐文章于 2024-03-29 23:51:53 发布

无冇

最新推荐文章于 2024-03-29 23:51:53 发布

阅读量189

点赞数

本文链接：https://blog.csdn.net/weixin_43706559/article/details/100710235

版权

BeautifulSoup4

.1 find()
格式：

find(name, attributes, recursive, text ,keywords)

参数介绍

name：标签名，如a，p。
attributes：一个标签的若干属性和对应的属性值。
recursive：是否递归。如果是，就会查找tag的所有子孙标签，默认true。
text：标签的文本内容去匹配，而不是标签的属性。
keyword：选择那些具有指定属性的标签。

find()示例：

from urllib import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://blog.orisonchan.cc")
bsObj = BeautifulSoup(html.read(), 'html.parser')
print str(bsObj.find(name='h1', attrs={'class': {'post-title'}}))

结果：

<h1 class="post-title" itemprop="name headline">
<a class="post-title-link" href="/2018/08/14/43/" itemprop="url">常见“树”概念解析（1）</a></h1>

.2 find_all()

find_all(name, attributes, recursive, text , limit, keywords)

参数介绍

name：标签名，如a，p。
attributes：一个标签的若干属性和对应的属性值。
recursive：是否递归。如果是，就会查找tag的所有子孙标签，默认true。
text：标签的文本内容去匹配，而不是标签的属性。
limit: 个数限制，find其实就等于limit=1，查看find源码即可发现。
keyword：选择那些具有指定属性的标签。

bsObj.find_all(“a”)可以简写为bsObj(“a”)

find_all()示例：

from urllib import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://blog.orisonchan.cc")
bsObj = BeautifulSoup(html.read(), 'html.parser')
print str(bsObj.find_all(name='h1', attrs={'class': {'post-title'}})[1:3]).decode('unicode-escape')

结果：

[<h1 class="post-title" itemprop="name headline">
<a class="post-title-link" href="/2018/08/13/42/" itemprop="url">Spark聚合下推思路以及demo</a></h1>, <h1 class="post-title" itemprop="name headline">
<a class="post-title-link" href="/2018/08/09/41/" itemprop="url">写一个Spark DataSource的随手笔记</a></h1>]

表达式	说明
*	选择所有节点
#container	选择id为container的节点
.container	选取所有class包含container的节点
li a	选取所有li下的所有a节点
div#container > u	l选取id为container的div的ul子元素
a[href=“http://jobbole.com”]	选取所有href属性为jobbole.com值的a元素
a[href*=”jobole”]	选取所有href属性包含jobbole的a元素
a[href^=“http”]	选取所有href属性值以http开头的a元素
a[href$=“.jpg”]	选取所有href属性值以.jpg结尾的a元素
div:not(#container)	选取所有id非container的div属性
li:nth-child(3)	选取第三个li元素
tr:nth-child(2n)	第偶数个tr

1）通过标签名查找

soup.select('title')
soup.select('b')

2）通过类名查找

print soup.select('.sister')

3）通过 id 名查找

print soup.select('#link1')

4）组合查找
组合查找即和写 class 文件时，标签名与类名、id名进行的组合原理是一样的，例如查找 p 标签中，id 等于 link1的内容，二者需要用空格分开

print soup.select('p #link1')

直接子标签查找，则使用 > 分隔

print soup.select("head > title")

5）属性查找
查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到。

print(soup.select('a[class="sister"]'))

soup.select('a[href="http://example.com/elsie"]')

同样，属性仍然可以与上述查找方式组合，不在同一节点的空格隔开，同一节点的不加空格

print (soup.select('p a[href="http://example.com/elsie"]'))

6 ) 获取内容
以上的 select 方法返回的结果都是列表形式，可以遍历形式输出，然后用 get_text() 方法来获取它的内容,attrs[‘属性名’] 获取属性值

  soup = BeautifulSoup(html, 'lxml')
   print (type(soup.select('title')))
   print (soup.select('title')[0].get_text())

   for title in soup.select('title'):
       print (title.get_text())
       print (title.attrs['class'])

——————————————————————————————————————————

pyquery

1、.html()和.text()
获取相应的 HTML 块或者文本内容，

p=pq("<head><title>Hello World!</title></head>")

#获取相应的 HTML 块
print (p('head').html())

#获取相应的文本内容
print (p('head').text())

输出：
'''
<title>hello Word</title>
Hello World!
'''

2、(selector)：通过选择器来获取目标内容，

d = pq(
    "<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>"
)

# 获取 <div> 元素内的 HTML 块
print (d('div').html())

# 获取 id 为 item-0 的元素内的文本内容
print (d('#item-0').text())

# 获取 class 为 item-1 的元素的文本内容
print (d('.item-1').text())

'''输出：
<p id="item-0">test 1</p><p class="item-1">test 2</p>
test 1
test 2
'''

3、.eq(index)：根据索引号获取指定元素（index 从 0 开始）

d = pq(
    "<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>"
)

# 获取第二个 p 元素的文本内容
print (d('p').eq(1).text())

'''输出
test 2
'''

4、.find()：查找嵌套元素，

d = pq("<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>")

# 查找 <div> 内的 p 元素
print d('div').find('p') 

# 查找 <div> 内的 p 元素，输出第一个 p 元素
print d('div').find('p').eq(0) 

'''输出：
<p id="item-0">test 1</p><p class="item-1">test 2</p>
<p id="item-0">test 1</p>
'''

5、.filter()：根据 class、id 筛选指定元素，

d = pq("<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>")

# 查找 class 为 item-1 的 p 元素
print d('p').filter('.item-1')

# 查找 id 为 item-0 的 p 元素
print d('p').filter('#item-0') 

'''输出：
<p class="item-1">test 2</p>
<p id="item-0">test 1</p>
'''

6、.attr()：获取、修改属性值，

d = pq("<div><p id='item-0'>test 1</p><a class='item-1'>test 2</p></div>")

# 获取 <p> 标签的属性 id
print(d('p').attr('id'))

# 修改 <a> 标签的 class 属性为 new
print(d('a').attr('class','new'))

'''输出：
item-0
<a class="new">test 2</a>
'''

7、item()遍历标签

d = pq("<div><p id='item-0'>test 1</p><a class='item'>test 2</a><a class='item'>test 3</a></div>")

# 获取所有的a标签
a_elements = d('a.iten')
# 遍历得到每一个a标签的text文本
for a in a_elements.item():
    print(a.text())
    

print(d('a').attr('class','new'))

'''输出：
item-0
<a class="new">test 2</a>
'''

8、其他操作：

 #添加 class
.addClass(value)：
 #判断是否包含指定的 class，返回 True 或 False
.hasClass(value)：
 #获取子元素
.children()：
 #获取父元素
.parents()：
 #获取下一个元素
.next()：
 #获取后面全部元素块
.nextAll()：
 #获取所有不匹配该选择器的元素
.not_(selector)：

无冇

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BeautifulSoup4、pyquery基本用法

BeautifulSoup4.1 find()格式：find(name, attributes, recursive, text ,keywords)参数介绍name：标签名，如a，p。attributes：一个标签的若干属性和对应的属性值。recursive：是否递归。如果是，就会查找tag的所有子孙标签，默认true。text：标签的文本内容去匹配，而不是标签的属性。key...
复制链接

扫一扫