bs4遍历文档树,搜素文档树,find_all参数,selenium,模拟登陆百度

最新推荐文章于 2022-11-22 18:35:50 发布

yikenaoguazi

最新推荐文章于 2022-11-22 18:35:50 发布

阅读量509

点赞数

分类专栏： start all over again

本文链接：https://blog.csdn.net/yikenaoguazi/article/details/112965634

版权

本文档介绍了如何使用BeautifulSoup库（bs4）遍历和搜索文档树，详细讲解了find_all函数的参数用法，并探讨了CSS选择器的应用。接着，文章转向selenium库的介绍，阐述了selenium的基本使用和如何利用它来模拟登录百度账号，最后讨论了selenium的其他高级应用。

摘要由CSDN通过智能技术生成

一.昨日回顾

1 项目演示
	-mkvirtualenv -p python3 gist
    -git clone xxx
    -pycharm打开
    -确保python解释器3.6（如果是3.6以上，百度改源码）
	-修改配置文件连接数据库使用sqlite
    -创建一个超级用户，把别人密码全改成自己
    -查看项目流程及代码
    
    
    
2 bs4模块，html解析，（解析json，使用json模块）
	-在浏览器中看到的数据，会比使用requests模块拿回来的数据多（requests模块不能主动发送ajax请求，渲染页面---》request-html）
    
3 bs4 使用
	-遍历文档树
    	-soup.body.p
        -取属性 soup.body.p.attrs 或者  soup.body.p['name']
        -取文本soup.body.p.text  把子子孙孙的文本拼到一起
        -取文本soup.body.p.string 只取当前p标签的文本，如果还有子标签，取出None
        -取文本soup.body.p.strings 取出子子孙孙标签的文本，放到一个生成器中

二.今日内容

1.bs4遍历文档树


'''
#遍历文档树：即直接通过标签名字选择，特点是选择速度快，但如果存在多个相同的标签则只返回第一个
#1、用法
#2、获取标签的名称
#3、获取标签的属性
#4、获取标签的内容
#5、嵌套选择
#6、子节点、子孙节点
#7、父节点、祖先节点
#8、兄弟节点
'''

from bs4 import BeautifulSoup
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" id='id_pp' name='lqz'>asdfasdf<b>asdfas</b><span>span<b>bbb</b></span></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

soup=BeautifulSoup(html_doc,'lxml')

# 遍历文档树(速度快)
#6、子节点、子孙节点
# print(soup.p.contents) #p下所有子节点
# print(soup.p.children) #得到一个迭代器,包含p下所有子节点
# print(list(soup.p.children)) #得到一个迭代器,包含p下所有子节点
#
# for i,child in enumerate(soup.p.children):
#     print(i,child)
#
# print(soup.p.descendants) #获取子孙节点,p下所有的标签都会选择出来
# for i,child in enumerate(soup.p.descendants):
#     print(i,child)
#7、父节点、祖先节点

# print(soup.a.parent) #获取a标签的父节点

# print(soup.a.parents) #找到a标签所有的祖先节点，父亲的父亲，父亲的父亲的父亲...
# print(list(soup.a.parents)) #找到a标签所有的祖先节点，父亲的父亲，父亲的父亲的父亲...


#8、兄弟节点
# print(soup.a.next_sibling) #下一个兄弟
# print(soup.a.previous_sibling) #上一个兄弟
#
# print(list(soup.a.next_siblings)) #下面的兄弟们=>生成器对象
# print(list(soup.a.previous_siblings)) #上面的兄弟们=>生成器对象

2.bs4的搜索文档树



from bs4 import BeautifulSoup
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" id='id_pp' name='lqz'>asdfasdf<b>asdfas</b><span>span<b>bbb</b></span></p>

<p class="story">Once upon a time there were three little sisters;

最低0.47元/天解锁文章

yikenaoguazi

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
bs4遍历文档树,搜素文档树,find_all参数,selenium,模拟登陆百度

这里写目录标题一.昨日回顾二.今日内容1.bs4遍历文档树2.bs4的搜索文档树3.find_all的其他参数4.css选择器5.selenium的介绍6.selenium的使用7.模拟登陆百度8.selenium的其他使用一.昨日回顾1 项目演示 -mkvirtualenv -p python3 gist -git clone xxx -pycharm打开 -确保python解释器3.6（如果是3.6以上，百度改源码） -修改配置文件连接数据库使用sqlite -创
复制链接

扫一扫