Python爬虫 beautifulsoup4解析html数据

IconzzZ

已于 2023-01-11 03:11:47 修改

阅读量320

点赞数

文章标签： python 爬虫开发语言

于 2023-01-09 12:15:03 首次发布

本文链接：https://blog.csdn.net/weixin_43925725/article/details/128612245

版权

pip install beautifulsoup4

from bs4 import BeautifulSoup

...
response = requests.get(url,  headers={'User-Agent':random.choice(userAgent)})

"""        
		<div class="sonspic">
               <div class="cont" style="margin-top:13px;">
                <p style="height:22px;">
                   <a target="_blank" style="font-size:18px; line-height:22px; height:22px;" href="/xxx/book_46653FD803893E4F93E5C6C3.aspx"><b>尚书</b></a>
                </p>
               </div>
        </div>
"""
        
soup = BeautifulSoup(response.text, 'html.parser')
st = soup.find_all(attrs={"class": "sonspic"})
for i in st:	
    text = i.select('a')[0].get_text()
    # "尚书"
    url = i.select('a')[0].get('href')
    # "/xxx/book_46653FD803893E4F93E5C6C3.aspx"

Tag类型可以直接转换为字符串。

st = soup.find_all(attrs={"class": "sonspic"})
print(type(st)) # <class 'bs4.element.Tag'>
print(str(st))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

IconzzZ

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫 beautifulsoup4解析html数据

beautifulsoup4
复制链接

扫一扫

Python+requests之beautifulsoup4解析html

SitVen

09-13

565

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库, 它能够通过你喜欢的转换器实现惯用的文档导航, 查找修改文档 html解析器下表列出了主要的html解析器，以及它们的优缺点解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup,"html.parser") 1. Python的内置标准库 2. 执行速度适中 3. 文档容错能力...

python中使用beautifulsoup4解析网页Html

马立弘

11-13

4250

一、安装 pip install beautifulsoup4 二、四大对象种类 Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: html = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name="

参与评论您还未登录，请先登录后发表或查看评论

Python笔记九：网络爬虫及requests库、beautifulsoup4库解析和处理HTML

m0_61598337的博客

08-04

898

Python笔记九：网络爬虫及requests库、beautifulsoup4库解析和处理HTML

python beautifulsoup4示例_Python利用BeautifulSoup解析Html的方法示例

weixin_36296983的博客

12-24

234

介绍Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Sou...

Python爬虫 —— 使用BeautifulSoup4解析HTML文档

小菜鸡的小博客

03-31

1万+

我们来聊聊BS4是个啥，它能干啥，BS4是一个从HTML和XML文件中提取数据的python库，它可以将复杂HTML文件转换为一个复杂的树形结构，这棵树的每一个结点都是Python对象，所有对象都可以归纳为4类，这四个对象能干啥呢？点进来看看吧

Python爬虫beautifulsoup4常用的解析方法总结

09-19

这篇总结将详细介绍BeautifulSoup4的一些常用解析方法，帮助开发者更高效地处理网页数据。首先，要使用BeautifulSoup4解析HTML文档，我们需要先将其装载到BeautifulSoup对象中。这通常通过发送HTTP请求获取网页...

python爬虫beautifulsoup解析html方法

01-21

用BeautifulSoup 解析html和xml字符串实例： #!/usr/bin/python # -*- coding: UTF-8 -*- from bs4 import BeautifulSoup import re #待分析字符串 html_doc = <html> <head> <title>The ...

Python使用BeautifulSoup库解析HTML基本使用教程

09-21

主要介绍了Python使用BeautifulSoup库解析HTML基本使用教程,文中主要对其适合于制作爬虫方面的特性进行了解析,需要的朋友可以参考下

H5移动网页苹果键盘修改换行为搜索

Lenny-zlp的博客

09-09

812

input 放在 form标签内 type=“search” form 标签加上 action="javascript:return true" <form action="javascript:return true"> <input type="search" placeholder="搜索商品" value="" name="keyword" class="Myseach" /> </form> 效果如图 ...

python BeautifulSoup4解析html

MZP_man的博客

09-13

1107

官方参考文档：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于 HTML DOM 的，会载入整个文档，解析整个 DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。 BeautifulSoup 用来解析 HTML 比较简...

Python：第三方库BeautifulSoup4 解析HTML网页

有意栽花花不发，无心插柳柳成荫。

01-24

1324

今天，我们将用Python的pip，安装下载一个第三方库BeautifulSoup4，它可以帮助我们分析HTML网页的内容。 1.安装BeautifulSoup4模块在Windows系统下，打开一个cmd命令提示符，输入： pip install BeautifulSoup4 如果没有出现错误信息，则打开一个Python文件，输入： import bs4 运行代码，没有报错就说明成功安装。 2.使用BeautifulSoup4模块 from bs4 import BeautifulSoup 以上代

Python beautiful soup解析html获得数据

最新发布

yannan20190313的博客

07-30

478

【Python】pandas：排序（sort_index,sort_values）、重复值（duplicated,drop_duplicates,value_counts,nunique）、缺省值处理（isna,isnull,notna,notnull,fillna,dropna,replace）、合并（join,merge,append,concat）、分组（groupby）

快醒醒，别睡了!...讲《数据分析pandas库》了—/—＜4＞

qq_64603703的博客

07-27

974

详细解说数据分析pandas库中的常用方法

全网最详细Gradio教程系列5——Gradio Client: python

shao918516的博客

07-26

1074

程序部署完成后，如何将Gradio App作为API访问使用呢，这就用到Gradio Client。本章讲解Gradio Client的三种使用方式：python、javascript和curl，受字数限制，所以分三篇博客发布。使用Gradio Python Client非常易于将Gradio应用程序作为API使用，本节讲述gradio_client安装、如何连接Gradio应用程序、查看可用API及其使用方式、job及session等用法。通过Gradio Python Cli

Selenium与WebDriver：Errno 8 Exec格式错误的多种解决方案

ip16yun的博客

07-30

255

在使用Selenium和WebDriver进行网页自动化时，可能会遇到各种错误。其中一个常见问题是执行格式错误（Errno 8 Exec format error）。这个错误通常在运行ChromeDriver时出现，错误提示涉及路径中的某个文件。本文将概述这个问题的背景，并提供多种解决方案，包括如何使用代理IP技术进行数据抓取。

python爬虫 beautifulsoup4 获取全国景点

12-17

Python爬虫BeautifulSoup4是一个用于从网页中提取数据的Python库。要获取全国景点的数据，首先需要了解网页的结构和数据来源。通常情况下，景点的数据是存储在旅游相关网站或者地图服务提供商的数据库中。我们可以...