python抓取页面文本及图片超链接

最新推荐文章于 2024-05-14 18:07:14 发布

jxiaoin

最新推荐文章于 2024-05-14 18:07:14 发布

阅读量4.7k

点赞数 4

文章标签： python html

本文链接：https://blog.csdn.net/yeyuanxiaoxin/article/details/104880886

版权

自定义标题

这里用到第三方库：Beautiful Soup（一个可以从HTML或XML文件中提取数据的Python库）

目标网页[baidu]：

在这里插入图片描述

一、爬取网页全部标签网址：

1、按F12进入开发者模式查看HTML：

找到目标超链接标签位置，方法如下GIF
在这里插入图片描述我们找到的超链接信息如下：

2、分析HTML结构：

在HTML中，超链接用a表示，链接地址写作 href=“…”，格式如下：
<a href="http://news.baidu.com" name="tj_trnews" class="mnav">新闻</a>

3、代码如下：

import requests  #获取网页
from bs4 import BeautifulSoup  #解析网页
url = "https://www.baidu.com/"
headers = {
   'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
res= requests.get(url, headers=headers)  #获取网页信息
soup = BeautifulSoup(res.text,'lxml')

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jxiaoin

关注关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
python抓取页面文本及图片超链接

自定义标题目标网页[baidu]：一、爬取网页全部标签网址：1、按F12进入开发者模式查看HTML：2、分析HTML结构：3、代码如下：4、运行结果：二、爬取超链接文字及对应网址：优化代码如下：进一步优化方案：三、页面图片超链接：1、代码如下：这里用到第三方库：Beautiful Soup（一个可以从HTML或XML文件中提取数据的Python库）目标网页[baidu]：一、爬取网页全部标...
复制链接

扫一扫