#爬虫小练习-爬取百度百科相关网页

最新推荐文章于 2022-07-11 17:40:04 发布

钟无羡

最新推荐文章于 2022-07-11 17:40:04 发布

阅读量3.1k

点赞数

文章标签： python 正则表达式百度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yipingz/article/details/106493087

版权

本文记录了一次使用Python爬虫进行的小练习，目标是爬取百度百科的相关网页。通过引入必要的模块，设定URL列表，利用BeautifulSoup解析HTML，结合正则表达式筛选所需信息，实现了对每个页面的递归爬取。在爬取过程中，遇到无链接的页面会返回上一级，直至完成10次爬取。文章展示了部分爬取结果。

摘要由CSDN通过智能技术生成

爬虫小练习

莫烦python
学到爬虫小练习-爬取百度百科相关网页，现在做个学习总结
从网络爬虫这一页开始
先插入接下来所需要的模块

from bs4 import BeautifulSoup
from urllib.request import urlopen
import re
import random

其次，确定网址，尽量不能有中文；将/item/…的网页放在his中，使用列表格式，储存接下来爬取的网页

base_url = "https://baike.baidu.com"
his = ["/item/%E8%9C%98%E8%9B%9B/8135707"]

最后使用for循环，确定爬虫的次数，
此时：使用urlopen打开网址，用BeautifulSoup中的lxml解析网页；
用soup.find(“h1”).get_text()先查找h1后面的标题（使用文本形式，所以.get_text()
开始爬取网页：（过滤掉不需要的信息）通过正则表达式，首先找到a标签，然后选取含有target的内容，并且href 必须匹配以/item/开头的形式
在爬取中会遇到的问题：如果一个网页没有可以点击的链接，那么就要返回上一级，直到爬完10次为止。if len(sub_urls) !=0…

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

钟无羡 CSDN认证博客专家 CSDN认证企业博客

码龄4年

2: 原创

129万+: 周排名

222万+: 总排名

4217: 访问

: 等级

68: 积分

0: 粉丝

3: 获赞

1: 评论

5: 收藏

私信

关注

热门文章

最新评论

数据可视化-制作交易收盘价
President_s: 楼主，我这是用的《Python从入门到实践》，在做数据可视化，制作收价盘数据折线图时，没法下载那些文件啊。。能不能给一下。。。。

大家在看

最新文章

数据可视化-制作交易收盘价

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。