#爬虫小练习-爬取百度百科相关网页

本文记录了一次使用Python爬虫进行的小练习,目标是爬取百度百科的相关网页。通过引入必要的模块,设定URL列表,利用BeautifulSoup解析HTML,结合正则表达式筛选所需信息,实现了对每个页面的递归爬取。在爬取过程中,遇到无链接的页面会返回上一级,直至完成10次爬取。文章展示了部分爬取结果。
摘要由CSDN通过智能技术生成

爬虫小练习

莫烦python
学到爬虫小练习-爬取百度百科相关网页,现在做个学习总结
从网络爬虫这一页开始
先插入接下来所需要的模块

from bs4 import BeautifulSoup
from urllib.request import urlopen
import re
import random

其次,确定网址,尽量不能有中文;将/item/…的网页放在his中,使用列表格式,储存接下来爬取的网页

base_url = "https://baike.baidu.com"
his = ["/item/%E8%9C%98%E8%9B%9B/8135707"]

最后使用for循环,确定爬虫的次数
此时:使用urlopen打开网址,用BeautifulSoup中的lxml解析网页;
用soup.find(“h1”).get_text()先查找h1后面的标题(使用文本形式,所以.get_text()
开始爬取网页:(过滤掉不需要的信息)通过正则表达式,首先找到a标签,然后选取含有target的内容,并且href 必须匹配以/item/开头的形式
在爬取中会遇到的问题:如果一个网页没有可以点击的链接,那么就要返回上一级,直到爬完10次为止。if len(sub_urls) !=0…


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值