BeautifulSoup爬取博客实例

最新推荐文章于 2024-04-23 09:55:35 发布

啊啊阿澄

最新推荐文章于 2024-04-23 09:55:35 发布

阅读量3.5k

点赞数 2

分类专栏：爬虫实例文章标签： python 爬虫 beautifulsoup

本文链接：https://blog.csdn.net/weixin_45765473/article/details/103115073

版权

BeautifulSoup爬取博客实例

爬取对象はてなブックマーク博客（日本网站）
用for循环爬取每个类别博客的前两页博客
使用python BeautifulSoup库

第一步: 爬取所有类别的文本以及链接

'''
导入beautifulsoup库用来解析网页
导入request库用来获得HTML文件
导入pandas库用来生成表格
'''

from bs4 import BeautifulSoup
import requests
import pandas as pd
#创建表格
columns=["TAG", "URL"]
df = pd.DataFrame(columns=columns)
#网页的名头（比如baidu的网页前面都是www.baidu.com/啥啥啥）
base_url = "https://b.hatena.ne.jp"
#获得网页文件信息
home_url = requests.get("https://b.hatena.ne.jp/hotentry/all").content
#给beautifulsoup进行解析
soup = BeautifulSoup(home_url, 'html.parser',from_encoding="utf8") 

li_tag = []
li_url =[]
#寻找class = "navi-link js-navi-link"的div标签（有许多）
#简单说一下find_all()和find()的区别， find_all()找到所有输出列表； find()找到第一个输出第一个字符串
tree = soup.find_all("div", class_="navi-link js-navi-link")
#对每个div标签都获得以下我们需要的信息    
for branch in tree:
    tag = branch.a.string #获得标签里的文本
    link = branch.find("a")["href"] #获得标签里的链接
    li_tag.append(tag) #加入创建存放博客类别的列表
    li_url.append(base_url + link) #加入创建博客类别子链接的另一个列表
#全部塞入Framework做成表格输出<

最低0.47元/天解锁文章

啊啊阿澄

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BeautifulSoup爬取博客实例

BeautifulSoup爬取博客实例爬取对象はてなブックマーク博客（日本网站）用for循环爬取每个类别博客的前两页博客使用python BeautifulSoup库第一步: 爬取所有类别的文本以及链接'''导入beautifulsoup库用来解析网页导入request库用来获得HTML文件导入pandas库用来生成表格'''from bs4 import Beautif...
复制链接

扫一扫