python爬虫之bs4实战应用

最新推荐文章于 2024-05-12 20:45:02 发布

不会写代码丶

最新推荐文章于 2024-05-12 20:45:02 发布

阅读量869

点赞数 12

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50939757/article/details/135570075

版权

此次爬取的主要类型为小说

会用到的第三方库有：requests,BeautifulSoup

主要为了熟悉解析的方法，以下是代码可自行运行：

from bs4 import BeautifulSoup
import requests,os

url = "https://www.shicimingju.com/book/hongloumeng.html"
#      https://www.shicimingju.com/book/hongloumeng/1.html
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

if not os.path.exists('./notebook'):
    os.mkdir('./notebook')

main_responce = requests.get(url=url,headers=headers)
main_responce.encoding = main_responce.apparent_encoding        # 自动转码

main_responce = main_responce.text

main_soup = BeautifulSoup(main_responce,'lxml')
main_selects = main_soup.select('.book-mulu > ul a')

for main_titles in main_selects:
    main_title = main_titles.text

    main_url = "https://www.shicimingju.com"
    parts_url = main_titles['href']
    detail_url = main_url+parts_url

    detail_responce = requests.get(url=detail_url,headers=headers).text

    detail_soup = BeautifulSoup(detail_responce,'lxml')
    detail_find = detail_soup.find('div',class_='chapter_content')
    detail_text = detail_find.text
    path = './notebook/' + main_title+'.txt'
    with open(path,'w',encoding='utf-8') as f:
        f.write(main_title+':\n'+detail_text)

    print(f'{main_title}   爬取完成...')
print("全部爬取完成。。。")

不会写代码丶

关注

12
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
python爬虫之bs4实战应用

【代码】python爬虫之bs4实战应用。
复制链接

扫一扫

不会写代码丶 CSDN认证博客专家 CSDN认证企业博客

码龄4年

15: 原创

133万+: 周排名

12万+: 总排名

1万+: 访问

: 等级

191: 积分

9: 粉丝

34: 获赞

8: 评论

62: 收藏

私信

关注

热门文章

分类专栏

python爬虫 3篇
C 7篇
Linux 3篇
Java 1篇

最新评论

python爬虫之bs4实战应用
CSDN-Ada助手: 恭喜您写了第15篇博客！标题“python爬虫之bs4实战应用”听起来很有趣。通过您的实战应用分享，我学到了很多关于bs4的知识。您的能力和经验让我非常钦佩。希望您能继续保持创作的热情，分享更多关于Python爬虫的实战经验。同时，我想提出一个创作建议，希望您能在下一篇博客中探索一下爬虫与数据分析的结合，分享一些关于如何使用bs4获取数据并进行分析的实例。相信这将为读者提供更加全面和实用的知识。再次感谢您的分享和努力，期待您的下一篇博客！
C语言中，a+=a-= a*a与a+=a-=a*=a
ᝰ枫桦雪酿夜ᨐ: 按找c程序的运算，不应该是将等号右边的值赋给左边嘛，那第一个也应该是从右往左推吧
C语言中，a+=a-= a*a与a+=a-=a*=a
安英居士: 佬第一个是不是错了，我看了其他的贴子说第一个也是从右边往左边算
C语言中，a+=a-= a*a与a+=a-=a*=a
ら独乐乐く·: 第一个为什么是从左到右算
python 爬取某音乐各排行榜【简易版本】
何不为661: 要是只能爬到排行榜就没有用，我现在需要的是能爬取音乐程序的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。