bs4案例（路飞学城

最新推荐文章于 2024-08-15 12:11:47 发布

我的狗狗叫辛巴

最新推荐文章于 2024-08-15 12:11:47 发布

阅读量48

点赞数

分类专栏：第二章：数据解析文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63095714/article/details/133831340

版权

第二章：数据解析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

import requests
from bs4 import BeautifulSoup
#需求：爬取三国演义小说所有的章节标题和章节内容http://www.shicimingju.com/book/sanguoyanyi.html
if __name__ == "__main__":
    #对首页的页面数据进行爬取
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    url = 'http://www.shicimingju.com/book/sanguoyanyi.html'
    page_text = requests.get(url=url,headers=headers).text

    #在首页中解析出章节的标题和详情页的url
    #1.实例化BeautifulSoup对象，需要将页面源码数据加载到该对象中
    soup = BeautifulSoup(page_text,'lxml')
    #解析章节标题和详情页的url
    li_list = soup.select('.book-mulu > ul > li')#层级选择器 最好的选择
    fp = open('./sanguo.txt','w',encoding='utf-8')
    for li in li_list:
        title = li.a.string #章节的标题
        detail_url = 'http://www.shicimingju.com'+li.a['href'] #注意 url不是完成的 要进行字符串域名的拼接
        #得到详情页url 对详情页发起请求
        detail_page_text = requests.get(url=detail_url,headers=headers).text
        #解析出详情页中相关的章节内容
        detail_soup = BeautifulSoup(detail_page_text,'lxml')
        div_tag = detail_soup.find('div',class_='chapter_content')
        #解析到了章节的内容
        content = div_tag.text
        fp.write(title+':'+content+'\n')
        print(title,'爬取成功！！！')

我的狗狗叫辛巴

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
bs4案例（路飞学城

【代码】bs4案例（路飞学城。
复制链接

扫一扫

专栏目录

我的狗狗叫辛巴 CSDN认证博客专家 CSDN认证企业博客

码龄3年

9: 原创

166万+: 周排名

213万+: 总排名

1704: 访问

: 等级

90: 积分

1: 粉丝

0: 获赞

4: 评论

4: 收藏

私信

关注

热门文章

分类专栏

第二章：数据解析 4篇
第一章：requests模块基础 5篇

最新评论

bs4解析基础（路飞学城
CSDN-Ada助手: 恭喜您写了第8篇博客！标题中提到了bs4解析基础，这是一个非常有用的主题。路飞学城也是一个很好的学习资源。感谢您分享这些知识！在下一篇博客中，我建议您可以扩展一下关于bs4解析的内容，可以介绍一些常见的用法和技巧，或者分享一些实际应用的案例。这样，读者可以更深入地了解并应用这些知识。再次恭喜您的持续创作，期待您未来更多精彩的博客！
bs4案例（路飞学城
CSDN-Ada助手: 恭喜您写了第9篇博客！很高兴看到您持续创作，并分享了关于bs4案例（路飞学城）的内容。通过您的博客，我对bs4有了更深入的了解，也能在实际应用中更好地运用它。接下来，我希望能看到您在博客中分享一些更多的bs4案例，尤其是涉及到不同领域的实际应用。这样的话，读者们可以更好地了解bs4的强大功能，并能在各种场景中进行灵活应用。同时，如果您能分享一些关于如何优化代码、提高效率的技巧，也将对读者们有很大帮助。再次恭喜您取得的进展，期待您未来更多出色的创作！
requests第一血（路飞学城
CSDN-Ada助手: 恭喜您开始了博客创作的旅程！标题“requests第一血（路飞学城”很吸引人，让我想要立刻阅读您的博客内容。对于初次写博客，您已经很不错了！接下来，我建议您可以进一步深入探讨requests库的使用，例如介绍一些常见的请求方法或者与其他库的比较分析等。同时，您可以尝试与读者互动，鼓励他们提出问题或者分享他们在使用requests库时的经验。期待您的下一篇博客！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
requests模块巩固深入案例之简易网页采集器（路飞学城
CSDN-Ada助手: 非常棒的博文！看到你对requests模块的深入理解和应用，真是让人钦佩。继续保持创作，你的文章一定会受到更多读者的关注和喜爱。另外，除了requests模块，在网页采集方面还有一些扩展知识和技能可以学习。例如，你可以了解一下正则表达式的使用，它可以帮助你更灵活地提取和匹配网页内容。此外，你还可以学习XPath和CSS选择器，它们是常用的网页解析工具，可以更方便地定位和提取特定元素。希望我的建议对你有所帮助。期待看到你在这些方面的进一步探索和分享！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
requests模块巩固深入案例之破解百度翻译（路飞学城
CSDN-Ada助手: 恭喜用户写了第三篇博客！标题看起来很有趣，我很期待阅读你的文章。通过巩固深入案例并破解百度翻译，我相信你在使用requests模块方面已经取得了很大的进步。不过，我也希望你能在文章中谦虚地提到你所遇到的挑战，以及你是如何解决它们的。这样的话，读者们能更好地理解你的学习过程，并从中获得启发。期待看到你未来的创作，继续加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。