从小说网站爬小说

最新推荐文章于 2024-08-23 23:30:41 发布

平凡pppf

最新推荐文章于 2024-08-23 23:30:41 发布

阅读量1.5k

点赞数

分类专栏： python，BeautifulSoup

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yunjin386/article/details/54353015

版权

python，BeautifulSoup 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在看《重生之神级学霸》，但是好几个app都要付费，只能看其他网站上的网页版，由于闲的蛋疼，就像试试怎么把网页上的书转化成txt格式的。

第一步我直接打开http://www.biqudao.com/bqge1081/2544018.html这个页面保存成html文件

就是这个东西model.html

接下来就是把

content的里面的东西给单独提取出来、

from bs4 import BeautifulSoup
import re
import sys

reload(sys)
sys.setdefaultencoding("utf-8")
soup = BeautifulSoup(open('model.html'))
f = open('model.txt','w')
for k in soup.find('div',id="content"):
# pattern1 = re.sub("<br/>",'',k)
# print(pattern1)
f.write(str(k.string))

我用了这段代码

刚开始直接写入不行，发现忘了write接收值有问题得强制转化

现在小说已经保存在model.txt中了

但是有个问题，就是每段后面都有个None，这是因为它本身是</br>，所以得把None换成换行，

fin_old = open('model.txt')
fin_new = open('model2.txt','w')
fin_new.write(fin_old.read().replace("None",'\n'))
fin_old.close()
fin_new.close()

我用的上面这段代码，

确实是成功了，但是有个问题，这种转化方式非得再新建一个txt文档，暂时还不知道怎么在原来txt中改，有没有大神教教我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。