从小说网站爬小说

最近在看《重生之神级学霸》,但是好几个app都要付费,只能看其他网站上的网页版,由于闲的蛋疼,就像试试怎么把网页上的书转化成txt格式的。

第一步我直接打开http://www.biqudao.com/bqge1081/2544018.html这个页面保存成html文件

就是这个东西model.html

接下来就是把

content的里面的东西给单独提取出来、

from bs4 import BeautifulSoup
import re
import sys


reload(sys)
sys.setdefaultencoding("utf-8")
soup = BeautifulSoup(open('model.html'))
f = open('model.txt','w')
for k in soup.find('div',id="content"):
# pattern1 = re.sub("<br/>",'',k)
# print(pattern1)
f.write(str(k.string))


我用了这段代码

刚开始直接写入不行,发现忘了write接收值有问题得强制转化


现在小说已经保存在model.txt中了


但是有个问题,就是每段后面都有个None,这是因为它本身是</br>,所以得把None换成换行,

fin_old = open('model.txt')
fin_new = open('model2.txt','w')
fin_new.write(fin_old.read().replace("None",'\n'))
fin_old.close()
fin_new.close()

我用的上面这段代码,


确实是成功了,但是有个问题,这种转化方式非得再新建一个txt文档,暂时还不知道怎么在原来txt中改,有没有大神教教我

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值