最近在看《重生之神级学霸》,但是好几个app都要付费,只能看其他网站上的网页版,由于闲的蛋疼,就像试试怎么把网页上的书转化成txt格式的。
第一步我直接打开http://www.biqudao.com/bqge1081/2544018.html这个页面保存成html文件
就是这个东西model.html
接下来就是把
content的里面的东西给单独提取出来、
from bs4 import BeautifulSoup
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
soup = BeautifulSoup(open('model.html'))
f = open('model.txt','w')
for k in soup.find('div',id="content"):
# pattern1 = re.sub("<br/>",'',k)
# print(pattern1)
f.write(str(k.string))
我用了这段代码
刚开始直接写入不行,发现忘了write接收值有问题得强制转化
现在小说已经保存在model.txt中了
但是有个问题,就是每段后面都有个None,这是因为它本身是</br>,所以得把None换成换行,
fin_old = open('model.txt')
fin_new = open('model2.txt','w')
fin_new.write(fin_old.read().replace("None",'\n'))
fin_old.close()
fin_new.close()
我用的上面这段代码,
确实是成功了,但是有个问题,这种转化方式非得再新建一个txt文档,暂时还不知道怎么在原来txt中改,有没有大神教教我