爬取网页中的文章写成本地txt文件

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhang58246500/article/details/53547146

之前看了周浩晖的一下小说,包括邪恶催眠师系列,这个系列已经到了第三季但是网上好像没找到txt文件。只找到下方网页中的文章,网页看小说不是很方便,所以决定爬下来做成txt文件放在手机中看。
http://www.txt99.com/read/12/20831/1.html

技术点:
BeautifulSoup、urllib2

直接上代码

#!/usr/bin/env python
# -*-coding:utf-8-*-

from bs4 import BeautifulSoup
import  html5lib
import urllib2
import sys
import codecs



strall='';
reload(sys)
sys.setdefaultencoding('utf-8')

for i in range(1,34):
    urls=str('http://www.txt99.com/read/12/20831/') +str(i) +str('.html')
    html=urllib2.urlopen(urls)
    htmldata=html.read()
    soup=BeautifulSoup(htmldata,'html.parser',from_encoding="gb18030") #这个网页是gb2312编码,所以要转一下

    #view_content_txt
    titleData=soup.find ('div',id='view_content_txt')

    ss=str(unicode(titleData))
    lists=ss.split('<div id="view_content_txt">')
    lings=str(lists[1])

    lists2=lings.split('<div class="view_page">')
    print str(lists2[0])
    strall+=str(lists2[0])

def writtetxt(content):
    f = codecs.open('f:/python/1.txt', 'w', 'utf-8') #将拼接的字符串写到txt文件中
    f.write(content)

    # print titleData
writtetxt(strall)

python初学者,代码写的很烂。请见谅

展开阅读全文

没有更多推荐了,返回首页