相对于正则来说,bs4在某些方面要比正则代码书写容易的多。
我爬取的是《穆斯林的葬礼》
代码如下:
# -*- coding: utf-8 -*-
import re
import urllib2
import sys
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding('utf-8')
#print sys.getdefaultencoding()
file = open('text.txt','a+')
def getHtml(url):
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers