最近真是闲的无所事事,快要发霉了,于是比较一下,不同爬虫技术在同一台电脑上的爬取同一个网站的同一本小说的花费用时。
爬的是一本叫《龙王赘婿》的小说,电脑也是差劲的可以
好了,废话不多说了,首先是什么都没有处理的通用爬虫
一、通用爬虫
import os
import time
import requests
import re
url = 'http://www.shuquge.com/txt/115748/index.html'
response = requests.get(url)
response.encoding = response.apparent_encoding
html = response.text
result = re.findall('<dd><a href="(.*?)">(.*?)</a></dd>', html)
def novel_content(novel_url):
response_2 = requests.get(novel_url)
response_2.encoding = response_2.apparent_encoding
html_2 = response_2.text
result_2 = re.findall('<div id="content" class="showtxt">(.*?)</div>', html_2,