scripy爬取页面并按目录结构存放页面

最新推荐文章于 2019-03-12 23:37:26 发布

woshizoe

最新推荐文章于 2019-03-12 23:37:26 发布

阅读量2.1k

点赞数

分类专栏： Python

Python 专栏收录该内容

42 篇文章 1 订阅

订阅专栏

http://www.w3c.com.cn/scripy%E7%88%AC%E5%8F%96%E9%A1%B5%E9%9D%A2%E5%B9%B6%E6%8C%89%E7%9B%AE%E5%BD%95%E7%BB%93%E6%9E%84%E5%AD%98%E6%94%BE%E9%A1%B5%E9%9D%A2

0.00 / 5 5
1 / 5
2 / 5
3 / 5
4 / 5
5 / 5

0 votes, 0.00 avg. rating ( 0% score)

给大家共享一段代码，希望对发家有帮助。该代码的作用是将指定站点的页面递归的爬取，并按照目录结构存放爬取结果：

     
     
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.http import Request
from scrapy import log 
import os, os.path
class BookSpider(CrawlSpider):
    name = 'Book'
    #allowed_domains = ['xx.com']
    #start_urls = ['http://www.xx.com/']
    #rules = (
    #    Rule(SgmlLinkExtractor(allow=r'\.html'), callback='parse_item', follow=True),
    #)  
    def __init__(self, start_url, output_dir = "./", *args, **kwargs):
        super(BookSpider, self).__init__(*args, **kwargs)
        self.start_urls = []
        self.start_urls.append(start_url)
        self.output_dir = output_dir
        self.allowed_domains = map(self._get_domain, self.start_urls)
    def _get_domain(self, url):
        first_dot = url.find('.')
        if -1 == first_dot:
            return None
        first_slash = url.find('/', first_dot + 1)
        if -1 == first_slash:
            return url[first_dot + 1:] 
        return url[first_dot + 1: first_slash]
    def parse(self, response):
        """first Request return to fetch start_url"""
        self.parse_detail(response)
        yield Request(response.url, callback = self.parse_item)
    def parse_item(self, response):
        page_links = SgmlLinkExtractor(allow=r'\.html').extract_links(response)
        """ iterate two times for BFS; one for DFS"""
        for link in page_links:
            yield Request(link.url, callback = self.parse_detail)
        for link in page_links:
            yield Request(link.url, callback = self.parse_item)
    def parse_detail(self, response):
        outputfile = self._rtouch(response.url)
        if not outputfile:
            log.msg("download %s fail" % response.url, level = log.WARNING, spider = self)
            return
        with open(outputfile, 'w') as f:
            f.write(response.body)
        log.msg("download file: %s" % outputfile, level = log.INFO, spider = self)
    def _rtouch(self, filepath):
        pos = filepath.find('://')
        if -1 != pos:
            filepath = filepath[pos + 3:]
        if ".html" != filepath[-5:]:
            filepath += "/index.html"
        opath = os.path.abspath(self.output_dir + "/" + filepath)
        basedir = os.path.dirname(opath)
        if not os.path.exists(basedir):
            try:
                os.makedirs(basedir)
            except Exception, msg:
                log.msg(msg, level = log.WARNING, spider = self)
                return None
        return opath