python3 [爬虫入门实战]爬虫之scrapy爬取织梦者网站并存mongoDB

最新推荐文章于 2020-08-26 14:32:10 发布

xudailong_blog

最新推荐文章于 2020-08-26 14:32:10 发布

阅读量815

点赞数

分类专栏： # python3爬虫我的python3爬虫之路文章标签： mongodb python 爬虫织梦发布

本文链接：https://blog.csdn.net/xudailong_blog/article/details/75212857

版权

本文介绍了使用Python3的Scrapy框架爬取织梦者网站编程栏目中其他编程的36638条数据，并将数据存储到MongoDB的过程。内容涉及爬取字段如标题、链接、描述、发布时间等，以及爬取策略和MongoDB的配置。教程还鼓励读者尝试多栏目的爬取，同时提醒要注意Scrapy的灵活性和应对变化。

摘要由CSDN通过智能技术生成

主要爬取了编程栏目里的其他编程里的36638条数据

过程是自己一步一步的往下写的，有不懂的也是一边找笔记，一边百度，一边调试。

遗憾：没有进行多栏目数据的爬取，只爬了一个栏目的数据，希望有想法的有钻研精神的可以自己去尝试爬取一下，难度应该不会很大。

给一张效果图：
这里写图片描述

爬取字段：标题，标题链接，标题描述，发布时间，发布类型，发布tag

爬取方式：主要是获取div【pull-left ltxt w658】下的内容，这个div还是有点复杂的？对于我而言吧。调试了多次，
这里写图片描述

需要爬取的内容都在上面图片标记着了，

先上items里面的代码：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class MakedreamItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

    # 文章标题
    articleTitle = scrapy.Field()
    # 文章标题url
    articleUrl = scrapy.Field()
    # 文章描述
    articleDesc = scrapy.Field()
    # 文章发布时间
    articlePublic = scrapy.Field()
    # 文章类型
    articleType = scrapy.Field()
    # 文章标签
    articleTag = scrapy.Field()
    # pass

没毛病，我们继续接着上spider里面的代码，瞧仔细了。

# encoding=utf8
import scrapy
from makedream.items import MakedreamItem


class DramingNet(scrapy.Spider):
    # 启动爬虫的名称
    name = 'draming'
    # 爬虫的域范围
    allowed_domains = ['zhimengzhe.com']
    # 爬虫的第一个url
    start_urls = ['http://www.zhimengzhe.com/bianc