python3 [爬虫入门实战]爬虫之scrapy爬取织梦者网站并存mongoDB

本文介绍了使用Python3的Scrapy框架爬取织梦者网站编程栏目中其他编程的36638条数据,并将数据存储到MongoDB的过程。内容涉及爬取字段如标题、链接、描述、发布时间等,以及爬取策略和MongoDB的配置。教程还鼓励读者尝试多栏目的爬取,同时提醒要注意Scrapy的灵活性和应对变化。
摘要由CSDN通过智能技术生成

主要爬取了编程栏目里的其他编程里的36638条数据

过程是自己一步一步的往下写的,有不懂的也是一边找笔记,一边百度,一边调试。


遗憾:没有进行多栏目数据的爬取,只爬了一个栏目的数据,希望有想法的有钻研精神的可以自己去尝试爬取一下,难度应该不会很大。

给一张效果图:
这里写图片描述

爬取字段:标题,标题链接,标题描述,发布时间,发布类型,发布tag

爬取方式:主要是获取div【pull-left ltxt w658】下的内容,这个div还是有点复杂的?对于我而言吧。调试了多次,
这里写图片描述

需要爬取的内容都在上面图片标记着了,

先上items里面的代码:

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class MakedreamItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

    # 文章标题
    articleTitle = scrapy.Field()
    # 文章标题url
    articleUrl = scrapy.Field()
    # 文章描述
    articleDesc = scrapy.Field()
    # 文章发布时间
    articlePublic = scrapy.Field()
    # 文章类型
    articleType = scrapy.Field()
    # 文章标签
    articleTag = scrapy.Field()
    # pass

没毛病,我们继续接着上spider里面的代码,瞧仔细了。

# encoding=utf8
import scrapy
from makedream.items import MakedreamItem


class DramingNet(scrapy.Spider):
    # 启动爬虫的名称
    name = 'draming'
    # 爬虫的域范围
    allowed_domains = ['zhimengzhe.com']
    # 爬虫的第一个url
    start_urls = ['http://www.zhimengzhe.com/bianc
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值