Scrapy框架爬取博客实例

最新推荐文章于 2021-05-13 23:46:48 发布

啊啊阿澄

最新推荐文章于 2021-05-13 23:46:48 发布

阅读量455

点赞数

分类专栏：爬虫实例文章标签： python 爬虫 Scrapy 框架

本文链接：https://blog.csdn.net/weixin_45765473/article/details/103115607

版权

本文介绍如何利用Python的Scrapy框架爬取Livedoor Blog博客，包括爬取博客链接、名字、类别、投稿时间和评论次数。详细步骤包括定义items.py，创建spider中的Blogspider.py，设置浏览器信息，并展示结果输出的方法，如通过终端命令抓取并保存为CSV文件。

摘要由CSDN通过智能技术生成

Scrapy框架爬取博客实例

爬取对象Livedoor Blog博客（日本网站）
爬取信息：博客链接，名字，类别，投稿时间，评论次数
使用python Scrapy框架

文章目录

Scrapy框架爬取博客实例

定义items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class BlogscrapingItem(scrapy.Item):
    #ブログ名前
    name = scrapy.Field()
    #投稿時間
    time = scrapy.Field()
    #カテゴリー
    category = scrapy.Field()
    #コメント
    comment = scrapy.Field()
    #リンク
    link = scrapy.Field()
    #文章
    str