Scrapy框架爬取博客实例
- 爬取对象Livedoor Blog博客(日本网站)
- 爬取信息:博客链接,名字,类别,投稿时间, 评论次数
- 使用python Scrapy框架
定义items.py
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
import scrapy
class BlogscrapingItem(scrapy.Item):
#ブログ名前
name = scrapy.Field()
#投稿時間
time = scrapy.Field()
#カテゴリー
category = scrapy.Field()
#コメント
comment = scrapy.Field()
#リンク
link = scrapy.Field()
#文章
str