Scrapy框架爬取博客实例

本文介绍如何利用Python的Scrapy框架爬取Livedoor Blog博客,包括爬取博客链接、名字、类别、投稿时间和评论次数。详细步骤包括定义items.py,创建spider中的Blogspider.py,设置浏览器信息,并展示结果输出的方法,如通过终端命令抓取并保存为CSV文件。
摘要由CSDN通过智能技术生成

Scrapy框架爬取博客实例

  • 爬取对象Livedoor Blog博客(日本网站)
  • 爬取信息:博客链接,名字,类别,投稿时间, 评论次数
  • 使用python Scrapy框架

定义items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class BlogscrapingItem(scrapy.Item):
    #ブログ名前
    name = scrapy.Field()
    #投稿時間
    time = scrapy.Field()
    #カテゴリー
    category = scrapy.Field()
    #コメント
    comment = scrapy.Field()
    #リンク
    link = scrapy.Field()
    #文章
    str
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值