python8--scrapy第一个练习(获取豆瓣电视剧评论)

这篇博客介绍了使用Scrapy爬虫框架抓取豆瓣电视剧评论,包括创建项目、定义Item、提取网页内容、数据写入JSON及MySQL数据库的步骤。博主分享了如何通过XPath获取数据,并提供了在Python3环境下使用pymysql连接MySQL的示例。
摘要由CSDN通过智能技术生成

2017年新年快乐O(≧口≦)O!希望自己这一年能比去年更加优秀!赶完论文又出去浪了一圈,直到现在才收心放学习上。就先把之前scrapy第一个小程序整理一下,明天开始新的内容练习(^__^)

这一次还是拿wuli凯凯王的电视剧练手,抓取符合要求的评论生成json文件并将数据存入mysql数据库中。这里是scrapy入门教程,看完之后加以修改,基本可以实现本次任务要求(这个貌似还支持NoSQL,文档中提供了MongoDB的例子,下次可以学学QAQ)。

创建一个项目

首先就是创建一个项目。这里在你需要创建项目的文件夹下,打开亲爱滴cmd(按住Shift键,鼠标右键选择在此处打开命名窗口),输入指令`scrapy startproject projectname,这里projectname就是自己项目名称。如下

创建一个项目

之后用PyCharm打开该项目就可以开始程序编写。

定义Item

在用PyCharm打开项目后,仿照文档教程定义item。这里需要定义几个内容如下:

  • userName:用户名
  • credit:评级( 力荐,推荐,还行,较差,很差)
  • grade:评分(1~5)
  • time:评论时间
  • comment:评论
import scrapy


class Douban2Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    userName = scrapy.Field() #用户名
    credit = scrapy.Field() #评级
    grade = scrapy.Field() #评分
    time = scrapy.Field() #评论时间
    comment = scrapy.Field() #评论

scrapy部分

在scrapy文件夹下创建一个python文档,这就是一个爬虫(Spider)。基本框架仿照文档。

#coding = utf-8
import scrapy
from douban2.items import Douban2Item

#豆瓣评分等级
gradeDic = {
    '力荐':5,
    '推荐':4,
    '还行':
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值