2017年新年快乐O(≧口≦)O!希望自己这一年能比去年更加优秀!赶完论文又出去浪了一圈,直到现在才收心放学习上。就先把之前scrapy第一个小程序整理一下,明天开始新的内容练习(^__^)
这一次还是拿wuli凯凯王的电视剧练手,抓取符合要求的评论生成json文件并将数据存入mysql数据库中。这里是scrapy入门教程,看完之后加以修改,基本可以实现本次任务要求(这个貌似还支持NoSQL,文档中提供了MongoDB的例子,下次可以学学QAQ)。
创建一个项目
首先就是创建一个项目。这里在你需要创建项目的文件夹下,打开亲爱滴cmd(按住Shift键,鼠标右键选择在此处打开命名窗口),输入指令`scrapy startproject projectname,这里projectname就是自己项目名称。如下
之后用PyCharm打开该项目就可以开始程序编写。
定义Item
在用PyCharm打开项目后,仿照文档教程定义item。这里需要定义几个内容如下:
- userName:用户名
- credit:评级( 力荐,推荐,还行,较差,很差)
- grade:评分(1~5)
- time:评论时间
- comment:评论
import scrapy
class Douban2Item(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
userName = scrapy.Field() #用户名
credit = scrapy.Field() #评级
grade = scrapy.Field() #评分
time = scrapy.Field() #评论时间
comment = scrapy.Field() #评论
scrapy部分
在scrapy文件夹下创建一个python文档,这就是一个爬虫(Spider)。基本框架仿照文档。
#coding = utf-8
import scrapy
from douban2.items import Douban2Item
#豆瓣评分等级
gradeDic = {
'力荐':5,
'推荐':4,
'还行':