python8--scrapy第一个练习（获取豆瓣电视剧评论）

最新推荐文章于 2022-12-07 23:30:03 发布

阿华华华华

最新推荐文章于 2022-12-07 23:30:03 发布

阅读量444

点赞数

分类专栏： Python入门 scrapy 文章标签： python3-5 scrapy mysql 爬虫-豆瓣

本文链接：https://blog.csdn.net/zjh0996/article/details/53988643

版权

这篇博客介绍了使用Scrapy爬虫框架抓取豆瓣电视剧评论，包括创建项目、定义Item、提取网页内容、数据写入JSON及MySQL数据库的步骤。博主分享了如何通过XPath获取数据，并提供了在Python3环境下使用pymysql连接MySQL的示例。

摘要由CSDN通过智能技术生成

2017年新年快乐Ｏ(≧口≦)Ｏ！希望自己这一年能比去年更加优秀！赶完论文又出去浪了一圈，直到现在才收心放学习上。就先把之前scrapy第一个小程序整理一下，明天开始新的内容练习(^__^)

这一次还是拿wuli凯凯王的电视剧练手，抓取符合要求的评论生成json文件并将数据存入mysql数据库中。这里是scrapy入门教程，看完之后加以修改，基本可以实现本次任务要求（这个貌似还支持NoSQL，文档中提供了MongoDB的例子，下次可以学学QAQ）。

创建一个项目

首先就是创建一个项目。这里在你需要创建项目的文件夹下，打开亲爱滴cmd（按住Shift键，鼠标右键选择在此处打开命名窗口），输入指令`scrapy startproject projectname，这里projectname就是自己项目名称。如下

创建一个项目

之后用PyCharm打开该项目就可以开始程序编写。

定义Item

在用PyCharm打开项目后，仿照文档教程定义item。这里需要定义几个内容如下：

userName:用户名
credit:评级（力荐，推荐，还行，较差，很差）
grade:评分（1~5）
time:评论时间
comment:评论

import scrapy


class Douban2Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    userName = scrapy.Field() #用户名
    credit = scrapy.Field() #评级
    grade = scrapy.Field() #评分
    time = scrapy.Field() #评论时间
    comment = scrapy.Field() #评论

scrapy部分

在scrapy文件夹下创建一个python文档，这就是一个爬虫（Spider）。基本框架仿照文档。

#coding = utf-8
import scrapy
from douban2.items import Douban2Item

#豆瓣评分等级
gradeDic = {
    '力荐':5,
    '推荐':4,
    '还行':

最低0.47元/天解锁文章

阿华华华华

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录