用scrapy框架爬取京东商品信息并存入mysql

最新推荐文章于 2024-05-06 21:21:57 发布

小川爱分享

最新推荐文章于 2024-05-06 21:21:57 发布

阅读量1.1k

点赞数

分类专栏：爬虫文章标签： scrapy mysql 爬虫

本文链接：https://blog.csdn.net/weixin_43915879/article/details/102832184

版权

背景

继上篇解决八爪鱼数据采集工具速度慢的问题，八爪鱼免费的自定义模式平均每分钟采集10条数据，而用scrapy则接近100条数据每分钟

问题

上网找了很多代码，由于没接触过scrapy框架，直接把别人的代码复制到idle运行，但发现并没有执行
【解决】：原来网上的代码全都是写了spider类而已，没有执行程序，而scrapy框架需要在python scripts目录下命令行创建项目（只要在安装scrapy的目录下创建就好），再在写spider文件夹调加爬虫文件圈出来的文件就是自己写的爬虫
无法导入JingdongItem模块
【解决】：直接不要这个模块，自己写而且直接放在爬虫文件里面可以防止出现无法调用自生成的items文件
如何找到可以爬取的url
【解决】：
（1）京东商城的手机信息 URL：https://list.jd.com/list.html?cat=9987,653,655&page=1
（2）谷歌浏览器的京东页面找到每一类商品对应的cat，然后替换就好了
（3）以电脑为例：京东搜索“电脑”，下拉到翻页的位置——F12，找出“下一页”按钮对应的元素——最长的cat3一般就是所要的

代码

from __future__ import absolute_import
import scrapy
from scrapy.http import Request
#from jingdong.items import JingdongItem,IdItem
import re
import urllib.error
import urllib.request
import pymysql

class JingdongItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    all_class=scrapy.Field()
    next_class_name = scrapy.Field()
    next_class_url = scrapy.Field()
    book_name = scrapy.Field()
    book_url = scrapy.Field()
    comment = scrapy.Field()
    price = scrapy.Field()
    publisher_name = scrapy.Field()
    publisher_url = scrapy.Field()
    publish_time = scrapy

最低0.47元/天解锁文章

小川爱分享

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
用scrapy框架爬取京东商品信息并存入mysql

背景继上篇解决八爪鱼数据采集工具速度慢的问题，八爪鱼免费的自定义模式平均每分钟采集10条数据，而用scrapy则接近100条数据每分钟问题上网找了很多代码，由于没接触过scrapy框架，直接把别人的代码复制到idle运行，但发现并没有执行【解决】：原来网上的代码全都是写了spider类而已，没有执行程序，而scrapy框架需要在python scripts目录下命令行创建项目（只要在安装...
复制链接

扫一扫