scrapy_小拳头的博客-CSDN博客

scrapy

关注

文章平均质量分 79

关注数：文章数：5 文章阅读量：60548 文章收藏量：124

作者: 小拳头

“女生，平时要好好护肤，保持身材，多看书，多旅行，有自己的想法，去做自己喜欢的事，培养自信。不要把精力全部用在一个男人身上，成天胡思乱想，像个怨妇，等你变得更好的时候，你会发现所有的事情都会变得很容易了，包括爱情”

展开

scrapy爬取京东商城某一类商品的信息和评论（二）

2、任务二：爬取商品评论信息如果不需要爬取用户的地域信息，那么用这个网址爬就好：http://club.jd.com/review/10321370917-1-1-0.html其中10321370917是商品的ID，评论的第一页就是 -1-1-0.html，第二页就是-1-2-0.html。之前商品不是存了评论总数吗，一页30个评论，除一下就可以知道多少页了，

原创 2016-07-06 17:48:55 · 10233 阅读 · 8 评论
scrapy爬取京东商城某一类商品的信息和评论（一）

一、前提默认已用scrapy爬取过网站，有爬虫基础，有爬虫环境二、以爬取电子烟为例1、任务一：爬取商品信息在搜索框里面直接搜索电子烟，搜出来的界面，你会发现它是动态加载的。即一开始源代码里面只能看到30条商品的信息，随着你的下拉，另外30条才会加载出来。因此爬取起来比较麻烦。后来发现，从京东左边的商品分类中找到电子烟这一分类

原创 2016-07-06 17:28:18 · 27816 阅读 · 13 评论
scrapy URLerror:<urlopen error [Error 10051]> 问题

问题如下图所示：原因：That particular error message is being generated by boto (boto 2.38.0 py27_0), which is used to connect to Amazon S3. Scrapy doesn't have this enabled by default.解决方法：

原创 2016-11-22 15:28:49 · 1286 阅读 · 0 评论
scrapyd部署总结

一、前言由于毕设要做一个集成爬虫、文本分析和可视化的网站。需要将爬虫部署到网站上去供不懂技术的人使用。因此开始了研究scrapy+django。找了多方面的资料终于找到了我想要的，那就是scrapyd。网站通过http就可以从scrapyd上管理后台的爬虫了。二、环境安装安装scprayd，网址：https://github.com/scrapy/scrapy安装scrap

原创 2016-11-14 21:10:01 · 16421 阅读 · 2 评论
爬虫常用的三种通用模板小结

确实有一段时间没怎么写爬虫了，最近又安排了写爬虫的任务，其实很多东西写过一份，之后再做大部分是复制粘贴代码，然后修改一下。所以这里总结一下通用的地方，方便之后编写爬虫的时候，可以直接取用。一、使用urllib2库对于一些简单的网站，需要获取的信息又是以json格式返回时，我一般喜欢用urllib2库直接写爬虫获取。代码模板：import urllib2impor

原创 2017-07-18 15:17:10 · 4794 阅读 · 0 评论

scrapy

作者: 小拳头

scrapy爬取京东商城某一类商品的信息和评论（二）

scrapy爬取京东商城某一类商品的信息和评论（一）

scrapy URLerror:<urlopen error [Error 10051]> 问题

scrapyd部署总结

爬虫常用的三种通用模板小结