scrapy
文章平均质量分 79
小拳头
“女生,平时要好好护肤,保持身材,多看书,多旅行,有自己的想法,去做自己喜欢的事,培养自信。不要把精力全部用在一个男人身上,成天胡思乱想,像个怨妇,等你变得更好的时候,你会发现所有的事情都会变得很容易了,包括爱情”
展开
-
scrapy爬取京东商城某一类商品的信息和评论(二)
2、任务二:爬取商品评论信息如果不需要爬取用户的地域信息,那么用这个网址爬就好:http://club.jd.com/review/10321370917-1-1-0.html其中10321370917是商品的ID,评论的第一页就是 -1-1-0.html, 第二页就是-1-2-0.html。之前商品不是存了评论总数吗,一页30个评论,除一下就可以知道多少页了,原创 2016-07-06 17:48:55 · 10233 阅读 · 8 评论 -
scrapy爬取京东商城某一类商品的信息和评论(一)
一、前提默认已用scrapy爬取过网站,有爬虫基础,有爬虫环境二、以爬取电子烟为例1、任务一:爬取商品信息在搜索框里面直接搜索电子烟,搜出来的界面,你会发现它是动态加载的。即一开始源代码里面只能看到30条商品的信息,随着你的下拉,另外30条才会加载出来。因此爬取起来比较麻烦。后来发现,从京东左边的商品分类中找到电子烟这一分类原创 2016-07-06 17:28:18 · 27816 阅读 · 13 评论 -
scrapy URLerror:<urlopen error [Error 10051]> 问题
问题如下图所示:原因:That particular error message is being generated by boto (boto 2.38.0 py27_0), which is used to connect to Amazon S3. Scrapy doesn't have this enabled by default.解决方法:原创 2016-11-22 15:28:49 · 1286 阅读 · 0 评论 -
scrapyd部署总结
一、前言由于毕设要做一个集成爬虫、文本分析和可视化的网站。需要将爬虫部署到网站上去供不懂技术的人使用。因此开始了研究scrapy+django。找了多方面的资料终于找到了我想要的,那就是scrapyd。网站通过http就可以从scrapyd上管理后台的爬虫了。二、环境安装安装scprayd,网址:https://github.com/scrapy/scrapy安装scrap原创 2016-11-14 21:10:01 · 16421 阅读 · 2 评论 -
爬虫常用的三种通用模板小结
确实有一段时间没怎么写爬虫了,最近又安排了写爬虫的任务,其实很多东西写过一份,之后再做大部分是复制粘贴代码,然后修改一下。所以这里总结一下通用的地方,方便之后编写爬虫的时候,可以直接取用。一、使用urllib2库对于一些简单的网站,需要获取的信息又是以json格式返回时,我一般喜欢用urllib2库直接写爬虫获取。 代码模板:import urllib2impor原创 2017-07-18 15:17:10 · 4794 阅读 · 0 评论