![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 78
Wilson_Iceman
这个作者很懒,什么都没留下…
展开
-
Python使用Selenium webdriver爬虫某电商商品数据
周末两天在家带孩子没有更新博客,今天用Selenium webdriver设计了一个爬虫程序,来获取某电商平台的商品信息。 首先简单介绍一下什么是Selenium webdriver。Selenium本身是一个项目的名字,它包含了一组使用工具以及一套API函数,Selenium webdriver只是它的一个套件而已。Selenium webdriver本质上是一个支持浏览器自动化原创 2018-01-22 23:28:29 · 1843 阅读 · 0 评论 -
Python使用HTMLParser抓取网页内容
昨天使用webdriver爬取了某电商网站的商品数据信息,webdriver其实是使用DOM格式来抓取网页数据的。但是使用DOM格式有一个问题,学过前端的同学都知道,如果使用DOM格式抓取数据,必须要等到DOM树形成之后才可以,也就是说DOM格式要完全完成之后才可以使用。但是对于某些特殊的情况,并不需要全部的DOM,可能只需要DOM中的一部分就可以了。在这种情况下webdriver就会显得效率有点原创 2018-01-23 23:20:06 · 6955 阅读 · 0 评论 -
网络爬虫股票信息
首先解决一下之前那篇博客遇到的关于中文乱码的问题,在sublime3中无法打印中文的问题。今天问了一个同事,帮我解决了这个问题import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')在win7中,python的默认编码不是'utf-8',改一下python的默认编码成'u原创 2018-01-17 16:17:35 · 986 阅读 · 0 评论 -
Scrapy爬虫从入门到实例精讲(上)
最近几天一直在学习Scrapy这个框架,打算用几篇文章来总结一下自己这段时间学习的知识。 首先我们需要简单介绍一下Scrapy是个什么东西。先来看一张图,是从官网上弄下来的。Scrapy是一个框架,这个框架是用来爬取网站数据的,并且该框架为我们提供了各种接口,包括爬虫接口,管道接口,数据存储接口以及数据库访问接口等等。上图中绿色的箭头表示数据的流向,从Sche原创 2018-01-25 16:53:20 · 5045 阅读 · 3 评论 -
Scrapy爬虫从入门到实例精讲(中)
上次介绍了Scrapy爬虫网络数据的最简单的使用,今天我们来看看如何用工程或者项目来进行网络爬虫。首先我们需要创建一个项目。 scrapy startproject douban_book在命令行输入scrapy startproject + [项目名],这样会生成一个scrapy项目。我这个项目的名称是douban_book。大家一看这个名字就知道,我待会要去爬取豆瓣网站图书的内容。原创 2018-01-27 12:36:28 · 11500 阅读 · 9 评论 -
Scrapy爬虫从入门到实例精讲(下)
今天是这个系列的最后一篇文章了,所以我们来一个大一点的,复杂一点的程序。今天我们还是爬豆瓣的内容,是豆瓣影评数据。我们找到一个前段时间特别火的一部皮克斯的动画片《寻梦环游记Coco》来进行今天的测试,我们要把豆瓣上这部电影的所有影评数据全部抓取下来。这里说一句题外话,我前一段时间去电影院看了这部电影,真的是良心之作,死亡的话题竟然还能这样讲述,反正我在电影院是哭的稀里哗啦的,强烈建议大家去看看原创 2018-01-29 00:19:22 · 1781 阅读 · 2 评论 -
Scrapy实现最新的知乎模拟登陆
最近一直在尝试使用Scrapy实现知乎的模拟登陆,终于实现了,今天在这里总结一下。很多朋友可能知道了知乎进行了改版,特别是登录这一部分,不再使用传统的Form表单的形式,而是使用了Multipart/form-data的这种结构来提交表单数据,这就给我们模拟登陆知乎增加了不少麻烦。最近一直在尝试各种办法,后来又结合网络中其他朋友的意见,终于实现了使用Scrapy来模拟登陆知乎。首先和之前的原创 2018-02-10 00:52:02 · 1923 阅读 · 2 评论 -
Scrapy用ImagePipeline爬取网页图片
之前的那个系列文章只是讲到了如何使用Scrapy来爬取文本数据,今天我们来介绍如何用Scrapy来爬取图片数据。Scrapy爬取图片数据需要用到ImagePipeline这个类,此类提供一种方便的方式来下载和存储图片,待会大家看例子的时候就可以看到爬取图片要比爬取文本简单的多,这当然要归功于ImagePipeline这个类。这个类的主要特征如下:将下载图片转换成通用的JPG和R原创 2018-01-29 23:26:24 · 3924 阅读 · 0 评论 -
Python使用adbapi实现MySQL数据库的异步存储
之前一直在写有关scrapy爬虫的事情,今天我们看看使用scrapy如何把爬到的数据放在MySQL数据库中保存。有关python操作MySQL数据库的内容,网上已经有很多内容可以参考了,但都是在同步的操作MySQL数据库。在数据量不大的情况下,这种方法固然可以,但是一旦数据量增长后,MySQL就会出现崩溃的情况,因为网上爬虫的速度要远远高过往数据库中插入数据的速度。为了避免这种情况发生,我们就原创 2018-02-06 16:16:53 · 5476 阅读 · 1 评论