2018年04月_Kosmoo

07月 06月 05月 04月 03月 02月 01月

原创 python下操作redis数据库的基本方法

参考文章：https://blog.csdn.net/fgf00/article/details/52917154一、Redis简介 redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash（哈希类型）。这些数据类型都支持pus...

2018-04-29 02:07:16 3432

原创 python爬虫如何POST request payload形式的请求

python爬虫如何POST request payload形式的请求1. 背景最近在爬取某个站点时，发现在POST数据时，使用的数据格式是request payload，有别于之前常见的 POST数据格式（Form data）。而使用Form data数据的提交方式时，无法提交成功。于是上网查了下二者的区别：http://xiaobaoqiu.github.io/blog/2...

2018-04-17 23:31:50 93744 10

原创 scrapy无法使用xpath解析？特殊网页的信息提取（1） — 百度贴吧

scrapy无法使用xpath解析？特殊网页的信息提取（1） — 百度贴吧1. 背景最近在使用scrapy爬取百度贴吧帖子内容时，发现用xpath无法解析到页面元素。但是利用xpath helper这个插件，很明显可以看到xpath路径是没有问题的。 articleList = response.xpath("//li[contains(@class, 'j_thread...

2018-04-15 00:22:31 5678

原创 scrapy爬虫利用selenium实现用户登录和cookie传递（百度云俱乐部）

scrapy爬虫利用selenium实现用户登录和cookie传递1. 背景上篇讲解了如何在scrapy中集成selenium爬取一些特别复杂的页面（传送门：https://blog.csdn.net/zwq912318834/article/details/79773870），而事实上，在平时的爬取任务中，往往登录过程是最复杂的，其他页面相对来说比较简单。如果把过多的时间花费在破解...

2018-04-09 18:10:30 8958 3

原创如何在scrapy中集成selenium爬取网页

如何在scrapy中集成selenium爬取网页1.背景我们在爬取网页时一般会使用到三个爬虫库：requests，scrapy，selenium。requests一般用于小型爬虫，scrapy用于构建大的爬虫项目，而selenium主要用来应付负责的页面（复杂js渲染的页面，请求非常难构造，或者构造方式经常变化）。在我们面对大型爬虫项目时，肯定会优选scrapy框架来开发，但是在解...

2018-04-03 16:30:21 24300 11