scrapy爬虫
zcc_0015
业精于勤,荒于嬉
展开
-
Scrapy+splash抓取js生成的数据
一、python、lua、js间参数传递原理抓取过程是python调用splash的lua脚本,lua中又调用了js代码实现相关页面内容的提取及js动作的模拟。在python中通过meta的splash中的args设置python将要传入splash的参数信息,在splash中通过splash:jsfunc的接口封装js代码成为lua函数,进而将lua中的参数传入js代码中。(1)原创 2016-03-17 17:16:52 · 11824 阅读 · 1 评论 -
Scrapy如何实现抓取动态网页
作者:张昌昌 动态网页指几种可能:1)需要用户交互,如常见的登录操作;2)网页通过JS / AJAX动态生成,如一个html里有,通过JS生成aaa;3)点击输入关键字后进行查询,而浏览器url地址不变第一种方法:直接url法 (1)认真分析页面结构,查看js响应的动作; (2)借助于firfox的firebug分析js点击动作所发出的请求url; (3原创 2016-03-06 18:07:37 · 23183 阅读 · 0 评论 -
关于scrapy网络爬虫的xpath书写经验总结
借助于scapy的爬虫框架,能方便实现低网络数据的爬取,其中xpath如何写法,对元素的定位在爬取过程中起着至关重要的作用。以下是对xpath写法的一些经验:(1)优先遵循“自底向上”原则,即从所要爬取的字段节点出发,层层向上,向父节点去遍历,找到其他爬取的字段。 这样的好处在于,首先从自己必然要的字段出发,不会发生任何歧义或其他问题命中该字段,再从该节点出发再去层层向父元原创 2016-05-17 12:05:20 · 16222 阅读 · 2 评论 -
scrapy 中解决 xpath 中的中文编码问题
1、问题描述: 实现定位品牌节点 brand_tag = sel.xpath("//h2[text()= '品牌']") 报错:ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters 2、解决方法:原创 2016-08-22 11:09:25 · 10817 阅读 · 2 评论