2017年10月_Kosmoo

12月 11月 10月 09月 08月 02月

原创 scrapy爬虫注意点（2）—— 根据page循环遍历页面参数问题

1. 问题背景在访问如下这种论坛网页时，经常会根据页码访问接下来的页面。很多时候，会将pageIdx带入带request中的meta中，以便将这个page数据传递下去，但是基于scrapy的yield机制，不同的写法，会让带进去的page不同。 2. 实例分析代码# -*- coding: utf-8 -*-import scrapyclass MyclawerSpider(scrapy.

2017-10-27 17:02:25 9459

原创 python爬虫之请求（url）构造 —— 寻找参数来源以及中文编码

1. 环境系统：win7python：3.6.1IDE：pycharm平台：scrapy2. 目标按照下图中的下拉列表，构造搜索链接：在“All”类目下，搜索关键字“phone mount”，请求连接为： https://www.amazon.com/s/ref=nb_sb_noss_2?url=search-alias%3Daps&field-keywords=phone+moun

2017-10-27 14:40:24 23000 1

原创 scrapy爬虫注意点（1）—— scrapy.FormRequest中formdata参数

1. 背景在网页爬取的时候，有时候会使用scrapy.FormRequest向目标网站提交数据（表单提交）。参照scrapy官方文档的标准写法是：# header信息unicornHeader = { 'Host': 'www.example.com', 'Referer': 'http://www.example.com/',}# 表单需要提交的数据my...

2017-10-20 10:18:35 33211 5

原创 python爬虫网页解析中的疑难杂症...

1. 介绍2. 环境3. 获取标签之间内容该部分主要是通过正则表达式获取两个标签之间的内容，通常这种标签都是成对出现的。开始标签如：<tr>、<th>、<td>、<a>、<table>、<div>...后缀标签如：</tr>、</th>、</td>、</a>、</table>、</div>...核心代码： res_tr = r'<tr>(.*?)</tr>' m_

2017-10-14 11:56:05 5177

原创 python中用xpath解析网页的基本方法

1. 背景目前爬虫解析网页的技术有：Json, 正则表达式，BeautifulSoup，PyQuery，XPathXPath 教程官方文档： http://www.w3school.com.cn/xpath/index.asp 2. XPath简述2.1. 什么是XPath？XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在

2017-10-08 22:51:58 23066 1