自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Kosmoo的博客

记录自己学习python过程中的经验与心得

  • 博客(5)
  • 资源 (7)
  • 收藏
  • 关注

原创 scrapy爬虫注意点(2)—— 根据page循环遍历页面参数问题

1. 问题背景在访问如下这种论坛网页时,经常会根据页码访问接下来的页面。很多时候,会将pageIdx带入带request中的meta中,以便将这个page数据传递下去,但是基于scrapy的yield机制,不同的写法,会让带进去的page不同。 2. 实例分析代码# -*- coding: utf-8 -*-import scrapyclass MyclawerSpider(scrapy.

2017-10-27 17:02:25 9459

原创 python爬虫之请求(url)构造 —— 寻找参数来源以及中文编码

1. 环境系统:win7python:3.6.1IDE:pycharm平台:scrapy2. 目标按照下图中的下拉列表,构造搜索链接: 在“All”类目下,搜索关键字“phone mount”,请求连接为: https://www.amazon.com/s/ref=nb_sb_noss_2?url=search-alias%3Daps&field-keywords=phone+moun

2017-10-27 14:40:24 23000 1

原创 scrapy爬虫注意点(1)—— scrapy.FormRequest中formdata参数

1. 背景在网页爬取的时候,有时候会使用scrapy.FormRequest向目标网站提交数据(表单提交)。参照scrapy官方文档的标准写法是:# header信息unicornHeader = { 'Host': 'www.example.com', 'Referer': 'http://www.example.com/',}# 表单需要提交的数据my...

2017-10-20 10:18:35 33211 5

原创 python爬虫网页解析中的疑难杂症...

1. 介绍2. 环境3. 获取标签之间内容该部分主要是通过正则表达式获取两个标签之间的内容,通常这种标签都是成对出现的。 开始标签如:<tr>、<th>、<td>、<a>、<table>、<div>...后缀标签如:</tr>、</th>、</td>、</a>、</table>、</div>...核心代码: res_tr = r'<tr>(.*?)</tr>' m_

2017-10-14 11:56:05 5177

原创 python中用xpath解析网页的基本方法

1. 背景目前爬虫解析网页的技术有:Json, 正则表达式,BeautifulSoup,PyQuery,XPathXPath 教程 官方文档: http://www.w3school.com.cn/xpath/index.asp 2. XPath简述2.1. 什么是XPath?XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在

2017-10-08 22:51:58 23066 1

python面试题大全

主要是一些大公司,网上流传的python岗位面试题,主要体现在python的语言特性上,比较基础

2018-03-26

SVN安装与详细使用教程

SVN安装与详细使用教程,包含了 SVN服务器(VisualSVN server)搭建和使用,SVN客户端(Tortoise SVN)的安装配置,以及客户端的详细使用,以及注意事项

2018-02-09

Python网络编程基础

Python网络编程基础

2017-02-15

C经典100例的python实现

C经典100例的python实现

2017-02-15

Django中文手册

Django 中文手册

2017-02-15

Python经典面试题

Python经典面试题

2017-02-15

python340参考手册_英文

python340参考手册_英文

2017-02-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除