爬虫
文章平均质量分 70
yangxiaodong88
让编程更简单,用好轮子,创造轮子。
展开
-
python3 urllib 爬虫处理https 请求ssl 证书验证
背景如果网站的SSL证书是经过CA认证的,则能够正常访问,如:https://www.baidu.com/等…如果SSL证书验证不通过,或者操作系统不信任服务器的安全证书,比如浏览器在访问12306网站先看没有忽略SSL证书验证的错误的import urllib.requestimport ssl# 处理HTTPS请求 SSL证书验证 忽略认证 比如12306 网站ur...原创 2018-06-21 11:13:55 · 16682 阅读 · 2 评论 -
python3 urllib 爬虫 Handler 处理器 自定义opener
# 背景opener是 urllib.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能: 使用相关的 Handler处理器 来创建特定功能的处理器对象然后通过 urllib.request.bu...原创 2018-06-21 12:01:05 · 1020 阅读 · 0 评论 -
python3 urllib 爬虫 Handler 处理器PRoxyHandlr 处理器(代理设置)
前言使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。urllib2中通过ProxyHandler来设置使用代理服务器,下面代码说明如何使用自定义ope...原创 2018-06-21 14:54:07 · 2660 阅读 · 0 评论 -
爬虫 requests学习
背景前面学习了urllib 虽然说Python3 中urllib 整合了urllib 和 urllib2 但是还是比较底层不太好用。 get post 等方法。 request 非常的简洁关于http 。 他的口号是让http 服务人类 非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡 先来简单看下reque...原创 2018-06-21 16:20:34 · 216 阅读 · 0 评论 -
爬虫 结构化 数据 非结构化数据 正则表达式re
背景页面解析和数据提取一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。非结构化数据:先有数据,再有结构,结构化数据:先有结构、再有数据不同类型的数据,我们需要采用不同的方式来处理。文本、电话号码、邮箱地址正则表达式HTML 文件正则表达式XPathCSS选择器结构...原创 2018-06-22 10:04:24 · 1032 阅读 · 0 评论 -
爬虫 结构化 数据 非结构化数据 XPath lxml 类库
背景使用正则表达式比较费劲 可以使用xpath 先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。什么是XPath?XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。W3School官方文档:http://www.w3school.com.cn/xpath...原创 2018-06-22 16:24:47 · 246 阅读 · 0 评论 -
python3 中 爬虫学习之urllib
说说urllib 忘记urllib2 吧python 3 中的urllib 和python2 中不一样, Python3 中urllib 是 Python2 中urllib 和urllib2 的合并Python3 和Python 2 中的urllib 对比在Pytho2.x中使用import urllib2——-对应的,在Python3.x中会使用import urllib.req...原创 2018-06-20 17:14:15 · 253 阅读 · 0 评论