
python分布式网络爬虫
从0到1学习爬虫
. . . . .
越努力越幸运!
展开
-
python3使用requests时报错requests.exceptions.SSLError: HTTPSConnectionPool
报错信息如下:requests.exceptions.SSLError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLError(1, u'[SSL: CERTIFICATE_VERIFY_FAILED] certifica...转载 2019-11-10 11:14:42 · 8018 阅读 · 1 评论 -
python爬虫:Scrapy框架架构
Scrapy框架架构Scrapy框架介绍:写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率)。因此真正在公司里,一些上了量的爬虫,都是使用Scrapy框架来解决。Scr...原创 2019-02-10 13:38:59 · 547 阅读 · 0 评论 -
python爬虫:爬虫进阶之图像验证码识别技术
图形验证码识别技术:阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别(Optical Character Recognition),简写为OCR。实现OCR的库不是很多,特别是开源的。因为这块存在一定的技术壁垒(需要大量的数据、算法、机器学习、深度学习知识等),并且如果做好了具有很高的商业价值。...原创 2019-02-10 11:36:21 · 764 阅读 · 0 评论 -
python3爬虫:爬虫进阶之ajax数据爬取
动态网页数据抓取什么是AJAX:AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。获取ajax数据的方式:直接分析ajax调用...原创 2019-02-06 19:16:40 · 1995 阅读 · 0 评论 -
python爬虫:爬虫进阶之多线程爬虫
多线程爬虫有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。多线程介绍:多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢,而进程则是火车。车厢离开火车是无法跑动的,同理火车也可以有多节车...原创 2019-02-02 17:10:56 · 15632 阅读 · 7 评论 -
python3爬虫:数据存储之MySQL数据库
MySQL数据库操作安装mysql:在官网:https://dev.mysql.com/downloads/windows/installer/5.7.html如果提示没有.NET Framework框架。那么就在提示框中找到下载链接,下载一个就可以了。如果提示没有Microsoft Virtual C++ x64(x86),那么百度或者谷歌这个软件安装即可。如果没有找到。那么私聊我。...原创 2019-01-24 19:22:42 · 582 阅读 · 1 评论 -
python3爬虫:文件存储之CSV文件处理
csv文件处理读取csv文件: import csv with open('stock.csv','r') as fp: reader = csv.reader(fp) titles = next(reader) for x in reader: print(x)这样操作,以后获取数据的时候,就...原创 2019-01-24 17:11:39 · 994 阅读 · 0 评论 -
python3爬虫:数据解析之 BeautifulSoup4库
BeautifulSoup4库和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。Beaut...原创 2019-01-23 17:37:49 · 446 阅读 · 0 评论 -
python3爬虫:数据存储之 json文件处理
json文件处理:什么是json:JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。更...原创 2019-01-23 17:26:18 · 1886 阅读 · 0 评论 -
python3爬虫:网络请求之 requests库
requests库虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 “HTTP for Humans”,说明使用更简洁方便。安装和文档地址:利用pip可以非常方便的安装: pip install requests中文文档:http://docs.python-requests.or...原创 2019-01-23 10:28:20 · 585 阅读 · 0 评论 -
http请求头中Referer的含义和作用
版权所属:SO JSON在线解析原文地址:https://www.sojson.com/blog/58.html转载时必须以链接形式注明原始出处及本声明。Referer 是 HTTP 请求header 的一部分,当浏览器(或者模拟浏览器行为)向web 服务器发送请求的时候,头信息里有包含 Referer 。比如我在www.google.com 里有一个www.baidu.com 链...原创 2019-01-22 16:07:11 · 7187 阅读 · 4 评论 -
python3爬虫:网络请求之 urllib库
urllib库urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。urlopen函数:在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了,以先来看下urlopen函数基本的使用: from urllib import request re...原创 2019-01-22 15:39:48 · 467 阅读 · 0 评论 -
http协议和Chrome抓包工具
http协议和Chrome抓包工具什么是http和https协议:HTTP协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号是80端口。 HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443端口。在浏览器中发送一个http请求的过程:当用户在浏览器的地址栏中输...原创 2019-01-22 11:33:53 · 1437 阅读 · 0 评论 -
爬虫前奏
爬虫前奏爬虫的实际例子:搜索引擎(百度、谷歌、360搜索等)。伯乐在线。惠惠购物助手。数据分析与研究(数据冰山知乎专栏)。抢票软件等。什么是网络爬虫:通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。专业介绍:百度百科。通用爬虫和聚焦爬虫:通用爬虫:通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的...原创 2019-01-22 10:30:08 · 216 阅读 · 0 评论