狮范客-CSDN博客

原创第十二章 Scrapy中间件与图片管道

简介中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。在Scrapy中有两种中间件：下载器中间件（Downloader Middleware）和爬虫中间件（Spider Middleware）。安装上一章已经安装过了，所以这一步可以跳过知识爬虫中间件与下载中间件在项目工程中，有一个middlewares.py文件，如下：关于每个函数调用的时刻，可以通过调试看日志输出，会更清晰class Jobsp.

2020-06-11 16:52:09 307

原创 win10 tensorflow2.2 安装踩坑总结

学习新技术有两座大山，一座是配置环境，另一座是调试bug最近想了解一下新版的tensorflow，于是乎就打算配置一下环境跑几个模型玩玩，谁知道竟然是这么坎坷。安装tensorflow2.2 版本 cpu和gpu版的时候直接pip install tensorflow肯定是不行的，慢到令人发狂在这里插入图片描述平常安装工具都使用清华源pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflowpip install -.

2020-06-11 14:09:18 4464 3

原创第十一章 Scrapy入门：多线程+异步

简介Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架。用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。(提高请求效率)Scrapy 使用了Twisted(aiohttp)异步网络框架来处理网络通讯，可以加快下载速度，并且包含了各种中间件接口，可以灵活的完成各种需求。安装pip install --upgrade pip建议首先更新pip 再安装下列依赖库否则可能会遇到诸多错误：pip in.

2020-06-08 16:49:16 5997 7

原创第十章 aiohttp：加速加速

简介asyncio实现了TCP、UDP、SSL等协议，aiohttp则是基于asyncio实现的异步请求HTTP框架。可以用于爬虫三部曲的第一步，替换之前的requests请求，进行请求加速，后边解析存储还是不变。中文文档地址： https://www.cntofu.com/book/127/index.html安装pip install aiohttp但是使用清华源更快：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple reque.

2020-06-04 10:04:53 311

原创第九章爬虫基础总结

前八章是把爬虫的一些基础知识过了一边，但是内容也很有限。这些搞定了，应该自己玩玩应该够了，或者当个实习生也差不多。前八章的主要思路就是：先认知爬虫这门技术，了解作用流程（任何技术最开始都不需要深扣细节，先从宏观上进行把握）经典的http模拟请求库requests的一些了解爬虫常见的三种解析方式web端的自动化测试工具seleniumapp爬虫一个抓包工具fiddler一个app自动化测试工具airtest关于爬虫的进阶，建议可以把web多花点时间了解一下。以及http协议，了解的再深也不.

2020-05-28 09:42:41 263

原创第八章网易神器airtest：app版的selenium

简介想开发网页爬虫，发现被反爬了？想对 App 抓包，发现数据被加密了？不要担心，使用 Airtest 开发 App 爬虫，只要人眼能看到，你就能抓到，最快只需要2分钟，兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Windows Mobile……。Airtest是网易出品的一款基于图像识别和poco控件识别的一款UI自动化测试工具。Airtest的框架是网易团队自己开发的一个图像识别框架，这个框架的祖宗就是一种新颖的图形脚本语言Sikuli。Sikuli这个

2020-05-27 10:32:47 901

原创第七章抓包工具fiddler的使用：曲线救国

简介Fiddler是什么？1.一种Web调试工具。2.可以记录所有客户端和服务器的http和https请求。3.允许监视、设置断点、修改输入输出数据。官方文档：http://docs.telerik.com/fiddler/Configure-Fiddler/Tasks/ConfigureFiddlerFiddler的工作原理？Fiddler 是以代理web服务器的形式工作的，它使用代理地址:127.0.0.1，端口:8888。当Fiddler退出的时候它会自动注销，这样就不会影响别的程序。不

2020-05-26 16:23:06 217

原创第六章 selenium自动化测试工具：天下工具为我所用

简介Selenium是一个Web的自动化测试工具，类型像我们玩游戏用的按键精灵，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。Selenium 可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。但是被用歪了，现在一般作为破解反爬的一种手段，一般用于解决动态页面或者js加密的爬虫问题。（ps：只要有js参与页面动态生成元素的都叫动态页面）不然的话用Python 解决这个问题只有两种途径:1.直接从JavaScript 代码.

2020-05-26 16:02:58 630 1

原创第五章正则：通吃一切字符串处理

简介正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。安装内置引擎无需安装知识正则基础re模块处理字符串与系统内置str类型的函数的区别：re模块可以用规则表达式表示多个参数，同时处理，而且功能更强大str里边的一些函数只能一个个参数处理，比较繁琐，功能上没有re强大一般字符预定义字符.

2020-05-25 15:35:56 213

原创第四章 bs4与css选择器

简介BeautifulSoup 是一个HTML/XML的解析器，主要用于解析和提取HTML/XML 数据。它基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。BeautifulSoup用来解析HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持lxml 的XML解析器。官方文档：http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0抓取.

2020-05-25 11:19:33 810

原创第三章 lxml与xpath：体力活

环境Python 3.6.5Pycharm Professional 2017.1需要预备的知识第二章内容简介当你通过一些模拟请求手段，并且有幸突破了反爬，拿到了包含正确数据的请求结果，而且结果的格式是html，那么就该xpath上场了。xpath是一种路径表达式，利用一定的规则在xml/html中查找信息。lxml 是一个html/xml的解析器，主要的功能是解析和提取html/xml数据。lxml和正则一样，也是用C实现的，是一款高性能的python html/xml解析器，可以利用x.

2020-05-22 17:44:08 261

原创第二章 Requests库的使用：变相的cc攻击

环境Python 3.6.5Pycharm Professional 2017.1需要预备的知识python基础语法了解基础的web网页结构知识了解http协议熟悉浏览器开发者工具使用爬虫所需的基础的web网页结构，http协议、开发者工具使用我会在其他文章中补上简介Requests 是一个模拟请求的python工具库。用于爬虫三部曲的第一步。Requests Python编写，基于urllib，自称HTTP for Humans（让HTTP服务人类）。关于urllib的内容，可以参.

2020-05-20 11:42:58 354

原创第一章爬虫认知

一前言学习目标，是希望你能掌握如下一些可以写在简历上的技能。熟练使用Python语言掌握网络数据采集技术，熟练使用爬虫工具urllib、requests、xpath、beautifulsoup、re、selenium、aiohttp、scrapy以及scrapy-redis分布式爬虫框架等熟悉网页语言html及javascripts，掌握json格式数据处理方法，拥有一定反爬经验积累，理解并熟练掌握各种反爬技巧（UA，IP代理，模拟登录，动态页面，验证码等）了解手机app爬虫，掌握Fiddl.

2020-05-19 10:55:57 1172 4

原创 python入门的一些基础练习题

编写一个程序，查找在2000到3200之间所有可以被7整除但不是5的倍数的数字。所获得的数字应以逗号分隔的顺序打印在一行上。有1、2、3、4个数字，能组成多少个互不相同且无重复数字的三位数？都是多少？一个整数，它加上100后是一个完全平方数，再加上268又是一个完全平方数，请问该数是多少？输入某年某月某日，判断这一天是这一年的第几天？输入三个整数x,y,z，请把这三个数由小到大输出编写一个程序，该程序从控制台接受一个逗号分隔的数字序列，并生成一个列表和一个包含每个数字的元组..

2020-05-14 17:20:57 1195 1

原创一份可以找工作的爬虫学习大纲（进阶篇）

如何快速吃牢饭——加速隐约中有点印象，之前好像有一个公司员工，调高的线程数，加速爬数据，导致对方流量监控报警，然后就凉了。这一块其实已经和爬虫没啥太大关系了，是一些通用的技术。利用多进程，多线程和协程的手段，实现加速。这一块知识的理解，需要基于操作系统，可以提前复习一下，再学习此部分内容。关于加速需要学习的知识点：理解阻塞、非阻塞、同步、异步、并发、并行概念熟悉python队列的使用以及MQ的概念多进程、进程池和进程间通信多线程、线程封装、线程全局变量、线程互斥、守护线程以及join的用

2020-05-12 16:31:25 473

原创一份可以找工作的爬虫学习大纲（基础篇）

学习一项技术，首先要明确技术要解决什么问题，以及产生什么价值。爬虫是python老生常谈的一个方向。通过脚本自动获取互联网信息数据。然后让信息数据产生价值。无论是我们用的谷歌，百度这类搜索引擎，还是天眼查，返利网这类网站，或者那些让人头疼的抢票，秒杀脚本都是爬虫技术的体现。爬虫的本质就是要模拟人的操作，发起请求，获取正确的服务器返回的数据。所以网络这一块需要相对熟悉，尤其是http协议。在此基础上就可以正式开始脱发之旅。迈出吃牢饭的第一步：cc攻击由于爬虫的核心是发送模拟请求，其实就是基于TCP

2020-05-11 16:50:59 403 1

原创我是如何被逼出软件行业的（一）

软件行业的痛苦前段时间一部神奇的电视剧《精英律师》，剧中的律师业余程度令人发指，何谈精英一说。相比之下我更喜欢一部职场类日剧《半泽直树》，剧情我已经记不清楚了，但堺雅人扮演的男主角将职场精英的处境及煎熬演绎的淋漓尽致，让我产生了共鸣。现在想来，也许正是我做项目经理的那一段时间里的煎熬与剧中男主角很相近。职场最让人烦恼的是什么？和傻叉客户打交道！比和傻叉客户打交道还让人烦恼的是什么？和...

2020-05-08 16:34:36 2247

原创零基础如何开始学编程

先仔细思考一下你学编程的目的。因为靠这个家伙吃饭当程序员和凭借这个技能来提升当前自身的竞争力，需要的学习路线和难度是完全不一样的。我认为其实学编程是一个很大的目标或者很缥缈的一个概念，很有可能天天嘴上喊着要自学编程的人，其实完全没想好，要用编程来干什么事或发挥什么价值。编程本身只是一个技能或者一种工具，是要发挥价值的。没有目的的学编程，就是耍流氓。目的不同需要考虑的也不一样~业余编程和专业编...

2020-05-07 15:08:36 516

原创处理excel，选择vba还是python？

如果处理相对简单以及数据量不大，建议使用vba。如果考虑产品版本控制，数据量过大，数据统计和数据分析这些问题以及考虑到学习的性价比和技术的价值最大化但是由于vba的历史遗留问题和一些企业的限制安装软件，那还是老老实实的躺好，用vba解决问题。我们先看一下两者的学习大纲。vba：Python:有很多东西是相似的，语言基础全家桶【变量、数据类型、运算符、选择和循环语句、函数、模块】...

2020-05-06 16:44:15 19110 6

原创 python如何自学 python学习方向与路线

Python如何自学分情况讨论如果是985,211大佬或者搞过其他语言的（学过HTML的不算！），不需要学，一看就会。完全没接触过编程的话，那就是另外一回事了。自学的话，目的不一样难度等级也相差很大。如果你只是拿这个语言干点小工作或者小脚本，自娱自乐。（难度等级：简单）如果要靠这个吃饭，那就完全不一样了。（难度等级：困难）具体为什么，看下面就明白了。如果是第一种只是兴趣，自娱...

2020-04-27 10:39:34 848 4

weixin_47388144的博客