自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 frida TimedOutErro

frida使用时的报错信息

2024-03-01 00:55:13 1412 1

原创 分布式搭建

概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取。作用:提升爬取数据的效率如何实现分布式?- 安装一个scrapy-redis组件- 原生的scrapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布式- 为什么原生的scrapy不可以实现分布式? - 调度器不可以被分布式机群共享 - 管道不可以被分布式机群共享- scrapy-redis组件作用: - 可以给原生的scrapy框架提供可以被共享的管道和调度器 -

2020-09-16 15:12:37 355 2

原创 xpath中的基本操作

去掉空格res = html.xpath("normalize-space(//...)")res = html.xpath("//...").strip() # strip() 中可添加想去掉的字段用于循环res=html.xpath((string(//li[{}]/div[2]/div/div[2]/ul/li[1]/a/img/@alt))".format(i))

2020-07-29 17:54:44 194

原创 爬虫面试题02

爬虫爬取数据的流程?明确数据采集需求;分析要采集数据的url和相关参数;编码实现功能,获取url,对url进行筛选,找到自己想要的部分,入库,对数据去重;注意反爬虫的规则:1.验证码的识别;2.使用代理;3.httpclient头信息。如何抓取动态页面?动态网页指几种可能:1)需要用户交互,如常见的登录操作;2)网页通过JS / AJAX动态生成,如一个h...

2019-02-27 11:55:03 396

原创 面试题第六天

简述HTTP答:tcp应用值http传输httpxieyi -->超文本传输协议 应用层协议用途:网页的获取,基于网站的数据传输基于http协议的数据传输特点:1. 一个应用层协议,传输层使用tcp传输2. 简单灵活,和多种语言对接方便3. 无状态协议,不记录用户的通信内容4. 成熟稳定http工作模式:使用http双方均遵循http协议规定发送接收消息体。请求方...

2019-02-25 14:44:26 146

原创 面试题第五天

单元测试,单例模式单元测试,是指对软件中的最小可测单元进行检查和验证。对于单元测试中单元的含义,一般来说,要根据具体情况去判定其含义。单元就是人为规定的最小的被测功能单元,单元测试是在软件开发过程中要进行的最低级别的测试活动,软件的独立单元将在与程序的其他部分相隔离的情况下进行测试。单例模式,是一种常用的软件设计模式。在她都核心结构中只包含一个被称为单例的特殊类,通过单利模式可以保证系统中应...

2019-02-21 15:41:17 145

原创 面试题第四天

单引号,双引号,三引号的区别单引号里可以包含双引号和转义字符,但不能包含单引号。双引号里可以包含单引号和转义字符,但不能包含双引号。三引号里可以包含单引号和双引号,另外还有换行,注释功能。Python的参数传递是值传递还是引用传递?python中的一切事物皆为对象,并且规定参数的传递都是对象的引用什么是lambda函数?它有什么好处?概念:lambda函数是一个可以接收任...

2019-02-21 11:14:07 108

原创 面试题第三天

写个单例,什么是单例,单例怎么实现,怎么理解单例?最简单的单例就是一个模块: class foo(object): def fin(self): pass A = foo()答:单例模式是一种常用的网络设计模式,该模式的主要目的是确保某一个列只有一个实力纯在,当你希望在整个系统中,某个类只出现一个实例时,单例对象就能派上用场。把你的单例代码保存在一个py文件中,要使用时,直接在文本...

2019-02-21 10:48:27 118

原创 python爬虫面试宝典(常见问题)

是否了解线程的同步和异步?线程同步:多个线程同时访问同一资源,等待资源访问结束,浪费时间,效率低线程异步:在访问资源时在空闲等待时同时访问其他资源,实现多线程机制是否了解网络的同步和异步?同步:提交请求->等待服务器处理->处理完毕返回 这个期间客户端浏览器不能干任何事异步: 请求通过事件触发->服务器处理(这是浏览器仍然可以作其他事情)->处理完毕...

2019-02-19 14:12:33 1438

原创 数据分析day02

数据分析DAY02matplotlib概述matplotlib是python的一个绘图库。使用它可以很方便的绘制出版质量级别的图形。matplotlib的基本功能基本绘图设置线型、线宽、颜色设置坐标轴范围及刻度设置坐标轴属性图例绘制特殊点备注高级图形绘制绘制子图刻度定位器、刻度网格线半对数坐标散点图填充图条形图、饼状图等高线图热成像图极坐标系三维...

2019-02-19 09:19:24 166

原创 爬虫面试题

对if name == 'main’的理解陈述name__是当前模块名,当模块被直接运行时模块名为__main,也就是当前的模块,当模块被导入时,模块名就不是__main__,即代码将不会执行。python是如何进行内存管理的?对象的引用计数机制python内部使用引用计数,来保持追踪内存中的对象,Python内部记录了对象有多少个引用,即引用计数,当对象被创建时就创建了一个引用...

2019-02-18 20:08:48 192

原创 面试题第二天

1 下面哪个语句在python中是非法的?(B)A x = y = z =1 B x=(y=z+1)C x,y = y,z D x *=y2 关于python的内存管理,下列语法错误的是:(D)A 变量不必事先声明 B 变量无须先创建和赋值而直接使用C 变量无须指定类型 D 可以使用del释放资源3 下面哪个不是Python合法的标识符 BA...

2019-02-18 19:30:00 269 1

原创 面试题第一天

单双引号的区别答:1) 单引号跟双引号的普通用法是相同的,str1 = ‘abc’ str2 = “abc”2) 单引号跟双引号的主要区别体现在当单引号抱起来的字符串含有双引号是,不需要使用转义字符,同样,在双引号抱起来的字符串含有单引号时,不需要使用转义字符3) 三引号:核心用法体现在跨行的字符串上,python中没有多行注释,一般使用三引号。如何在一个function中设置一...

2019-02-18 19:20:37 151

原创 数据分析day01

1.什么是数据分析?数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用的信息形成结论而对结论加以详细研究、概括、总结的过程。使用python做数据分析的常用库numpy 基础数值算法scipy 科学计算matplotlib 数据可视化pandas 序列高级函数2.numpy概述Numerical ...

2019-02-13 18:23:22 179

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除