自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Python爬虫:反爬措施及应对措施-selenium+phantomjs

反爬策略1. 判断user-agent客户端标识来判断是否为爬虫解决办法:封装 user-agent 到请求头2. 通过访问频率来判断解决办法:设置等待时长,爬取时间间隔,可以使用强制等待。在用户高峰期爬取,冲散日志3. 封 IP解决办法:使用代理池4. 页面的内容无法直接获取,都是js 代码解决办法:selenium + phantomjs 的组...

2019-12-23 21:25:19 1834 2

原创 Python爬虫:xml-xpath-lxml模块

一、什么是xml?定义:可扩展性标记语言特点:xml是具有自描述结构的半结构化数据作用:xml 主要设计宗旨是用来传输数据的,他还可以作为配置文件。二、xml和html的区别1. 语法要求不同html 不区分大小写,xml 区分,xml的语法要求更严格html有时可以省去尾标签,xml 不能省略任何标签,严格按照嵌套首位结构只有xml中有自闭标签(没有内容的标签,只有属性...

2019-12-23 20:14:46 276

原创 Python爬虫:正则表达式

数据的分类1. 结构化数据特点:数据以行为单位,每一个数据表示一个实体,每一行数据的属性都是一样的举例:关系型数据库中的表就是结构化数据处理方法:sql2. 半结构化数据特点:结构化数据的另一种形式,并不符合关系型数据的特点,不能用关系型模型来描述,但是这种数据包含相关标记,有用来分割语义元素以及字段进行分层的描述。因此也被称为自描述结构。举例:xml,html,json处理...

2019-12-19 22:56:56 225

原创 Python爬虫:requests模块-案例练习

使用步骤导包import requests确定基础URLbase_url = 'https://www.baidu.com'发送请求,获取响应response = requests.get(base_url)**处理响应内容get请求参数,方法参数 requests.get( url = 请求url headers = 请求头字典 para...

2019-12-18 22:05:34 1286

原创 Python爬虫:认识爬虫

一、爬虫的定义定义:程序或者脚本,自动爬取万维网的数据的程序或者脚本二、爬虫可以解决的问题解决冷启动的问题搜索引擎的根基,(通用爬虫)帮助机器学习建立知识图谱制作各种比价软件三、爬虫工程师初级爬虫工程师web前端的知识:HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、jQuery、json 等;正则表达式, 能提取正常一般网页中想要的信息,比...

2019-12-17 20:36:51 316

原创 Django知识点:类视图-restful-动静分离

类视图视图:是一个接收请求,处理请求,返回响应的一个可被调用的对象,视图有函数视图,也要类视图函数视图:以函数的形式定义视图,代码的可读性比较差,代码复用性差,如果需要处理多种请求(get,post,put等)的时候,需要加多个if 或者写多个视图。类视图:以类定义的视图,请求方式:get,post,delete,put,类视图分别定义方法处理不同的请求。类视图的定义from djang...

2019-12-11 14:51:21 283

原创 Django知识点:Ajax-Vue

ajax 的使用Ajax简介:异步的 js 和 xml 普通请求:携带整个页面进行提交,提交成功或者失败之后要重新加载页面。如果页面中有大量的静态资源,体验不好,耗时。同时可能阻塞整个服务,用户体验差,请求的内容和响应的内容冗余。 ajax 使用js 的语法编写,但是原生 js 的 ajax 很复杂,因为各种浏览器对 ajax 对象的兼容不同,如果想使用 js 的 ajax,首先需要兼容各种...

2019-12-10 21:30:36 262

原创 Django知识点:会话机制-cookie和session

背景介绍http请求是一个无状态的,无法记录用户身份的。我们需要一个记录用户身份的机制,最早出现的就是cookiecookie什么是cookiecookie是由服务器下发到用户,保存在用户的浏览器上面的,用来标识或者记录用户身份的机制。也是django的一种会话机制优点会话机制,从根本上解决了用户持续访问的问题缺点cookie 保存在浏览器上面,不安全,cookie 容易被修...

2019-12-09 20:51:45 187

原创 Django知识点:请求-form表单类

认识Http请求django中的request,request是视图中的参数,是一个包含请求信息的请求对象。请求分为四部分请求地址:url请求方式:get,post,put,delete请求头:包含客户端的环境信息,比如身份信息请求体:请求正文,包含请求提交的字段值响应分为三部分:响应状态码:200,404响应头响应体请求方式get- 请求服务器的资源,获取服务...

2019-12-09 19:14:26 306

原创 Django知识点:ORM操作

单表操作已有数据模型class User(models.Model): # id = models.AutoField(primary_key=True) # 主键 name = models.CharField(max_length=32, verbose_name="姓名") # 名字,字符串 age = models.IntegerField(verbose...

2019-12-02 21:39:15 386

原创 Django知识点:模型-ORM配置-站点管理

模型MVT中的Modeldjango 鼓励开发人员使用模块开发,这种开发模式在工作中被称为:解耦合。指在开发过程中将项目看成几个独立的模块进行开发,降低模块之间的耦合性,关联性。ORM的使用1. ORM框架:对象关系映射作用:是一个用来操作数据的框架开发人员只需要关注业务逻辑的开发,不需要关心sql语句的编写,降低代码之间的耦合性提高开发效率,方便后期管理和维护2. 配置dj...

2019-12-02 21:08:09 155

原创 Django知识点:子应用

背景介绍在django 开发中,一个项目中有很多的模块,为了更好的管理,我们使用app 进行数据库的开发。子应用可以将各自的模块区分开,将各自模块的视图,路由,静态文件,模板独立管理子应用1. 创建子应用在工程目录下进入DOC 窗口创建子应用:需要先激活虚拟环境:activate DjangoPath创建子应用:python manage.py startapp appname...

2019-12-02 20:12:19 269

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除