自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 算法进阶-提升

提升主要内容分析随机森林的特点由弱分类器得到强分类器样本加权、分类器加权Adaboost算法算法描述前向分步算法+指数损失函数由Adaboost/GBDT改造随机森林提升是一个机器学习概念,可以用于回归和分类问题,它每一步产生一个弱预测模型(如决策树),并加权累计到总模型中;如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升。梯度提升算法首先给定一个目标损失函数,它的定义域是所有可行的弱函数集合(基函数);提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部极

2021-06-12 16:42:26 135

原创 算法进阶-决策树2

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-06-08 16:44:49 317

原创 算法进阶-决策树

算法进阶复习信息熵,联合熵,条件熵,互信息决策树学习算法:信息增益ID3,C4.5,CARTBagging与随机森林CART:输入数据X:M个样本数据,每个数据包括年龄、性别、职业,每日使用计算时间等;输出数据:该样本是否喜欢计算机决策树:莺尾花决策树=特征选择结果条件熵H(x,y)-H(x),(x,y)发生所包含的熵,减去X单独发生包含的熵,在X发生的前提下,Y发生新带来的熵,该式子定义为X发生前提下,Y的熵:条件熵H(Y|X)决策树实例决策树定义:是一种树形结构,其中每

2021-06-01 12:05:00 129

原创 2021-04-13

回归实践AUC分类器指标

2021-04-13 13:15:19 72

原创 算法进阶

回归分类是指结果有限性的问题,预测一个离散的明确变量回归是值结果无限性的问题,预测一个连续的未知变量使用极大似然估计解释最小二乘聊聊假设机器学习中的建模过程,往往充斥着假设,合理的假设是合理模型的必要前提假设具有三个性质:内涵性:假设往往是正确的,但不一定总是正确简化性:假设只是接近真实,往往需要做若干简化发散性:即是假设是明显不正确的,但是结果往往是堪用的高斯分布最大似然估计最小二乘法本质梯度下降算法(当特征维度很大的时候,使用梯度下降算法)特征选择

2021-04-11 11:33:30 70

原创 算法进阶

数据清洗庄家与赔率赔率的举例定义:张衡与张顺进行400米自由泳比赛,宋江开赌场坐庄,规定:张衡赢赔率为3,张顺赢赔率为2.假定不存在平局赌徒李逵为张衡下注10两。比赛结束后,若最终张衡赢,则宋江付赌徒李逵30两,赌本10两归庄家所有,即李逵赚20两;若张顺赢,赌本归庄家所有,李逵赔10两。假定张衡赢的概率为0.8,宋江给出的赔率为张衡1.25,张顺为5,则宋江的盈亏分析如下假定所有赌徒中,共有a元买张衡,b元买张顺,则开赛前宋江收入为a+b元开赛后的赔付期望为:E(y) = 0.81.25a

2021-04-09 15:45:03 82

原创 机器学习基础

逻辑回归逻辑回归是解决二分类问题的利器输入:ℎ(w)= w_0+w_1x_1+w_2x_2+…= w^Tx与线性回归原理相同,但由于是分类问题,损失函数不一样,只能通过梯度下降求解良/恶性乳腺癌肿瘤预测import pandas as pdimport numpy as npfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import classification_reportfrom sk

2021-04-07 21:08:37 69

原创 机器学习基础

决策树文章目录决策树决策树简介代码分析随机森林决策树简介决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法你如何去划分是否能得到贷款?ID3信息增益 最大的准则C4.5信息增益比 最大的准则CART回归树: 平方误差 最小分类树: 基尼系数 最小的准则 在sklearn中可以选择划分的原则决策树APIclass sklearn.tree.DecisionTreeClassifier(cr

2021-04-04 14:28:42 54

原创 机器学习基础

K近邻算法案例简介Facebook案例实战:预测一个人会在哪个地方签到,使用K近邻算法进行聚类预测。程序员的任务是返回最可能的位置的排名列表。训练和测试数据集是根据时间划分的,测试数据中的公共/私人排行榜是随机划分的。 此数据集中没有人的概念。 所有row_id都是事件,而不是人数据特征:row_id: id of the check-in event 标记事件的idx y: coordinates 用户的位置accuracy: location accuracy 定位准确性time: ti

2021-04-03 21:53:45 68

原创 机器学习基础

数据降维1、特征选择是什么特征选择就是单纯的从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。主要方法(三大武器):filter(过滤式):variance threhold;embedded(嵌入式):正则化、决策树;wrapper(包裹式)2、sklearn特征选择APIsklearn.feature_selection.VarianceThresholdvariance thre

2021-04-02 17:53:03 53

原创 机器学习基础

机器学习算法基础文章目录机器学习算法基础机器学习概述数据来源与类型数据的特征工程1 特征工程是什么2 特征工程的意义3 scikit-learn库介绍4 数据的特征抽取5 数据的特征处理6 数据的特征选择7 降维机器学习概述1、什么是机器学习机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测2、为什么需要机器学习解放生产力,解决专业问题,提供社会便利3、机器学习的应用场景计算机视觉、自然语言处理、数据挖掘数据来源与类型1、数据来源企业日益积累的大量数据(互联网公司

2021-04-01 21:31:23 50

原创 机器学习导论

一 大数据时代究竟改变了什么?从三个方面改变了我们的思维方式1 数据的重要性数据资源---------数据资产(数据出现增值)2 方法论基于知识理论的完美主义---------基于数据的历史经验主义翻译:你好吗* 基于知识翻译:-----借助语言学家* 你 you* 好 good* 吗 do* are you good?* are you well?* how are you?* 基于数据的翻译:* are you good?* are you well?* how ar

2021-03-30 14:04:09 66

原创 MySQL学习-第二节

AUTO_INCREMENT注意自增长必须和主键配合使用,顺序可以颠倒自增加=113使用null和default也可以实现自增长指定自增长起始值100NOT NULL关键字主键默认not null,not null修饰的键不给值插入失败测试默认值唯一性约束除了null值,其余值不可以重复唯一值继续插入报错修改表结构修改表名字添加字段添加字段到第一行添加字段到指定位置一次添加3个字段删除字段一次删除多个字段添加和删除同时完成修改字段

2021-03-26 22:29:56 44

原创 mysql学习

MySQL简介关系型数据库,数据库管理系统优点1、实现数据持久化2、使用完整的管理系统统一管理,易于查询3、 成本低:开放源代码,一般可以免费试用4、性能高:执行很快5、简单:很容易安装和使用SQL的优点:1、不是某个特定数据库供应商专有的语言,几乎所有DBMS都支持SQL;2、简单易学;3、虽然简单,但实际上是一种强有力的语言,灵活使用其语言元素,可以进行非常复杂和高级的数据库操作。数据库语言的分类:1、DML(Data Manipulation Language):数据操纵语句

2021-03-25 16:56:53 88

原创 python数据分析-第六节

pandas之时间序列文章目录pandas之时间序列911案例不同类型的统计不同月份的统计不同月份中不同类型的统计PM2.5案例不管在什么行业,时间序列都是一种非常重要的数据形式,很多统计数据以及数据的规律也都和时间序列有着非常重要的联系而且在pandas中处理时间序列是非常简单的911案例不同类型的统计"""现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数,如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况,应该怎

2021-03-22 17:33:37 81

原创 python数据分析-第五节

pandas文章目录pandaspandas之字符串离散化的案例pandas之数据合并joinpandas之数据聚合pandas之索引和复合索引pandas之字符串离散化的案例对于这一组电影数据,如果我们想rating,runtime的分布情况,应该如何呈现数据?对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?思路:重新构造一个全为0的数组,列名为分类,如果某一条数据中分类出现过,就让0变为1"""对于这一组电影数据,如果我们希望统计电影分类的情况,应该

2021-03-22 10:37:26 72

原创 python数据分析-第四节

Pandas文章目录Pandas为什么要学习pandas?pandas的常用数据类型pandas之Series创建,索引,切片pandas之读取外部数据pandas之DataFramepandas之取行或者列pandas之布尔索引pandas之字符串方法pandas之导演平均分等等pandas之rating和runtime的直方分布图我们并不是不愿意学习新的知识,只是在学习之前我们更新知道学习他们能够帮助我们解决什么问题为什么要学习pandas?我们已经学了numpy和matplotlib,能够互相

2021-03-21 16:38:33 79

原创 python数据分析-第三节

numpy学习为什么要学习numpy1、快速2、方便3、科学计算的基础库1、什么是numpy一个在python中做科学计算的基础库,重在数值计算,也是大部分python科学计算库的基础库,多用于在大型、多维数组上执行数值运算2、numpy基础import numpy as npimport random# 使用numpy生成数组,得到ndarray的类型# t1 = np.array([1,2,3])# print(t1)# print(type(t1))## t2 = np.

2021-03-21 06:59:59 229

原创 GIt学习

Git&GitHub简介Git是目前世界上最先进的分布式版本控制系统林纳斯参考bitkeeper自己做了一个git!成为领域领军软件!版本管理系统能干什么1、协调开发(最重要的一点):多人开发同一段代码2、冲突解决:3、版本记录:4、代码备份5、历史追查6、版本还原7、权限管理8、代码审查以往的集中管理型版本管理经典的集中管理型(CVS、VSS、SVN)特点:实现了大部分开发中对版本管理的需求。结构简单,上手容易。1、版本管理的服务器一旦崩溃,硬盘损坏,代码如何

2021-03-20 12:03:39 50

原创 python数据分析

数据分析-第二节文章目录数据分析-第二节绘制散点图例题描述代码实现散点图绘图结果散点图的应用场景绘制条形图例题描述代码实现条形图绘图结果绘制横向条形图绘制多条形图练习题绘制直方图例题描述代码实现绘制直方图结果展示绘制直方图例题matplotlib常见问题总结绘制散点图例题描述假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间(天)变化的某种规律?a = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,

2021-03-19 16:42:18 120

原创 python数据分析

数据分析-第一节文章目录数据分析-第一节数据分析概览第一部分 综述1、为什么要学习数据分析2、什么是数据分析3、环境安装4、认识jupyter notebook第二部分 matplotlib1、什么是matplotlib2、matplotlib基本要点练习题数据分析概览第一部分 综述1、为什么要学习数据分析我们通过对数据的统计、处理和分析,能够挖掘出数据背后的潜在信息,从而使我们能够快速把握本质,进行科学客观准确的决策。数据分析在现实中拥有众多的岗位需求,同时我们要学习的三个科学库,是pytho

2021-03-18 17:16:15 146 1

原创 数据结构python-第八节

数据结构第八节-树文章目录数据结构第八节-树树树的简介树的术语树的种类树的存储与表示二叉树二叉树的基本概念二叉树的遍历二叉树的广度优先遍历二叉树的深度优先遍历遍历代码实现树树的简介树是一种抽象数据类型或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。它是由n个有限节点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一课倒挂的树,也就是说它是根朝上,而叶朝下的。它具有以下的特点:每个节点有零点或多个子节点没有父节点的节点称为根节点每一个非根节点有且只有一个父节点除

2021-03-17 09:38:28 49

原创 数据结构python-第七节

数据结构第七节文章目录数据结构第七节归并排序归并排序原理归并排序代码实现排序算法时间复杂度总结二分查找二分查找原理二分查找代码实现二分查找时间复杂度分析归并排序归并排序原理归并排序是采用分治法的一个非常典型的应用。归并排序的思想就是先递归分解数组,再合并数组将数组分解最小之后,然后合并两个有序数组,基本思想是比较两个数组的最前面的数,谁小就先取谁,取了后相应的指针就往后移一位。然后再比较,直至一个数组为空,最后把另一个数组的剩余部分复制过来即可。对列表进行不断的分组,最后是两个一组,对划分的每个

2021-03-16 17:34:41 112 2

原创 数据结构python-第六节

数据结构python-第六节文章目录数据结构python-第六节希尔排序希尔排序原理希尔排序举例希尔排序代码实现快速排序快速排序原理快速排序代码实现希尔排序希尔排序原理希尔排序shell sort是插入排序的一种,也称缩小增量排序,是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。希尔排序是把记录按下标的一定增量分组,对每组使用直接插入排序算法排序:随着增量逐渐减少,每组增量逐渐减少,每组包含的关键词越来越多,当增量减至1时,整个文件恰被分为一组,算法便终止。基本思想是:将数组列

2021-03-16 13:30:35 43

原创 数据结构python-第五节

数据结构算法python-第五节文章目录数据结构算法python-第五节一 栈原理及实现二 队列原理及实现双端队列原理及实现三 排序算法1 排序算法及其稳定性2 冒泡排序冒泡排序算法原理冒泡排序算法实现3 选择排序选择排序实现4 插入排序及其实现一 栈原理及实现栈(stack),有些地方称为堆栈,是一种容器,可存入数据元素、访问元素、删除元素,它的特点在于只能允许在容器的一端(称为栈顶端指标,英语:top)进行加入数据(push)和输出数据(pop)的运算。没有了位置概念,保证任何时候可以访问、删除

2021-03-15 13:29:27 70

原创 数据结构python-第四节

数据结构与算法python-第四节文章目录数据结构与算法python-第四节单向循环链表定义操作单向循环列表的实现单向循环链表定义单链表的一个变形是单向循环链表,链表中最后一个节点的next域不再为None,而是指向链表的头节点操作is_empty() 判断链表是否为空length() 链表长度travel() 遍历链表add(item) 头部添加链表append(item) 尾部添加链表insert(pos,elem) 指定位置插入链表remove(item) 删除元素sea

2021-03-14 17:51:57 45

原创 数据结构python-第三节

数据结构与算法python-第三节-链表文章目录数据结构与算法python-第三节-链表一 链表和顺序表的区别在哪儿呢?为什么需要链表?链表的定义链表的原理二 单向链表单链表的常规操作链表的实现单链表的实现及测试单链表与顺序表的对比一 链表和顺序表的区别在哪儿呢?同样的,我们还是要存储一组数据。而且存储空间不够的时候,需动态的改变数据区。当我们存储的是离散的数据,我们该使用什么样的数据结构进行串联存储呢?为什么需要链表?顺序表的构建需要预选知道数据大小来申请连续的存储空间,而在进行扩充时,又需要进

2021-03-14 11:21:57 58

原创 数据结构python-第二节

数据结构算法Python-第二节文章目录数据结构算法Python-第二节一 基本顺序表与元素外围顺序表二 顺序表的结构与实现顺序表的结构元素存储区替换元素存储区扩充关于增加元素的实现三 python中的顺序表实现list的基本实现技术一 基本顺序表与元素外围顺序表在学习数据类型的时候,老师教你整型存整型,字符串存字符串,但是它们在内存中到底是怎么存储的呢?我们告诉计算机,内存中存了一个整数100。查找100,内存以字节进行索引与存储,那么内存到底是什么样的呢?例如 int a = 1,整型转换为二进

2021-03-13 14:17:15 35

原创 数据结构python-第一节

数据结构算法——pythonwhy:为什么要学习数据结构与算法算法概念:什么是算法?英文:algorithm,一个计算过程,解决问题的办法。程序=数据结构+算法算法是计算机处理信息的本质,因为计算机程序本质上是一个算法来告诉我计算机确切的步骤来执行一个指定的任务。一般地,当算法在处理信息时,会从输入设备或数据的存储地址读取数据,把结果写入输出设备或某个存储地址供以后再调用。算法是独立存在的一种解决问题的方法和思想对于算法而言,实现的语言并不重要,重要的是思想。算法可以有不同的语言描述实现版本(如

2021-03-12 16:15:08 69

原创 2021-03-05

python-模块和包1、模块化程序设计理念1.1模块和包概念的进化史量变引起质变是哲学中的一个重要的理论。量变为什么会引起质变?本质上理解,随着数量的增加,管理方式会发生本质的变化;旧的管理方式完全不适合,必须采取新的管理方式。程序越来越复杂,语句多了,怎么管理?很自然的,我们会将实现同一个功能的语句封装到函数中,统一管理和调用,于是函数诞生了。程序更加复杂,函数和变量多了,怎么管理?同样的思路,物以类聚,我们将同一类型对象的数据和行为,也就是变量和函数,放到一起统一管理和调用,于是类和对象诞生

2021-03-05 17:53:55 54

原创 2021-03-05

python-异常机制在实际工作中,我们遇到的情况不可能是非常完美的。比如:你写的某个模块,用户输入不符合要求;你的程序要打开某个文件,而这个文件不存在或者格式不对;你要读取数据库的数据,数据可能是空的;我们的程序一直在运行,但是内存或者磁盘闷了等等。我们称以上遇到的问题为异常:Exception。即为例外,异常,我们要做的就是让程序面对以上问题做出合理的处理,不至于程序崩溃。异常机制本质所谓异常处理,就是指程序出现问题时依然可以正确的执行剩余的程序,而不会因为异常而终止程序执行。如何解决异常,要

2021-03-05 17:35:38 77

原创 2021-03-05

python-第八节-面向对象进阶Python中方法没有重载其他语言中,可以定义多个重名的方法,只要保证方法签名唯一即可。方法签名包含3个部分:方法名、参数数量、参数类型也就是说以上三个部分的异同决定方法的异同,调用方法时通过传参的类型和数量等去调用对应的方法在python中,方法的参数没有类型(调用时确定参数的类型),参数的数量也可以由可变参数控制。因此,python中是没有方法的重载的。定义一个方法即可有多种调用方式,相当于实现了重载的功能。如果我们在类中定义了多个重名的方法,只有最后一个方法有

2021-03-05 17:15:41 376

原创 2021-03-05

python-第七节-面向对象简介:Python 完全采用了面向对象的思想,是真正面向对象的编程语言,完全支持面向 对象的基本功能,例如:继承、多态、封装等。 Python 中,一切皆对象。我们在前面学习的数据类型、函数等,都是对象。面向对象和面向过程区别面向过程思维面向过程编程更加关注的是“程序的逻辑流程”,是一种“执行者”思维,适合编写小 规模的程序。 面向过程思想思考问题时,我们首先思考“怎么按步骤实现?”并将步骤对应成方法, 一步一步,最终完成。 这个适合简单任务,不需要过多协作的情况下。

2021-03-05 17:07:01 66

原创 2021-03-04

python-第六节-函数函数的基本概念1、一个程序由一个个任务组成,函数就是代表一个任务或者一个功能2、函数就是代码复用的通用机制python中函数的分类1、内置函数str list len2、标准库函数import3、第三方库函数开源社区的库4、用户自定义函数用户自定义...

2021-03-05 12:16:07 213 2

原创 2021-03-03

python-第五节-序列2字典简介字典是键值对的无序可变序列,字典的每个元素都是一个键值对,包含“键对象”和“值对象”。可以通过键对象实现快速获取、删除、更新对应的值对象。列表中我们通过下标数字找到对应的对象。字典中通过键对象找到对应的值对象。键是任意的不可变数据,不如整数、浮点数、字符串、元组。但是列表、字典、集合这些可变对象,不能作为键。并且键不可重复。值可以是任意的数据,并且可重复一个典型的字典的定义方式:a={“name”:“zzh”,“age”:18,“job”:“工程师”}字典的创

2021-03-04 13:14:36 436

原创 2021-03-02

python-第四节-序列序列是一种数据存储方式,用来存储一系列的数据。在内存中,序列就是一块用来存放多个值的连续的内存空间。比如一个整数序列【10,20,30,40】,可以这样示意表示:由于python3中一切皆对象,在内存中实际是按照如下方式存储的:a=【10,20,30,40】从图示中,我们可以看出序列中存储的是整数对象的地址,而不是整数对象的值。python中常用的序列结构有:字符串、列表、元组、字典、集合我们上一章学习的字符串就是一种序列。关于字符串里面很多操作,在这一章中仍然会用到

2021-03-03 14:04:18 112

原创 2021-03-01

python-第三节-字符串字符串基本特点在实际工作中,我们最常和字符串打交道,逻辑思维重要性远大于数学能力字符串的本质是:字符序列。python的字符串是不可变的,我们无法对原字符串做任何修改,但是可以将字符串的一部分复制到新创建的字符串。达到看起来修改的结果字符串的编码python3直接支持unicode,可以表示世界上任何书面语言的字符。python3的字符默认就是16位Unicode编码,ASCII码是Unicode的子集。使用内置函数 ord() 将字符转换为对应的数字,使用chr()

2021-03-01 22:03:16 85 1

原创 2021-02-27

python-第二节-编程基础python程序的构成1、python程序由模块组成,一个模块对应python源文件,一般后缀为.py2、模块由语句组成。运行python程序时,按照模块中语句的顺序依次执行3、语句是python程序的构造单元,用于创建对象、变量赋值、调用函数、控制语句等等python文件的创建和执行为了编写多条语句实现复杂的逻辑...

2021-03-01 13:27:36 91 1

原创 2021-02-26

Python-第一节-入门作业1:建立python环境,并完成第一个python。将整个过程使用图文描述(1)打开idle,建立python文件,保存为mypy01.py,输入需要运行的代码(2)保存并运行,点击run或者快捷键F5注意点:(1)不要在代码前面随意添加空格,在python中,空格代表缩进,python对缩进有着严格的规定,制表符=4空格(2)在英文输入法下进行代码的输入程序基本格式:1、恰当的空格,缩进问题(1)逻辑行首的空白用来决定逻辑行的缩进层次,从而用来决定语句的

2021-02-27 09:46:56 66

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除