- 博客(25)
- 收藏
- 关注
原创 PCA
目录主成分分析原理:PCA的算法推导PCA的算法步骤:sklearn主成分分析原理:是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。• 主成分分析(Principal Component Analysis,PCA),将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。• 主成分分析是设法将原...
2019-04-06 00:40:11 1033 1
原创 集成学习
目录定义集成学习方法的一般过程描述基础集成技术集成学习方法BaggingBagging算法流程BoostingStackingBlending优点:缺点:随机森林算法步骤:影响随机森林分类性能的主要因素:随机森林优缺点:AdaBoostGBDTGBDT算法原理gbdt+lrXGBoost定义集成学习,顾名...
2019-04-06 00:01:20 2061
原创 朴素贝叶斯
目录条件概率乘法定理乘法定理的推广全概率公式贝叶斯定理先验概率与后验概率贝叶斯分类方法朴素贝叶斯分类条件概率若是全集,A、B是其中的事件(子集),P表示事件发生的概率,则为事件B发生后A发生的概率乘法定理乘法定理的推广全概率公式说明 全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概...
2019-04-04 16:50:14 309
原创 SVM
目录分类分析什么是SVMSVM特点决策面方程分类间隔方程约束条件线性SVM优化拉格朗日函数KKT条件非线性分类核函数sklearn分类分析概念: 通过构造一个分类函数或分类器的方法,能把数据库中的数据项映射到给定类别中的某一个,从而可以用于预测未知数据。数据: 线性可分 线性不可分什么是SVM全名:Su...
2019-04-04 16:14:45 501
原创 聚类
目录目录聚类聚类分析概述1.聚类分析的定义2.聚类分析在数据挖掘中的作用:3.常用的聚类分析方法:相似性计算方法连续型属性的相似性计算方法二值离散型属性的相似性计算方法多值离散型属性的相似性计算方法混合类型属性的相似性计算方法k-means算法k-medoids算法AGNES (Agglomerative Nesting)算法(合并聚类)...
2019-04-01 22:53:24 5064
原创 决策树
目录Hunt算法:ID3算法信息熵 (Entropy)数据集的信息熵使用熵衡量数据纯度按照条件进行划分的信息熵信息增益C4.5算法改进1:信息增益的问题改进2:连续值属性与分裂点改进3: C4.5中缺失值的处理改进4:学习过程中的过度拟合决策树剪枝从决策树导出产生式规则CART决策树分类树---GINI值回归树---回归方差...
2019-04-01 22:26:54 2773
原创 逻辑回归
逻辑回归逻辑回归是一种分类算法统计学上的定义和计算公式逻辑回归分析定义:逻辑回归分析是对定性变量的回归分析。在前面学到的回归模型中,我们处理的因变量都是数值型区间变量(负无穷到正无穷),建立的模型描述的是因变量的期望与自变量之间的线性关系。线性回归模型:然而,在许多实际问题中,我们需要研究的响应变量不是区间变量而是顺序变量或名义变量这样的属性变量。因为Y只能取0或...
2019-04-01 16:22:17 448
原创 线性回归
目录一元线性回归多元线性回归梯度下降算法梯度下降实现批量梯度下降BGD随机梯度下降SGD小批量梯度下降MBGD总结:sklearn 调用:回归是监督学习的一个重要问题,回归用于预测输入变量和输出变量之间的关系。回归模型是表示输入变量到输出变量之间映射的函数回归问题的学习等价于函数拟合:使用一条函数曲线使其很好的拟合已知函数且很好的预测未知数据回归问题...
2019-03-31 17:39:54 294
原创 KD树 球树
KD树 1.KD树建树采用的是从m个样本的n维特征中,分别计算n个特征的取值的方差,用方差最大的第k维特征 nk来作为根节点。选择特征 nk的取值的中位数 nkv对应的样本作为划分点,对于所有第k维特征的取值小于 nkv的样本,划入左子树,对于第k维特征的取值大于等于 nkv的样本,划入右子树,对于左子树和右子树,采用和刚才同样的办法来找方差最大的特征来做更节点,递归的生成KD树。 ...
2019-03-30 22:09:52 3453
原创 KNN
机器学习实战之KNNK最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表 优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高 使用数据范围:数据型和标称型算法三要素: k值的选取:较小的k值,训练误差会减小,容易发生过拟合 较大的k值,减少泛化误差,训练误差会增大 距离...
2019-03-30 21:17:51 493
翻译 tensorflow 手写数字识别 CNN
手写数字识别这次,我们使用CNN来实现手写数字识别。 CNN主要的层次:输入层 卷积层 激励层 池化层 全连接层CNN(Convolutional neural network),即卷积神经网络。卷积为理解为一个信号与另外一个信号进行叠加,产生新的信号的过程。在卷积神经网络中,可认为具有固定权重的滑动窗口与原窗口的数据进行对位相乘再相加的过程。 卷积的过程:http://cs2...
2019-03-28 23:11:47 253
翻译 tensorflow 手写数据识别
手写数字识别MNIST数据集(修改的国家标准与技术研究所——Modified National Institute of Standards and Technology),是一个大型的包含手写数字图片的数据集。该数据集由0-9手写数字图片组成,共10个类别。每张图片的大小为28 * 28。import tensorflow as tffrom tensorflow.examples....
2019-03-28 23:04:03 545
翻译 Tensorflow
TensorflowTensorflow简介TensorFlow™ 是一个开放源代码软件库,用于进行高性能数值计算。借助其灵活的架构,用户可以轻松地将计算工作部署到多种平台(CPU、GPU、TPU)和设备(桌面设备、服务器集群、移动设备、边缘设备等)。TensorFlow™ 最初是由 Google Brain 团队(隶属于 Google 的 AI 部门)中的研究人员和工程师开发的,可为机器...
2019-03-28 22:32:53 282
翻译 Facebook营销组合分类预测
背景信息在Facebook注册用户超过20亿人,每天会产生超过百亿条的消息、近10亿张新图片,借助大数据技术,Facebook可以跟踪用户网络行为、进行面部识别和标注、分析用户喜好等等,从而向广告客户的市场营销人员展示受众对于品牌、事件、活动和主题的反应。Facebook实际上已经成为一家大数据驱动的广告公司。为了展示其收集和挖掘大数据的能力,Facebook找伦敦创意机构Human Afte...
2019-03-28 16:51:52 781 4
原创 多层感知器
多层感知器目录多层感知器1.激活函数1.1激活函数概念1.2激活函数的作用1.3激活函数的特征1.4常见激活函数练习1.5学习步骤1.6人工神经网络学习过程1.6.1前向传播1.6.2计算误差1.6.3反向传播(BP/EBP)1.7权重的初始化在之前的课程中,我们了解到,感知器(指单层感知器)具有一定的局限——无法解决异或问题,即线...
2019-03-28 16:29:48 5659 1
原创 自适应线性神经元
自适应线性神经元目录自适应线性神经元1.1概念1.2自适应神经元&感知器1.3计算公式1.4程序实现1.5拟合1.1概念自适应线性神经网络(ADALINE——Adaptive Linear Neuron)是在感知器的基础上进行的一种改进。激活函数采用线性连续的函数来代替阶跃函数1.2自适应神经元&感知器激活函数:自适应神经元使用线性激...
2019-03-28 14:51:44 1402
原创 梯度下降
梯度下降目录梯度下降1.1概念1.2一维梯度下降1.3二维梯度下降1.1概念学习率控制大小通过梯度指引方向:当导函数>0时,则函数单调递增当导函数<0时,则函数单调递减当导函数==0时,极值点在右半部份,w向左移动,w变小在左半部份,w向右移动,w变大1.2一维梯度下降# 给定一个初始值(是什么不重要),然后根据梯度...
2019-03-28 12:46:01 212
原创 感知器
传统机器学习适合结构化数据深度学习适合处理非结构化数据(图像,音频,视频,文本)感知器目录感知器1.1算法公式:可以实现二分类任务1.2权重更新1.3更新原则1.4实现步骤1.5程序示例1.1算法公式:可以实现二分类任务z为净输入,是连续的值,通过激励函数转成离散的值1.2权重更新感知器是一个自学习算法,即可以根据输入的数据(样本),不断...
2019-03-28 11:13:47 1619
原创 数据结构与算法(1)
算法的五大特性输入: 算法具有0个或多个输入 输出: 算法至少有1个或多个输出 有穷性: 算法在有限的步骤之后会自动结束而不会无限循环,并且每一个步骤可以在可接受的时间内完成 确定性:算法中的每一步都有确定的含义,不会出现二义性 可行性:算法的每一步都是可行的,也就是说每一步都能够执行有限的次数完成算法效率衡量算法完成工作最少需要多少基本操作,即最优时间复杂度 算法完成工作最多...
2019-03-28 10:33:15 241
原创 机器学习(1)
机器学习机器学习主要是研究如何使计算机从给定的数据中学习规律,即从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对位置或无法观测的数据进行预测过拟合(overfitting):学习能力过强,以至于把训练样本所包含的不太一般的特性都学到了.欠拟合(underfitting):学习能太差,训练样本的一般性质尚未学好分类 回归(预测值是连续值) 聚类 关联交叉验证法将数据集D划分为...
2019-03-27 22:17:19 413
原创 python(4)
目录第十六章 数据结构16.1 数据结构16.1.1数组16.1.2链表16.1.3堆栈16.1.4队列16.1.5树16.1.6哈希表16.2算法16.2.1算法概述16.2.2时间复杂度16.2.3空间复杂度16.3查找16.3.1顺序查找16.3.2折半查找16.4排序16.4.1冒泡排序16.4.2选择排序1...
2019-03-26 23:02:21 617
原创 python(3)
目录第十一章 模块和包11.1模块介绍11.2模块的使用11.2.1导入模块11.2.2模块别名11.2.3隐藏模块数据11.2.4__name__11.3模块搜索路径11.4模块的缓存11.5包11.5.1包的概念11.5.2导入包11.5.3__init__.py11.5.4__all__11.6数学模块11.6.1math...
2019-03-26 22:44:14 651
原创 数据结构总结
一、常用的数据结构数据结构:相互之间存在一种,或者多种特定关系的数据元素的集合数据:能够输入计算机中,由计算机处理的元素结构:数据之间的关系例如:点状,线性,星形,树形1. 数组连续存储的数据结构,通过起始数组和偏移量来对其中每一个元素进行访问优势:随机访问性好,占用空间较小时间复杂度:O(1)线性存储:每个元素都有一个前驱元素和后续元素,连续存储插入和删除...
2019-03-24 21:58:32 71
原创 python(2)
目录第6章 数据类型(3)-列表和元组6.1列表6.1.1列表的运算6.1.2索引6.1.3切片6.1.4相关方法6.1.5列表的复制6.1.6列表推导式6.1.7列表的遍历6.1.8操作符6.2元组6.2.1定义与基本操作6.2.2相关方法6.2.3元组的意义6.3序列概念与分类6.4序列相关函数第七章 数据类型(4)-字典和...
2019-03-24 17:14:31 652
原创 python(1)
目录第一章 Python入门1.1Python介绍1.2Python开发环境1.3第一个Python程序1.4变量和常量1.5输出与输入1.6环境变量1.7注释1.8标识符1.9关键字第二章 数值类型2.1整数类型2.2布尔类型2.3浮点类型2.4复数类型2.5类型转换第三章 数据类型(1)-运算符3.1算术运算符3...
2019-03-24 14:42:19 885
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人