- 博客(10)
- 收藏
- 关注
原创 【无约束最优化】梯度下降法、牛顿法
无约束最优化无约束优化问题是是机器学习中最普遍、最简单的优化问题。最小值时 x∗=minxf(x),x∈Rn,f(x)为多维的x^*=min_xf(x),x∈R^n,f(x)为多维的x∗=minxf(x),x∈Rn,f(x)为多维的。梯度下降(GD)运用:在MLE、MAP里求最大值、最小值的点。由于很多情况下f(w)f(w)f(w)无法求导,就引入了梯度下降。梯度:本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变
2021-09-26 22:40:12 336
原创 决策树的构建算法
决策树的构建算法决策树算法用到的是,纯度的另一面不纯度。ID3是基本算法,后两种都是在ID3的基础上优化后的算法。ID3算法使用信息增益作为不纯度。即用信息增益来判断当前的节点用什么样的特征来构建决策树。信息增益越大,不确定性的减少程度越大,越适合用来构建决策树。信息增益也称作互信息,也就是下图的阴影部分。是用来衡量在已知Y的情况下X不确定性的减少程度or在已知X的情况下Y不确定性的减少程度。也就是表示X事件和Y事件的共同信息。具有对称性。表示为:I(X,Y)=H(X)−H(X∣Y)I
2021-08-31 22:11:32 436
原创 【算法】决策树
决策树定义&概念决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。采用自上向下的递归方法,基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处熵值为0。决策树思想,实际上就是寻找最纯净的划分的方法。重要概念根节点、内部节点、叶节点根节点:就是树的最顶端,最开始的那个节点。内部节点:就是树中间的那些节点。叶节点:树最底部的节点,也就是决策结果父节点和子节点是一对,先有父节点,才会有子节点。纯度
2021-08-31 21:59:55 253
原创 频率派机器学习——线性回归
频率派机器学习——线性回归线性回归的基本模型f(w,b)=wTx+bf(w,b)=w^Tx+bf(w,b)=wTx+b,线性回归有三要数:线性属性线性打破→\underrightarrow{打破}打破 即将属性改为非线性,即存在xix^ixi (i>1)(i>1)(i>1)。则为特征转换(多项式回归)全局线性打破→\underrightarrow{打破}打破 即将全局线性改为非线性。例如神经网络中的激活函数,使其输出为非线性,则为线性分类系数线性打
2021-08-28 02:02:10 214
原创 【算法】线性分类
线性分类线性分类就是对线性回归的输出增加了一个激活函数。线性回归 激活函数→\underrightarrow{激活函数}激活函数 线性分类硬分类{0,1}\{0,1\}{0,1}。使用的是非概率模型,分类结果就是决策函数的决策结果。分成感知机和线性判别分析(LDA /Fisher判别分析)。感知机模型感知机模型的中心思想:如果在初始阶段看到哪些点错误了,不断调整,直到模型分类正确为止。也就是错误驱动。是一种二分类的线性分类模型。[外链图片转存失败,源站可能有防盗链机制,建议将图片
2021-08-28 02:01:18 1543
原创 正则化和最大后验估计(MAP)
正则化前提y=kx+by=kx+by=kx+b拟合结果f(w)=wTxf(w)=w^Txf(w)=wTx运用最小二乘法得到损失函数L=∑i=1N∣∣wTxi−yi∣∣2L=\sum^N_{i=1}||w^Tx_i-y_i||^2L=∑i=1N∣∣wTxi−yi∣∣2对损失函数求导可得 w=(XTX)−1XTYw=(X^TX)^{-1}X^TYw=(XTX)−1XTY由于XTXX^TXXTX有可能是不可逆矩阵,因此发成可能有无数多个解,很容易造成过拟合。处理过拟合的方法
2021-08-18 02:26:07 1149
原创 【基础】线性回归
线性回归两个特征有没有线性关系。y=kx+b,用最小二乘法约束假设数据集: D{(x1,y1),(x2,y2),....(xn,yn)},xi∈Rp,y∈RD\{(x_1,y_1),(x_2,y_2),....(x_n,y_n)\},x_i∈R^p,y∈RD{(x1,y1),(x2,y2),....(xn,yn)},xi∈Rp,y∈RX=(x1,x2,...xn)TX=(x_1,x_2,...x_n)^TX=(x1,x2,...xn)T=(x1Tx2T⋮xnT)\begin{p
2021-08-17 12:07:13 106
原创 JVM垃圾回收
JVM运行时内存从GC的角度,JVM堆分为:新生代1/3堆空间新生代又分为Eden区 : 8/10Java新创建的对象(除了大对象外)首先会被存放在Eden区。当Eden区内存空间不足是会触发MinorGCServivorFrom区 : 1/10Java新创建的大对象。注:大对象的定义和具体的JVM版本、堆大小和垃圾回收策略有关,一般为2-128KB。将上一次MinorGC是的幸存者作为这次MinorGC地被扫描者ServivorTo区 : 1/1
2021-06-10 22:24:11 80
原创 常见算法(Java)
二分查找、排序算法:快排、归并、冒泡排序算法例如:4、2、8、6、5、7、1、3快排(quick sort)时间复杂度:O(nlogn)思想:以其中一个数(2)为基础小的放左边,大的放右边2、1、3、4、8、6、5、72两边分别再各自以1个数为基础小的放左边,大的放右边1、2、3、4、6、5、7、8以此循环1、2、3、4、5、6、7、8 //升序快排 public static void quickSortAsc(int[] arr, int left, in
2021-06-08 23:27:09 96
原创 Hive DDL学习
HIVE学习笔记(一)建表语法一. 内外部表转换二. 分区表分隔符设定3. 读入数据注意建表语法CREATE TABLE 按给定名称创建表,如果表已经存在则抛出异常。可使用if not exists 规避。EXTERNAL 关键字。创建外部表,否则创建的是内部表(管理表)删除内部表时,数据和表的定义同时被删除;删除外部表时,仅仅删除了表的定义,数据保留;在生产环境中,多使用外部表;comment 表的注释partition by 对表中数据进行分区,指定表的分区字段cluste
2021-01-01 15:13:36 110
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人