自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 excel合并多个工作簿

合并工作簿vba代码:Sub Macro1()Dim MyPath$, MyName$, sh As Worksheet, sht As Worksheet, m&Set sh = ActiveSheetMyPath = ThisWorkbook.Path & "\"MyName = Dir(MyPath & "*.xlsx")Application.ScreenUpdating = FalseCells.ClearContentsDo While M

2021-04-07 14:31:41 552

转载 流形学习的定性阐述

最高票解释的很学术~我就说个定性而非定量的解释。流形学习的观点是认为,我们所能观察到的数据实际上是由一个低维流形映射到高维空间上的。由于数据内部特征的限制,一些高维中的数据会产生维度上的冗余,实际上只需要比较低的维度就能唯一地表示。举个例子,比如说我们在平面上有个圆,如何表示这个圆呢?如果我们把圆放在一个平面直角坐标系中,那一个圆实际上就是由一堆二维点构成的。比如一个单位圆:(1,0)是一个在圆上的点,(0,1)也是一个在圆上的点,但(0,0)和(2,3)等等很多点是不在这个圆上的。显然如.

2021-03-22 15:03:10 226

原创 周志华《机器学习》——降维与度量学习

有些数据集是包含非常多的属性的,这使得后续数据处理和计算非常困难。因此需要对数据进行降维,需要找到一种合理的方法,在减少需要分析的属性同时,尽量减少信息的损失。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。根据对降维后数据的要求不同,有如下几种常用的数据降维方法:1、MDSMDS降维后的数据满足,从原始空间D到d维空间后,样本两两间距不变。2、线性变换是一种..

2021-03-19 17:28:50 487

原创 周志华《机器学习》——特征选择与稀疏学习

待定

2021-03-19 17:01:14 143

原创 周志华《机器学习》聚类

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集成为一个簇,通过这样的划分,每个簇可能对应于一些潜在的概念(类别),如本地瓜、外地瓜等,但是和分类不同的是,分类是先有本地瓜和外地瓜两个类别,需要判断特定的某个瓜是哪个类;但是聚类是一堆瓜放在一起,先聚类成了两类,然后对这两类瓜,卖瓜的人总结其中是本地瓜和外地瓜的区别。1、距离计算...

2021-03-18 16:51:52 211

原创 周志华《机器学习》——集成学习

1、怎样生成个体学习器1.1 BoostingBoosting的工作过程是:Boosting算法的代表算法AdaBoost详解,可参照https://www.cnblogs.com/pinard/p/6133937.html1.2 BaggingBagging算法的工作过程是:Bagging的代表算法是随机森林,随机森林是利用决策树作为个体学习器算法,在决策树训练过程中引入和随机属性选择的Bagging算法。2、如何判断个体学习器集好不好,适不适合集成2.1 定性..

2021-03-17 18:15:46 215

原创 周志华《机器学习》——支持向量机

重写一下图中的公式:支持向量机的超平面应该满足:(其中i是第i个样例,若样例为正类,yi标记为1,即等价于公式括号里的部分大于等于1;若样例为负类,yi标记为-1,即等价于公式括号里的部分小于等于1)(即训练样本距离超平面的距离应该越远越好(两类分的越开越好))在寻找上述超平面的过程中可能会遇到各种问题,针对每种问题,我们又有各种解决方法:1、样本空间找不到一个很好的超平面进行划分——核函数上述最简单的SVM过程是假设在样本空间存在一个超平面可将样本划分开,但是也有可能在样...

2021-03-11 15:51:12 313

原创 周志华《机器学习》——决策树

连续值处理:可采用二分法,对样例在该属性上的m个取值,取其m-1个间隔中的数作为阈值对样例进行二分类,选择最优的划分点的信息增益,作为该属性在该节点进行划分的信息增益注意,其他非连续属性在某节点使用过后,在其子节点将不能再被用作划分属性,但是连续值因为其每次只选择一个二分点,所以在使用过后,后续子节点可以继续使用该属性进行划分缺失值处理:根据不缺失该属性的样本计算在子节点和父节点间的信息增益,和其他属性对比信息增益时,缺失属性的信息增益需要乘以一个小于一的系数,这个系数是无缺失值样本占总..

2021-03-11 11:24:05 245

原创 周志华《机器学习》——线性模型

线性模型定义假设一个样例由x={x1,x2,x3,...xd}表示的,其中每一个xi都是一个属性(如西瓜a={根蜷缩,瓜皮黄})线性模型是学习出一个线性规则来回归或分类,这个线性规则可以用属性的线性组合表示:1、线性回归线性回归模型可以用表示如果输出标记的对数作为线性模型逼近的目标,即,则虽然仍是求解线性函数,但是实际上已经实现了从输入空间到输出空间的非线性函数映射,即一般得,一个单调可微的函数g(·),令,则这个模型是广义线性模型...

2021-03-10 16:55:06 259

原创 周志华《机器学习》——模型的评估与选择

在一幅图解释机器学习中,我们假设要进行分辨西瓜好坏的任务。如何从众多的评判方法中,选出更好的方法呢(也就是从假设空间到版本空间)这个过程需要解决三个问题:1、如何判断哪个方法更好? ——越好的方法,其判断结果应该越符合真实世界(设置合理的性能度量指标,衡量判断结果和真实世界的差距)2、在什么数据集上测试方法的好坏? ——测试集应该能够代表真实世界,且不会影响到模型训练(合理分割测试集和训练集)3、毕竟测试集只是真实世界的抽样,如何判断在测试集上的测试结果...

2021-03-10 16:25:34 193

原创 周志华《机器学习》——绪论:一幅图解释机器学习

周志华《机器学习》——绪论第三方会看见收到货发

2021-03-09 16:20:38 162

原创 java读取excel文件显示Unable to recognize OLE stream

源代码如下:package institution;import java.io.*;import jxl.*;public class process{public static void main(String args[]){try{Workbook book = Workbook.getWorkbook(new File("C:/User

2016-12-23 16:24:55 1761

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除