机器学习
xingchenhy
这个作者很懒,什么都没留下…
展开
-
范数规则化
监督学习的过程可以概括为:最小化误差的同时规则化参数。最小化误差是为了让模型拟合训练数据,规则化参数是为了防止过拟合。参数过多会导致模型复杂度上升,产生过拟合,即训练误差很小,但测试误差很大,这和监督学习的目标是相违背的。所以需要采取措施,保证模型尽量简单的基础上,最小化训练误差,使模型具有更好的泛化能力(即测试误差也很小)。范数规则化有两个作用:1)保证模型尽可能的简单,避免过拟原创 2017-04-13 22:03:41 · 524 阅读 · 0 评论 -
机器学习算法
这里只是算法简单介绍,笔试面试准备一、朴素贝叶斯: 有以下几个地方需要注意:其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方法,而由朴素贝叶斯的前提假设可知,=,因此一般有两种,一种是在类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本的总和;第二种方法是类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本中所有特征出现次数的总原创 2017-06-27 14:57:58 · 518 阅读 · 0 评论 -
进化算法
进化算法,也被成为是演化算法(evolutionaryalgorithms,简称EAs),它不是一个具体的算法,而是一个“算法簇”。进化算法产生的灵感借鉴了大自然中生物的进化操作,它一般包括基因编码,种群初始化,交叉变异算子,经营保留机制等基本操作。与传统的基于微积分的方法和穷举方法等优化算法相比,进化计算是一种成熟的具有高鲁棒性和广泛适用性的全局优化方法,具有自组织、自适应、自学习的特性,能够不原创 2017-06-27 16:03:31 · 10852 阅读 · 1 评论 -
机器之心40题
1. 名义变量:nominal variable定类,只是用来分类有序变量:ordinalvariable一种在类别上有些顺序的变量2. 确定性算法表明在不同运行中,算法输出并不会改变。PC A可以得到一样的输出,但K-means不可以。 4. 梯度下降算法GD,每一次迭代需要使用整个训练数据集。 随机梯度下降算法SGD,每次迭代使用的批量是数据集中的随机样本组原创 2017-05-17 19:52:50 · 715 阅读 · 0 评论 -
机器学习岗面试,基础知识整理(转载)
微信公众号关键字全网搜索最新排名【机器学习算法】:排名第一【机器学习】:排名第二【Python】:排名第三【算法】:排名第四明天推出第3期送书活动数量10本Are You Ready? 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择...转载 2018-03-08 17:12:13 · 1939 阅读 · 0 评论 -
免费下载数据集(转载)
目前系统整理了一些网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。金融美国劳工部统计局官方发布数据上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票深证创业板日线...转载 2018-03-08 17:28:02 · 2498 阅读 · 1 评论 -
ARIMA时间序列分析-----Python实例(一周销售营业额预测)
以ARIMA模型为例介绍时间序列算法在python中是如何实现的,一下是应用Python语言建模步骤:-- coding: utf-8 --“”” Created on Mon Apr 2 16:45:36 2018@author: houy “”“arima模型对时间序列的要求是平稳型import pandas as pd参数初始化7ku9discf...原创 2018-04-12 12:01:17 · 18634 阅读 · 10 评论 -
数据预处理:样本非平衡处理
转载:https://zhuanlan.zhihu.com/p/37311047非平衡数据会影响最后的评判效果,严重的会带来过拟合的效果,即模型总是把样本划分到样本量较多的那一种。为了让模型的评判更准确,我们需要对非平衡数据进行一定的处理,主要有以下几种方式:...转载 2018-08-06 17:57:16 · 2782 阅读 · 0 评论 -
MATLAB 2016a 安装包以及安装破解教程
一直没来得及整理,感谢博主的分享。原创文章在:https://blog.csdn.net/u012313335/article/details/73733651 Matlab 2016a 安装包及破解教程百度云分享链接:链接:https://pan.baidu.com/s/1i6BgD8p &...转载 2018-12-07 15:10:25 · 4163 阅读 · 0 评论 -
k-means中的邻近度函数
1、曼哈顿距离: 质心:中位数。目标函数:最小化对象到其簇质心的距离和2、平方欧几里德距离。质心:均值。目标函数:最小化对象到其簇质心的距离的平方和3、余弦。质心:均值。最大化对象与其质心的余弦相似度和4、Bregman 散度。质心:均值。目标函数:最小化对象到其簇质心的Bregman散度和原创 2017-06-21 20:54:59 · 2749 阅读 · 2 评论 -
回归,分类与聚类:三个方向分析机器学习
转载于“机器之心”专栏的介绍和剖析: https://zhuanlan.zhihu.com/p/27013861?utm_source=qq&utm_medium=social对机器学习算法进行分类不是一件容易的事情,总的来看,有如下几种方式:生成与判别、参数与非参数、监督与非监督等等。在机器学习中,有个定理被称为「没有免费的午餐」。简而言之,就是说没有一个算法可以完美解决所有问题,而转载 2017-06-08 21:32:29 · 5480 阅读 · 0 评论 -
CRF,HMM和MEHMM区别
CRF,HMM和MEHMM是在序列标注中常用的三种模型,但是也各有优缺点,现在从以下几个方面进行以下比较:(条件随机场,隐马尔科夫,最大熵隐马尔科夫)1)生成式模型or判别式模型(假设 o 是观察值,m是模型。)a)生成式模型:无穷样本 -> 概率密度模型 =产生式模型 ->预测 如果对P(o|m)建模,就是生成式模型。其基本思想是首先建立样本的概率密度模型转载 2017-06-02 20:31:55 · 2951 阅读 · 0 评论 -
题点--机器学习
在统计模式分类问题中: 当先验概率已知时,直接使用贝叶斯求后验概率即可; 当先验概率未知时,可以使用最小最大损失准则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的和N-P判决(聂曼-皮尔逊决策来计算决策面。)训练神经网络模型时,如果训练样本较少,为了防止模型过拟合,Dropout可以作为一种选择。Dropout是指在模型训练时随机让原创 2017-04-25 17:48:24 · 317 阅读 · 0 评论 -
时间序列模型
AR模型:自回归模型,是一种线性模型MA模型:移动平均法模型,其中使用趋势移动平均法建立直线趋势的预测模型ARMA模型:自回归滑动平均模型,拟合较高阶模型GARCH模型:广义回归模型,对误差的方差建模,适用于波动性的分析和预测原创 2017-04-25 20:36:05 · 592 阅读 · 0 评论 -
降维方法
PCA; Laplacian 构建相似关系图,互有关系的点在降维后尽可能靠的近; LDA线性判别通过找到空间使得类内距离最小,类间距离最大看作是降维; 小波分析通过变换操作降低干扰; lasso,L2正则通过参数缩减达到降维目的。原创 2017-04-25 20:40:21 · 403 阅读 · 0 评论 -
遗传算法
一、遗传算法的应用函数优化(遗传算法的经典应用领域);组合优化二、遗传学基本概念与术语基因型(genotype):性状染色体的内部表现;表现型(phenotype):染色体决定性状的外部表现,或者说,根据基因型形成的个体;进化(evolution):逐渐适应生存环境,品质不断得到改良。生物的进化是以种群的形式进行的。适应度(fitness):度量某个物种对于生存环境原创 2017-05-08 14:01:47 · 887 阅读 · 0 评论 -
error,bias,var之间的关系
机器学习模型 error 和模型bias 和 variance之间的关系:转载 2017-04-13 22:00:36 · 945 阅读 · 0 评论 -
文本分类特征选择方法
1)DF(DocumentFrequency)文档频率DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性2)MI(MutualInformation)互信息法互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向"低频"的特征词。相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就原创 2017-06-02 20:28:01 · 3447 阅读 · 0 评论 -
支持向量机(SVM)常考点
1、加入L2正则项Ridge,对噪声的容错能力增强,作用是最大化分类间隔,使得分类器拥有更强的泛化能力。2、Hinge损失函数,作用是最小化经验分类错误.。3、间隔应该是2/||w||,||w||代表向量的模,向量的模通常指的就是其二范数。4、考虑软间隔的时候,C对优化问题的影响就在于把a的范围从[0,+inf]限制到了[0,C]。C越小,那么a就会越小,目标函数拉格朗日函数导数为原创 2017-06-02 20:28:38 · 972 阅读 · 0 评论 -
隐马尔科夫模型,三个基本问题及相应算法
隐马尔科夫模型基本问题及其相应的算法:1、评估问题:概率计算问题:给定模型和观测序列,计算在模型下观测序列出现的概率。前向、后向算法解决的是一个评估问题,即给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型。2、模型学习问题:已知观测序列,估计模型中的参数,使得在该模型下观测序列概率最大,即用极大似然估计的方法估计参数。Baum-Welch算法解决的是一个模型训练原创 2017-06-02 20:30:08 · 6886 阅读 · 0 评论 -
MATLAB激活成功后打开还是激活界面,问题解决方法
但是,点击“完成”按钮后,matlab即退出了。重新打开matlab程序,依然提示要激活,把系统时间更改到2017-11-11之前就可以了,比如2017-11-10,就可以成功的打开matlab了。在打开matlab后,发现有提示语句,如下:打开license文件,不更改和删除任何原有内容,将以下文字复制和粘贴在license.lic文件的末端,然后保存为扩展名为.dat的文件。重新进行...原创 2018-12-24 08:49:09 · 35600 阅读 · 12 评论