机器学习
文章平均质量分 68
boyan_RF
想想是时候写点东西了,不然以后都忘记了
展开
-
对机器学习的理解
机器学习(MachineLearning),在我看来就是让机器学习人思维的过程。机器学习的宗旨就是让机器学会“人识别事物的方法”,我们希望人从事物中了解到的东西和机器从事物中了解到的东西一样,这就是机器学习的过程。在机器学习中有一个很经典的问题:“假设有一张色彩丰富的油画,画中画了一片茂密的森林,在森林远处的一棵歪脖树上,有一只猴子坐在树上吃东西。如果我们让一个人找出猴子的位置,正常情况下不到转载 2017-09-26 20:55:31 · 437 阅读 · 0 评论 -
为什么一些机器学习模型需要对数据进行归一化?
转自:https://www.cnblogs.com/LBSer/p/4440590.html为什么一些机器学习模型需要对数据进行归一化知乎中对数据进行归一化的理解1 归一化为什么能提高梯度下降法求解最优解的速度?斯坦福机器学习视频做了很好的解释:https://class.coursera.org/ml-003/lecture/21 如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其...转载 2018-03-13 20:11:14 · 1361 阅读 · 0 评论 -
如何解决分类问题中样本不均衡问题
本文转载自:http://blog.csdn.net/login_sonata/article/details/54290402建议同时跟类间样本数量不平衡对分类模型性能的影响问题一块阅读什么是数据不均衡?在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子:①在一个二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结...转载 2018-03-15 15:49:08 · 15399 阅读 · 1 评论 -
随机森林(Random forest,RF)的生成方法以及优缺点
随机森林(Random Forest)是属于集成学习的一种组合分类算法(确切说是属于bagging),集成学习的核心思想就是将若干个弱(基)分类器组合起来,得到一个分类性能显著优越的强分类器。如果各弱分类器之前没有强依赖关系、可并行生成,就可以使用随机森林算法。 随机森林利用自主抽样法(bootstrap)从原数据集中有放回地抽取多个样本,对抽取的样本先用弱分类器—决策树进行训练...原创 2018-03-08 21:18:10 · 38379 阅读 · 14 评论 -
机器学习中的判别模式和生成模式
判别式模型与生成式模型参考资料:https://www.zhihu.com/question/20446337 http://blog.163.com/huai_jing@126/blog/static/1718619832011227757554/ 生成式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念...转载 2018-03-15 13:57:48 · 2089 阅读 · 0 评论 -
正则化L1和L2
参考文章:机器学习中的范数规则化 牛客题目L1范数是指向量中各个元素绝对值之和,用于特征选择。使用L1可以得到稀疏的权值。L2范数是指向量各元素的平方和然后求平方根,用于防止过拟合,提升模型的泛化能力。使用L2可以得到平滑的权值。L1范数具有系数解的特性,但是要注意的是,L1没有选到的特征不代表不重要,原因是两个高相关性的特征可能只保留一个。如果需要确定哪个特征重...原创 2018-03-15 13:32:03 · 194 阅读 · 0 评论 -
支持向量机(SVM)算法应用
第一个简单的小例子:# -*-coding:utf-8 -*-from sklearn import svmx = [[2, 0], [1, 1], [2, 3]]y = [0, 0, 1]clf = svm.SVC(kernel = 'linear')# kernel :核函数,默认是rbf,可以是‘linear’, ‘poly’, ‘rbf’, #‘sigmoid’, ‘precomput原创 2017-10-05 22:12:09 · 1609 阅读 · 0 评论 -
支持向量机(SVM)算法
1. 背景: 1.1 最早是由 Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 在1963年提出 1.2 目前的版本(soft margin)是由Corinna Cortes 和 Vapnik在1993年提出,并在1995年发表 1.3 深度学习(2012)出现之前,SVM被认为机器学习中近十几年来最成功,表现最好的算法.是最好的现成的分类器,‘现成’指原创 2017-10-05 16:00:53 · 1971 阅读 · 0 评论 -
最邻近规则分类(K-Nearest Neighbor)KNN算法应用
最邻近规则分类(K-Nearest Neighbor)KNN算法应用1.Iris数据集介绍调用ython的机器学习库sklearn实现虹膜分类 Iris数据包含150条样本记录,分剐取自三种不同的鸢尾属植物setosa、versic010r和virginica的花朵样本,每一 类各50条记录,其中每条记录有4个属性:萼片长度(sepal length)、萼片宽度sepalwidth)、花瓣长原创 2017-10-03 15:13:14 · 748 阅读 · 1 评论 -
最邻近规则分类(K-Nearest Neighbor)KNN算法
最邻近规则分类(K-Nearest Neighbor)KNN算法1. 综述 1.1 Cover和Hart在1968年提出了最初的邻近算法 1.2 KNN是一种分类(classification)算法 1.3 输入基于实例的学习(instance-based learning), 懒惰学习(lazy learning)(因为KNN就是一种属于随大流的思想,我离那个部落近我就属于哪里的人)2. 例原创 2017-10-03 12:41:59 · 562 阅读 · 0 评论 -
scikit-learn实现决策树
Python机器学习的库:scikit-learn1.1: 特性: 简单高效的数据挖掘和机器学习分析 对所有用户开放,根据不同需求高度可重用性 基于Numpy, SciPy和matplotlib 开源,商用级别:获得 BSD许可1.2 覆盖问题领域: 分类(classification), 回归(regression), 聚类(clustering), 降维(dimension原创 2017-10-02 23:16:33 · 950 阅读 · 0 评论 -
多元回归分析(multiple regression)及其应用
1. 与简单线性回归区别(simple linear regression) 多个自变量(x)2. 多元回归模型 y=β0+β1x1+β2x2+ … +βpxp+ε 其中:β0,β1,β2… βp是参数 ε是误差值3. 多元回归方程 E(y)=β0+β1x1+β2x2+ … +βpxp4. 估计原创 2017-10-06 22:14:25 · 62790 阅读 · 0 评论 -
简单线性回归及实现
0. 前提介绍:为什么需要统计量? 统计量:描述数据特征0.1 集中趋势衡量 0.1.1均值(平均数,平均值)(mean) graphic {6, 2, 9, 1, 2} (6 + 2 + 9 + 1 + 2) / 5 = 20 / 5 = 4 0.1.2中位数 (median): 将数据中的各个数值按照大小顺序排列,居原创 2017-10-06 22:01:43 · 646 阅读 · 0 评论 -
标签二值化LabelBinarizer
转载自:http://blog.sina.com.cn/s/blog_a6c646330102vx6y.html 对于标称型数据来说,preprocessing.LabelBinarizer是一个很好用的工具。比如可以把yes和no转化为0和1,或是把incident和normal转化为0和1。当然,对于两类以上的标签也是适用的。这里举一个简单的例子,说明将标签二值化以及其逆过程。# -*- c转载 2017-10-06 20:44:51 · 913 阅读 · 0 评论 -
神经网络算法(Nerual Networks)应用
1. 关于非线性转化方程(non-linear transformation function)sigmoid函数(S 曲线)用来作为activation function: 1.1 双曲函数(tanh) 1.2 逻辑函数(logistic function)2. 实现一个简单的神经网络算法# -*- coding:utf-8 -*-import numpy as np原创 2017-10-06 20:40:05 · 2716 阅读 · 0 评论 -
神经网络算法(Nerual Networks)
1. 背景: 1.1 以人脑中的神经网络为启发,历史上出现过很多不同版本 1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward Neural Network) 2.1 Backpropagation被使用在多层向前神经网络上 2.2 多层向前神经网络由以下部分组成:原创 2017-10-06 16:24:58 · 773 阅读 · 0 评论 -
深度学习做股票预测靠谱吗?
给你讲个段子!真实的! 我去一家量化交易公司实习,一次meeting中,我和老总还有一个资深大佬谈机器学习在股票和期货里面的应用。 我:LSTM在时间序列上应用的效果比较好,我们可以尝试把LSTM应用在股票预测上。 此时,大佬在阴笑,老总默不作声... 我:你为啥笑 大佬: 不work啊! 我:为什么不work?! 这时老总也在旁边强掩笑容,大佬终于忍不住说了...转载 2018-07-17 15:58:16 · 1916 阅读 · 0 评论