- 博客(28)
- 资源 (43)
- 收藏
- 关注
转载 TwoStep Cluster
http://blog.sina.com.cn/s/blog_6c3609720100o43t.html TwoStep Cluster属于近年来才发展起来的智能聚类方法的一种,用于解决海量数据,复杂类别结构时的聚类分析问题。与传统的层次聚类和快速聚类法相比,两步聚类法有鲜明的特点。 首先,用于聚类的变量可以使连续变量,也可以是离散变量,不必像其他算法那样,在进行聚类
2015-12-16 11:50:54 2533
转载 处理多重共线性
(一)删除不重要的自变量自变量之间存在共线性,说明自变量所提供的信息是重叠的,可以删除不重要的自变量减少重复信息。但从模型中删去自变量时应该注意:从实际经济分析确定为相对不重要并从偏相关系数检验证实为共线性原因的那些变量中删除。如果删除不当,会产生模型设定误差,造成参数估计严重有偏的后果。(二)追加样本信息(不过实际操作中,这个方法实现率不高)多重共线性问题的实质是样本信息的不充分
2015-12-16 11:49:29 4511
转载 数据挖掘算法之离散化和二元化
转载自:http://deepfuture.iteye.com/blog/1395669离散化和二元化有些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式。发现关联模式的算法要求数据是二元属性形式。这样,常常需要将连续属性变换成分类属性(离散化,discretization),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化,binarization)。此外
2015-12-16 09:19:27 2867
转载 独立成分分析(Independent Component Analysis)
http://blog.csdn.net/ffeng271/article/details/7353881独立成分分析(Independent Component Analysis)1. 问题: 1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢? 2、经典的鸡尾酒宴
2015-12-15 17:15:43 5105
转载 机器学习中PCA和ICA的理解
在高维数据处理中,为了简化计算量以及储存空间,需要对这些高维数据进行一定程度上的降维,并尽量保证数据的不失真。PCA和ICA是两种常用的降维方法。PCA:principal component analysis ,主成分分析ICA :Independent component analysis,独立成分分析PCA,ICA都是统计理论当中的概念,在机器学习当中应用
2015-12-15 17:12:54 18618 1
转载 机器学习算法与Python实践之支持向量机
机器学习算法与Python实践之(二)支持向量机(SVM)初级zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这
2015-12-13 22:32:10 4008
转载 非常好的理解遗传算法的例子
遗传算法的手工模拟计算示例为更好地理解遗传算法的运算过程,下面用手工计算来简单地模拟遗传算法的各 个主要执行步骤。 例:求下述二元函数的最大值: (1) 个体编码 遗传算法的运算对象是表示个体的符号串,所以必须把变量 x1, x2 编码为一种 符号串。本题中,用无符号二进制整数来表示。
2015-12-13 13:14:52 4326
转载 一篇关于机器学习的温和指南
机器学习是人工智能的一个分支,它通过构建算法让计算机学习,并且在数据集上使用这些算法来完成任务,而不需要进行明确编码。明白了吗?我们可以让机器去学习如何做事情!当我第一次听到它的时候,让我非常兴奋。那意味着我们可以对计算机进行编码,让它们自己去学习东西!学习的能力是智能最重要的一个方面。将这种能力运用到机器上,应该是向让计算机更智能迈出了一大步。事实上,机器学习是如今人工智能领域中
2015-12-13 11:27:57 4415
转载 用平常语言介绍神经网络
http://blog.csdn.net/zzwu/article/details/574931/游戏编程中的人工智能技术 (连载之一)用平常语言介绍神经网络(Neural Networks in Plain English)因为我们没有能够很好了解大脑,我们经常试图用最新的技术作
2015-12-12 18:03:18 15462 1
转载 数据挖掘十大算法----EM算法(最大期望算法)
http://www.tuicool.com/articles/Av6NVzy概念在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域
2015-12-12 17:43:45 2264
转载 AdaBoost--从原理到实现
http://blog.csdn.net/dark_scope/article/details/14103983一.引入 对于Adaboost,可以说是久闻大名,据说在Deep Learning出来之前,SVM和Adaboost是效果最好的 两个算法,而Adaboost是提升树(boosting tree),所谓“提升树”就是把“弱学习算法”提升(b
2015-12-12 16:37:17 849
转载 浅谈 Adaboost 算法
http://blog.csdn.net/haidao2009/article/details/7514787菜鸟最近开始学习machine learning。发现adaboost 挺有趣,就把自己的一些思考写下来。主要参考了http://stblog.baidu-tech.com/?p=19,其实说抄也不为过,但是我添加了一些我认为有意思的东西,所以我还是把它
2015-12-12 16:15:41 2280
转载 关于机器学习
转载自:http://www.ctocio.com/hotnews/15919.html 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家
2015-12-11 12:48:02 697
转载 R语言:基本变量及其之间关系探索分析
转载自:http://www.douban.com/note/287485797/?type=like一、查看数据结构dim(iris) # 了解数据集的维度,有多少行多少列?names(iris) # 数据有哪些列?str(iris) # 数据的结构如何?attributes(iris) # 数据的列名、行名和数据结构然后看看数据集前几行和后几
2015-12-10 17:09:50 8293
转载 SVM在R语言中的应用
支持向量机是一个相对较新和较先进的机器学习技术,最初提出是为了解决二类分类问题,现在被广泛用于解决多类非线性分类问题和回归问题。继续阅读本文,你将学习到支持向量机如何工作,以及如何利用R语言实现支持向量机。支持向量机如何工作?简单介绍下支持向量机是做什么的:假设你的数据点分为两类,支持向量机试图寻找最优的一条线(超平面),使得离这条线最近的点与其他类中的点的距离最大。有些时
2015-12-10 05:32:57 12548 2
转载 常用的机器学习&数据挖掘知识(点)总结
转载自:http://dataunion.org/14926.htmlBasis(基础):MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Q
2015-12-10 01:02:27 4489
转载 传播最广的一篇SVM算法博文
转载自:http://dataunion.org/15483.html又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其中一个很大的原因是,不知道写什么好-_-,最近一段时间看了看关于SVM(Support Vector Machine)的文章,觉得SVM是一个非常有趣,而且自成一派的方向,所以今天准备写一篇关于关于SVM的文章。关于SVM的论文、书籍都非常的多
2015-12-10 00:51:50 1219
转载 概率基础和R语言
转载自:http://blog.fens.me/r-probability/R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统
2015-12-09 14:15:14 3956
转载 常用连续型分布介绍及R语言实现
转载自:http://blog.fens.me/series-r/R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教
2015-12-09 14:13:22 5996 1
转载 常用的抽样方法
转载自:http://tj.100xuexi.com/view/specdata/20100207/0CD3F00B-3980-4C39-AF91-2603851CE2CA.html1.非概率抽样(Non-probability sampling) 又称非随机抽样,指根据一定主观标准抽取样本,令总体中每个个体的被抽取不是依据其本身的机会,而是完全决定于调研者的意愿。 其特点
2015-12-09 08:39:25 15233
转载 缺失值的处理方法
转载自http://blog.sina.com.cn/s/blog_670445240102v08m.html 对于数据挖掘和分析人员来说,数据准备(Data Preparation,包括数据的抽取、清洗、转换和集成)常常占据了70%左右的工作量。而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题。本文针对缺失值和特殊值这种数据质量问题,进行了初步介绍并推荐了一些处理方法。值
2015-12-08 19:31:12 46502
转载 70个大数据集
http://www.china-cloud.com/yunjishu/shujuzhongxin/20140618_38544.html你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。Wikipedia:Data
2015-12-07 16:34:48 23916
转载 R语言的多维可视化方法(ggplot二维图表现多维)
转载自http://www.edvancer.in/create-a-multi-dimensional-visualisation-in-r/大意就是在二维图的基础上,用不同的符号,颜色,大小等表现多维 Posted by Lalit Sachan in Blog,R tips and tutorialson 10/04/2015Aim o
2015-12-07 11:46:52 8264
转载 数据挖掘系统的分类
http://www.itongji.cn/article/0GI32011.html 数据挖掘系统的分类数据挖掘是一个交叉学科领域,受多个学科影响(见图1-12),包括数据库系统、统计学、机器学习、可视化和信息科学。此外,依赖于所用的数据挖掘方法,可以使用其他学科的技术,如神经网络、模糊和/或粗糙集合论、知识表示、归纳逻辑程序设计或高性能计算。依赖于所挖掘的数据类型或给定的数据挖掘应
2015-12-02 09:25:12 3487
转载 The ID3 Algorithm
From http://www.cise.ufl.edu/~ddd/cap6635/Fall-97/Short-papers/2.htm Abstract This paper details the ID3 classification algorithm. Very simply, ID3 builds a decision tree from a fixed set of
2015-12-01 20:44:15 1319
转载 随机森林算法
转载自:http://www.zilhua.com/629.html 1. 随机森林使用背景1.1 随机森林定义随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。20
2015-12-01 19:15:16 70984 10
stageModel
2007-12-21
加解密小程序LCoder
2010-11-07
加解密程序LCoder
2010-11-07
多视图Demo,包括自定义视图,窗口分割,窗口样式改变
2010-09-23
C++库以及编程范例(标准C++、MFC、Windows API等)
2010-09-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人