数据挖掘
文章平均质量分 55
wj176623
这个作者很懒,什么都没留下…
展开
-
PageRank
PageRank:基于链接的排序方式。原创 2016-09-14 14:49:54 · 327 阅读 · 0 评论 -
神经网络聚类方法:SOM算法原理
一个神经网络接收外界输入模式时,将会分为不同的对应区域,各区域对输入模式有不同的响应特征,而这个过程是自动完成的。其特点与人脑的自组织特性类似。SOM的目标是用低维(通常是二维或三维)目标空间的点来表示高维空间中的所有点,尽可能地保持点间的距离和邻近关系(拓扑关系)。自组织神经网络:是无导师学习网络。它通过自动寻找样本中的内在规律和本质属性,自组织,自适应地改变网络参数与结构。原创 2016-09-13 15:51:24 · 78710 阅读 · 2 评论 -
K-中心聚类算法
基本思想:选用簇中位置最中心的对象,试图对n个对象给出k个划分,代表对象也被称为中心点,其他对象则被称为非代表对象。最初随机选择k个对象作为中心点,该算法反复地利用非代表对象来代替代表对象,试图找出更好的中心点,以改进聚类的质量。原创 2016-09-13 09:42:09 · 7024 阅读 · 0 评论 -
K-means聚类算法
一种基于划分的算法,它属于基于距离的聚类算法。(采用距离作为相似性量度的评价指标)算法思想:(1)首先指定需要划分的簇的个数K值;(2)然后随机地选择K个初始数据对象点作为初始的聚类中心;(3)再次计算其余的各个对象划归到距离它最近的那个中心所处的簇类中;(4)最后调整新类并且重新计算出新类的中心,如果两次计算出来的聚类中心未曾发生任何变化,就可以说明数据对象的调整已经结束。(原创 2016-09-13 09:36:26 · 1105 阅读 · 0 评论 -
支持向量机
支持向量机(SVM):一种专门研究有限样本预测的学习方法。是在统计学习理论基础之上发展而来的。没有以传统的经验风险最小化原则作为基础,而是建立在结构风险最小化原理的基础之上,发展成为一种新型的结构化学习方法。结构风险最小归纳原理:解决了有限样本或小样本的情况下获得具有优异泛化能力的学习机器。包含了学习的一致性、边界理论和结构风险最小化原理等部分。克服了经验风险最小化的缺点。一:学习原创 2016-09-12 17:32:30 · 4929 阅读 · 0 评论 -
贝叶斯分类算法
贝叶斯方法是一种研究不确定性的推理方法。不确定性常用贝叶斯概率表示,它是一种主观概率。贝叶斯公式:贝叶斯信念网络:简称贝叶斯网络,用图形表示一组随机变量之间的概率关系。有以下两个主要成分:(1)一个有向无环图,表示变量之间的依赖关系;(2)一个概率表,把各节点和它的直接父节点关联起来贝叶斯网络的重要性质:贝叶斯网络中的一个节点,如果它的父母节点已知,则它条件原创 2016-09-11 09:23:50 · 770 阅读 · 0 评论 -
人工神经网络算法-BP算法原理
人工神经网络是由大量的神经元按照大规模并行的方式通过一定的拓扑结构连接而成的。按照一定的规则将神经元连接成神经网络,并使网络中各神经元的连接权按一定的规则变化,这样一来也就产生了各式各样的神经网络模型。从几个方面进行分类:(1)按神经网络的拓扑结构可以分为反馈神经网络模型和前向神经网络模型;(2)按照神经网络模型的性能可分为连续型与离散型神经网络模型,确定型与随机型神经网络模型(3原创 2016-09-11 15:34:57 · 11992 阅读 · 0 评论 -
决策分类算法-C4.5算法原理
与ID3的不同之处:(1)分支指标采用增益比例,而不是ID3所使用的信息增益;(2)按照数值属性值的大小对样本排序,从中选择一个分割点,划分数值属性的取值区间,从而将ID3的处理能力扩充到数值属性上来。(3)将训练样本集中的位置属性值用最常用的值代替,或者用该属性所有取值的平均值代替,从而处理缺少属性值的训练样本。(4)使用k次迭代交叉验证,评估模型的优劣程度(5)根据生成的决原创 2016-09-10 21:22:36 · 4490 阅读 · 0 评论 -
决策树分类算法-ID3算法原理
ID3基本策略:(1)树根代表训练样本的单个节点的开始;(2)如果样本都在同一个类中,则这个节点称为树叶节点并标记为该类别。(3)否则算法使用信息熵(信息增益)作为启发知识来帮助选择合适的将样本分类的属性,以便将样本集划分为若干子集,该属性就是相应节点的“测试”或“判定”属性,同时所有属性应当是离散值。(4)对测试属性的每个已知的离散值创建一个分支,并据此划分样本。(5)算法使原创 2016-09-10 20:28:51 · 4195 阅读 · 0 评论 -
决策树分类算法
决策树:从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。所以,从决策树的根节点到叶节点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。决策树的方法:ID3、CN2、SLIQ、SPRINT等。一般使用ID3和C4.5决策树方法。决策树原创 2016-09-10 18:09:01 · 1472 阅读 · 0 评论 -
关联规则及Apriori
关联规则:挖掘发现大量数据中项集之间的有趣关联联系。关联规则挖掘分为以下两个子问题:(1)找出事务数据库中所有大于等于用户指定的最小支持度的数据项集;(2)利用频繁项集生成所需要的关联规则,根据用户设定的最小置信度进行取舍,最后得到强关联规则。··备注:识别或发现所有频繁项目集是关联规则发现算法的核心。原创 2016-09-10 17:27:55 · 1933 阅读 · 0 评论 -
特征选择与提取
特征选择与提取:从一组数量为N的特征中选择出一组数量为M的最优特征。(N>M)要解决的问题:(1)选择一种可分性判据作为最优特征选择的标准;(2)找到一个好的算法,来选择出这组最优特征;特征选择技术方法:(1)顺序前进法:(2)顺序后退法;(3)增l减r法(l-r法)特征提取步骤:(1)利用训练样本集合估计相关矩阵=E;(2)计算的特征值,并由大到小排序,,原创 2016-09-10 10:06:42 · 817 阅读 · 0 评论 -
数据预处理方法
一.数据清理1.填出缺失值:无记录值数据(1)忽略元祖:缺少类标号时使用,适用于多个属性值缺失;(2)人工填写缺失值;(3)用属性的均值填充缺失值;(4)用全局常量填充(unknow);(5)用同样本的属性均值填充缺失值;(6)使用最可能的值填充缺失值(可由回归、贝叶斯形式化的基于推理的工具或决策树归纳确定)。2.光滑噪声数据:被测量变量的随机误差或方差。(1)原创 2016-09-09 20:15:28 · 1184 阅读 · 0 评论 -
数据预处理概念
数据预处理:对原始数据进行必要的清理、集成、转换、离散和规约等一系列的处理工作。原始数据的特征:(1)不完整性:数据属性的丢失、不确定的情况、缺失必需的数据。(2)含噪声:数据具有不正确属性值:包含错误或存在偏离期望的离群值。产生原因:如收集数据的设备故障,人或计算机的错误可能在数据的输入时出现,数据传输中可能出现错误。(3)杂乱性:原始数据是从各个实际应用系统中获取的。由于各原创 2016-09-09 20:13:10 · 1952 阅读 · 0 评论 -
GEO : Affymetrix CEL文件 CDF文件 R语言处理方法
背景介绍:1)Affymetrix: Affymetrix的探针(proble)一般是长为25碱基的寡聚核苷酸;探针总是以perfect match 和mismatch成对出现,其信号值称为PM和MM,成对的perfect match 和mismatch有一个共同的affyID。 CEL文件:信号值和定位信息。 CDF文件:探针对在芯片上的定位信息转载 2016-09-20 11:30:11 · 9890 阅读 · 1 评论