分类聚类算法
文章平均质量分 73
lonely_square_three
风一样的美男子
展开
-
朴素贝叶斯原理及python实现
一、贝叶斯算法引入 朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的分类法,是一种基于概率分布的分类算法。 贝叶斯分类算法,通俗的来讲,在给定数据集的前提下,对于一个新样本(未分类),在数据集中找到和新样本特征相同的样本,最后根据这些样本算出每个类的概率,概率最高的类即为新样本的类。 哈哈,先用个样例来大体感受下。 这里有大学生恋爱情况原创 2017-06-30 21:28:07 · 8788 阅读 · 0 评论 -
分类聚类区别及聚类概述
在初学分类聚类时,对这两个概念不是很了解。随着深入的了解,现有了一些基本的认识。现对聚类进行个人理解上的总结,欢迎大家批评指正。一、分类和聚类的区别分类和聚类的概念是比较容易混淆的。对于分类来说,在对数据集分类时,我们是知道这个数据集是有多少种类的,比如对一个学校的在校大学生进行性别分类,我们会下意识很清楚知道分为“男”,“女”而对于聚类来说,在对数据集操作时,我们是不知道该数翻译 2017-06-27 09:18:58 · 50680 阅读 · 5 评论 -
数据预处理之缺失值处理
缺失值产生原因数据集中部分数据的缺失是一件很头疼的事情,不但增大了数据集的不确定性,也影响了算法的执行。缺失值产生的原因主要有以下几点: 1.有些信息暂时无法获取,或获取信息的成本过高 2.信息遗漏,即人为的原因,如收集信息不认真、忘记填写信息等 3.缺失值本身就不存在,比如单身狗的女朋友缺失值的影响1.数据集丢失了大量的信息 2.数据集表现出的不确定性增大,使得获取数据潜在规律的难度加大原创 2017-08-09 16:37:18 · 11464 阅读 · 0 评论 -
聚类方法之DBSCAN
算法思想DBSCAN是一种基于密度的聚类方法,其思想是根据样本间的紧密程度来对簇进行划分。DBSCAN的样本点一般被分为三类: 1.核心点: 在半径Eps内含有超过MinPts数目的点 2.边界点: 在半径Eps内含有的点不超过MinPts,但是落在核心点领域内的点 3.噪声点: 既不是核心点也不是噪声点的点。 这里有两个参数需要人为指定:半径长度Eps 和 点的数据MinPts原创 2017-08-12 14:50:26 · 2628 阅读 · 1 评论 -
从基础出发:统计学习方法三要素
统计学习方法,初听起来感觉很陌生,到底什么是统计学习方法,怎么去理解?统计学习方法由三个要素构成,即 模型 策略和算法。 模型是来确定一个假设;策略用来验证或纠正模型的好坏;而算法,是在选定模型和策略后,使用某种计算方法来使模型最优。原创 2017-08-05 19:52:55 · 602 阅读 · 0 评论 -
浅谈感知机算法
感知机是一种二分类算法,其输入的实例为一特征向量,输出的实例的实例类别只有+1,-1两个值。 感知机属于线性分类模型,是判别模型的一种。其原理是,通过训练集求出一个分离超平面,将正负样本进行分离。原创 2017-08-06 10:17:51 · 2590 阅读 · 0 评论 -
浅谈knn(k近邻)算法
概述K近邻算法是一种懒惰算法,即没有对数据集进行训练的过程,其模型的三个要素:距离度量、k值的选择和分类决策规则决定。K近邻的思想很简单,即在一个数据集上,给定一个新样本,找到与新样本距离最近的k个实例,在这些实例中属于多数的类即为这个新样本的类。原创 2017-08-06 11:09:34 · 1203 阅读 · 0 评论