数据挖掘
文章平均质量分 70
数据挖掘者
热爱大数据,对算法感兴趣,博客里写我对算法的理解。
展开
-
数据挖掘中,DIANA算法
层次聚类方法是对给定的数据集进行层次的分解,直到某种条件满足为止。一般来说,有两种类型的层次聚类方法:第一,凝聚层次聚类方法;第二,分裂层次聚类方法。其中DIANA算法是属于层次聚类方法。一,DIANA算法属于分裂的层次聚类,与凝聚的层次算法(也就是AGNES),它采用一种自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一个簇,或者达到某个终结点,比如达到原创 2015-10-21 16:20:28 · 14069 阅读 · 6 评论 -
数据挖掘,DBSCAN算法的介绍
DBSCAN算法密度聚类方法的指导思想是,只要一个区域中的点的密度大于某个阈值就把它加到与之相近的聚类中去.密度聚类方法的优点:可以克服基于距离的算法只能发现“类圆形”聚类的缺点,可以发现任意形状的聚类,它还对噪声数据不敏感。与传统的k-means相比,DBSCAN算法不需要输入划分的聚类个数;聚类簇的形状没有偏差;可以在需要时,输入过滤噪声的参数.还可以处理任意形状和大小的簇.密度聚类方法的原创 2015-10-22 17:11:01 · 3569 阅读 · 1 评论 -
数据挖掘中,Apriori算法讲解
一般给定一个事务数据库,关联规则挖掘问题就是通过用户指定最小支持度(support)和最小可信度(confidence)来寻找强关联规则的过程。关联规则挖掘问题可以划分成两个子问题,第一,发现频繁项目集,第二,生成关联规则。一,我讲的这部分是频繁项集的生成,之后还有生成关联规则的部分。Apriori算法是一种关联规则的频繁项算法。 二,它的核心思想是使用候选项集寻找频繁项集。Aprori算法使用一原创 2015-10-24 15:08:49 · 2352 阅读 · 0 评论 -
粗糙集的概念和一些例子
粗糙集的概念和一些例子粗糙集理论是一种研究不精确,不确定性知识的数学工具。粗糙集的思想为:一种类别对应一个概念(类别可以用集合表示,概念可以用规则描述),知识由概念组成;如果某个知识含有不精确概念,则该知识不精确。粗糙集对不精确概念的描述方法是通过下近似和上近似概念来描述。上近似包含了所有使用知识R可确切分类到X的元素。下近似包含了所有那些可能属于X的元素的最小集合。粗糙集可以解决的问题可以如下一原创 2015-10-14 22:24:55 · 19722 阅读 · 10 评论 -
python streaming 实现某个字段排序
一,hadoop streaming默认情况1,在hadoop streaming的默认情况下,是以\t作为分隔符的,标准输入时,每行的第一个\t之前的内容作为key,第一个\t之后的内容作为value。注意,如果一个\t字符都没有,那么整行作为key。2,streaming的一些参数如下: -D stream.map.output.field.separator :设置map输出中ke...原创 2018-07-10 01:04:53 · 1186 阅读 · 0 评论 -
mac 安装tesseract、pytesseract, 实现图片里文字的识别
一, tesseract-OCR的介绍1,tesseract-OCR是一个开源的OCR引擎,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。2,用tesseract可以识别的图片中字体,主要有以下一些特点:使用一个标准字体可以使用复印或者拍照,但是必须字体要清晰,没有痕迹图片里没有歪歪斜斜的字体另外没有超出图片中的字体,也没有残缺的...原创 2018-11-28 16:05:20 · 7536 阅读 · 3 评论