![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 69
yclzh0522
这个作者很懒,什么都没留下…
展开
-
Hadoop运行原理详解
我们通过下面这个天气数据处理的例子来说明Hadoop的运行原理.1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,原创 2011-10-10 16:42:18 · 37092 阅读 · 5 评论 -
Mahout聚类分析
聚类分析什么是聚类分析?聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。所以,在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为,即所谓“物以类聚,人以群分”,核心的思想也就是聚类。转载 2011-11-23 11:07:45 · 4589 阅读 · 0 评论 -
实时竞价(RTB)介绍
什么是RTB?RTB 是英语 Real Time Bidding 的简称,翻译为中文是: 实时竞价。在解释RTB到底是什么之前,我们先看一下目前展示型广告市场的一些传统购买模式:CPM: cost per 1000 impressions - 按照每1000个展示曝光进行付费CPC: cost per click - 按照每个点击进行付费Monthly Flat: 广告位包月原创 2011-11-21 17:07:18 · 10494 阅读 · 0 评论 -
mahout之聚类算法——KMeans分析
一,K-Means聚类算法原理 k-means 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心原创 2011-10-10 20:24:09 · 12326 阅读 · 1 评论 -
Mahout驾驭hadoop之详解
众所周知,Mahout是基于Hadoop分布式系统的,要想看懂Mahout的源码,首先得明白mahout是如何使用hadoop的! 首先,在我的>一篇中,详细介绍了hadoop的运行机制,这里就不多说了!下面我就以Kmeans聚类算法为例,讲讲mahou原创 2011-10-10 16:36:44 · 18948 阅读 · 4 评论 -
Mahout算法集
在Mahout实现的机器学习算法见下表算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron原创 2011-11-23 16:40:32 · 7009 阅读 · 0 评论