![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MapReduce
文章平均质量分 92
路人张的鱼生
这个作者很懒,什么都没留下…
展开
-
MapReduce之PageRank
MapReduce之PageRankMapReduce之PageRank简化实现 PageRank算法是用来衡量评估网页重要性或者等级的算法,Google据此表示网页的PR值,从0级到10级,级数越高说明该网页越重要。 互联网上的各个网页之间的连接关系我们都可以看成是一个有向图,对于任何网页,他们的PR值都可以表示为:Gamma公式展示Γ(z)=∫0∞tz−1e−tdt .\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,.Γ(z)=∫0∞tz−1e−t原创 2020-11-01 00:08:03 · 703 阅读 · 0 评论 -
MapReduce之小文件问题
MapReduce之小文件问题 小文件在MapReduce/Hadoop环境中指文件大小远远小于HDFS块大小的文件,默认的HDFS块为64MB,因此2MB,4MB均可以看作小文件,一般情况下,Hadoop可以很好的处理大文件,不过当文件很小时,它会把每一个小文件都传递到一个map()函数中,这样做由于会产生大量的映射器导致效率并不高,要解决这个问题 ,需要将多个小文件合并为一个文件,然后在进行处理,因此,该问题的解决方案主要是通过将小文件合并成更大的文件来原创 2020-08-09 10:16:42 · 1120 阅读 · 0 评论 -
MapReduce之幺半群
MapReduce之幺半群首先先简单介绍一些概念幺元幺元即单位元,是集合里的一种特别的元,与该集合里的运算有关。当它和其他元素结合时,并不会改变那些元素。幺半群幺半群是一个存在幺元的半群幺半群具有以下性质:闭包:对于S中的所有a和b,运算aooob的结果也在S中结合律:对于S中所有的a,b和c满足以下等式: (a∘b)∘c=(a∘(b∘c)(a \circ b)\circ c=(a\circ(b\circ c)(a∘b)∘c=(a∘(b∘c)单位元:∃eϵS:∀aϵS:e∘a=a∘e=原创 2020-06-27 17:01:57 · 1231 阅读 · 0 评论 -
MapReduce之线性回归
MapReduce之线性回归线性回归最主要的功能是描述变量间可能的关系。其中,最常用的形式就是最小二乘拟合。下面程序的思路主要是按照最小二乘法的思路展开。样例数据线性回归分析的目标是找出与数据拟合的线性方程,在找到这个方程后就可以对模型在一定程度上作出预测,在这里使用的两个变量是一个年龄和血糖水平,如下,最终拟合成线性方程 y=ax+b病人编号年龄(x)血糖水平141902429334398420645257864071原创 2020-06-21 22:30:50 · 1010 阅读 · 14 评论 -
MapReduce之皮儿逊相关系数
MapReduce之皮儿逊相关系数什么是皮儿逊相关系数皮尔逊(Pearson)相关系数可以度量两个数据集的相关关系,基本来说,皮尔逊相关系数可以解答这样的问题:能不能画折线图来表示数据。皮尔逊相关系数公式皮尔逊相关系数的计算公式有很多不同的等价形式。令x=(x1,x2,…,xn),y=(y1,y2,…,yn)x=(x_1,x_2,\dots,x_n),y=(y_1,y_2,\dots,y_n)x=(x1,x2,…,xn),y=(y1,y2,…,yn),则x和y的皮尔逊相关系数可表述为:原创 2020-05-31 11:26:40 · 541 阅读 · 0 评论 -
MapReduce之简单K-mer计数
MapReduce之简单K-mer计数什么是K-mer计数K-mer是一个长度为K(K>0)K(K>0)K(K>0)的子串,K-mer计数是指整个序列中K-mer出现的频度K-mer计数应用DNA序列中的K-mer计数在和多生物信息中都是一个非常重要的步骤,主要如下:确定序列读取之间的偏差是测序错误还是序列的基因差异修正短读组装错误计算亲缘度和特异度等参数Ma...原创 2019-12-31 23:15:27 · 1061 阅读 · 0 评论 -
MapReduce之统计和列出大图中的三角形(完)
MapReduce之统计和列出大图中的三角形在上一篇博客中,介绍了MapReduce的解决方案,在接下来展示完整代码输入数据1 22 32 42 53 44 5阶段1:mapper阶段任务生成可能的三角形路径mapper阶段编码package com.deng.Graph;import org.apache.hadoop.io.LongWritable;import...原创 2019-12-29 13:50:36 · 353 阅读 · 0 评论 -
MapReduce之统计和列出大图中的三角形(一)
MapReduce之统计和列出大图中的所有三角形什么是三角形图作为一个数据结构,包括一个有限的节点集,称为顶点。包括一个有限的线集,称为边,边会连接其中一些或全部节点。令T=(a,b,c)T=(a,b,c)T=(a,b,c)是图G中三个不同节点构成的一个集合,如果其中两个节点相连(a,b),(a,c)(a,b),(a,c)(a,b),(a,c),TTT就是一个三联体,如果所有三个节点都相连(a...原创 2019-12-29 12:31:26 · 444 阅读 · 0 评论 -
MapReduce之使用马尔可夫模型的智能邮件营销(四)
MapReduce之使用马尔可夫模型的智能邮件营销(四)MapReduce 马尔可夫模型原创 2019-09-06 09:44:01 · 457 阅读 · 0 评论 -
MapReduce之使用马尔可夫模型的智能邮件营销(三)
MapReduce之使用马尔可夫模型的智能邮件营销(三)原创 2019-09-05 19:05:54 · 260 阅读 · 0 评论 -
MapReduce之使用马尔可夫模型的智能邮件营销(二)
MapReduce之使用马尔可夫模型的智能邮件营销(二)原创 2019-09-05 15:09:46 · 513 阅读 · 0 评论 -
MapReduce之KNN算法
MapReduce之KNN算法什么是KKK-邻近算法(KNN)KNN分类KNN距离函数KNN算法非形式化描述原创 2019-09-26 09:27:56 · 2703 阅读 · 10 评论 -
MapReduce之使用马尔可夫模型的智能邮件营销(一)
MapReduce之使用马尔可夫模型的智能邮件营销(一)背景你是否经常网购,然后在某个特定的时间里(想要逛街/购物)收到商家/电子商务网站发来的优惠或新品商品的信息?你有是否经常充各种会员,也同样在特定的时间收到商家/网站发来的信息?这便是马尔可夫模型的一种应用,在给定一组随机变量(如顾客的最近交易日期),马尔可夫模型只根据前一个状态(前一个最近交易日期)的分布只是该变量(最近交易日期)的分...原创 2019-09-05 15:09:08 · 379 阅读 · 0 评论 -
MapReduce之使用马尔可夫模型的智能邮件营销(完)
MapReduce之使用马尔可夫模型的智能邮件营销(五)接着上一篇博文MapReduce之使用马尔可夫模型的智能邮件营销(四),在这个阶段中,通过一个简单的Java程序生成马尔可夫模型的状态转移矩阵并进行预测整个过程分为三步:1、读取MapReduce生成的状态转移实例数2、根据状态转移实例数得到状态转移矩阵3、使用状态转移矩阵对顾客交易信息进行预测原创 2019-09-06 10:25:23 · 570 阅读 · 0 评论 -
MapReduce中自定义输入类型在映射器中无法按照键进行区分解决方案
MapReduce中自定义输入类型在映射器中无法按照键进行区分解决方案有时候在运行带有自定义输入输出类型的MapReduce程序时偶然会出现映射器中的数据无法按照键值对中的键 对数据进行区分,导致归约器处理数据产生错误,解决方案如下在自定义输入输出类型中定义compareTo函数使其按照一定规则进行排序@Override public int compareTo(PairOfStri...原创 2019-09-06 10:35:17 · 89 阅读 · 0 评论 -
MapReduce之K-均值聚类(一)
MapReduce之K-均值聚类背景什么是聚类?什么是K-均值算法?K-均值算法的形式化描述K-均值算法距离函数原创 2019-09-21 14:57:18 · 825 阅读 · 0 评论 -
MapReduce之K-均值聚类(完)
K-均值聚类的MapReduce解决方案是一个迭代方案,其中每一次迭代为实现一个MapReduce作业,因此需要创建一个迭代版本的MapReduce作业,因此: 使用控制程序来初始化KKK个质心的位置,迭代调用MapReduce作业,并确定应当继续迭代还是应当停止 映射器需要获取数据点和所有簇质心,其中簇中心必须由所有映射器共享 当质心不再发生变化或者变化小于阈值时停止原创 2019-09-21 15:49:58 · 1111 阅读 · 1 评论 -
MapReduce之基于符号数据的朴素贝叶斯分类(一)
MapReduce之基于符号数据的朴素贝叶斯分类简介 朴素贝叶斯(NBC)是一个基于独立假设应用的贝叶斯定理的概论分类器,NBC根据输入的一些属性将输入分配到kkk个类{C1,C2,…,CkC_1,C_2,\dots,C_kC1,C2,…,Ck}中的某一类。NBC有很多应用,如垃圾邮件过滤和文档分类等。 &...原创 2019-10-02 23:27:11 · 1050 阅读 · 0 评论 -
MapReduce之基于符号数据的朴素贝叶斯分类(完)
MapReduce之基于符号数据的朴素贝叶斯分类在上一篇博客MapReduce之基于符号数据的朴素贝叶斯分类(一)中,简单的介绍了朴素贝叶斯算法的原理,接下来讲述如何使用MapReduce实现朴素贝叶斯算法。输入数据还是以《Machine Learning》中的数据为例:如下所示训练数据Sunny Hot High Weak NoSunny Hot High Strong NoOve...原创 2019-10-03 15:16:23 · 1521 阅读 · 5 评论 -
MapReduce之过滤(二)
MapReduce之简单随机抽样这篇博客和上一篇有点类似,模式描述和应用场景都和MapReduce之过滤(一)类似简单随机抽样从一个较大的数据集中以一定概率抓取一个数据集,其中每条记录均有相同的抽取概率问题描述一个较大的数据集中以一定概率抓取一个数据集样例输入与MapReduce之过滤(一)数据类似样例输出数据集随机生成,可能存在不同map阶段任务在map函数中,简单的生成一...原创 2019-04-17 19:45:01 · 554 阅读 · 0 评论 -
MapReduce之基于内容的电影推荐(完)
MapReduce之基于内容的电影推荐(完)接上一篇博文MapReduce之基于内容的电影推荐(二) ,在MapReduce阶段2中,已经获取到了相关参数,接下来做的便是通过计算关联度来计算两个电影的相似度。MapReduce阶段3阶段3为通过整理阶段2处理好的数据,计算两个向量之间的关联度,mapper阶段任务mapper将MapReduce阶段2的数据进行整理,输出类型如下所示:两...原创 2019-08-22 10:03:42 · 1541 阅读 · 5 评论 -
MapReduce之CWBTIAB (简单推荐系统)
MapReduce之CWBTIAB背景在大多数电商网站中使用 “ 购买过该商品的顾客还购买过哪些商品 “ 即(CWBTIAB)特性来推荐图书或其他商品原理通过统计交易集中购买过该商品的所有顾客所购买过的所有商品,对商品购买次数进行统计,进而得出购买过该商品的顾客可能会购买哪些商品设计方案利用MapReduce的两次迭代实现CWBTIAB功能阶段1:生成同一个用户购买的所有商品列表...原创 2019-08-13 11:47:50 · 528 阅读 · 0 评论 -
MapReduce之分箱
MapReduce之分箱模式描述分箱模式与前面的模式很类似,都是在不考虑记录顺序的情况下对记录进行分类。目的将数据集中每条记录归档到一个或多个类别。性能分析分箱模式是在map段对数据进行拆分,这和其他只有map任务的作业一样,该模式具有相同的可扩展性和性能特性,该模式不需要执行排序,混排以及reduce,并且大部分处理都是在本地数据上执行。问题描述在数据集中按照标签(hadoop,...原创 2019-05-01 08:49:24 · 470 阅读 · 0 评论 -
MapReduce之去重
MapReduce之去重模式描述这个模式过滤整个数据集,过滤应用的最终输出结果是一个唯一记录的集合目的在拥有一系列相思的数据集记录中,找到唯一的集合适用场景对于数据集中存在重复值进行去重操作,如果数据中没有重复值的话,则不需要这个模式使用场景为数据去重抽取重复值规避内连接的数据膨胀问题描述给定一个用户评论的列表,得到去重的用户ID集样例输入样例文本生成代码如下im...原创 2019-04-20 10:22:55 · 1141 阅读 · 0 评论 -
MapReduce之Top10
MapReduce之Top10模式描述Top10顾名思义不管输入数据的大小是多少,都以精准的输出按照规则的前10个结果,在普通的过滤模式中,输出数据的数量有输入数据决定目的无论数据集的大小如何,根据数据集的排序方案,得到一个相对较小的topK记录适用场景异类分析选取感兴趣的数据引人注目的指示版面微博热搜性能分析Top10模式的性能通常是非常好的,不过需要注意的是,不管这个...原创 2019-04-20 09:27:48 · 3905 阅读 · 8 评论 -
MapReduce之分区
MapReduce之分区模式描述分区模式是将记录进行分类,但并不关心记录的顺序目的该模式的目的是将数据集中相似的记录分成不同的,更小的数据集适用场景适用这一个模式的最主要的要求是:必须提前知道有多少个分区,例如,如果按照天数对周进行分区,那末将会有七个分区适用场景如下按连续值裁剪分区按类别剪裁分区分片性能分析在性能方面这个模式主要关注的是,每个分区的结果数据中是否有类似...原创 2019-04-28 20:28:42 · 1397 阅读 · 0 评论 -
MapReduce之过滤(一)
MapReduce之过滤模式描述过滤作为一个抽象模式为其他模式服务,过滤简单的对每一条记录进行评估,并基于某个条件作出判断,以确定当前的这条记录是否保留。目的过滤掉不感兴趣的记录并将需要的记录保留下来适用场景使用过滤的唯一必要条件就是数据可以被解析为“记录”,并通过特定的准则判断他们是否可以被保留近距离观察数据跟踪某个事件的线索数据清洗简单随机抽样移除低分值数据问题描述...原创 2019-04-17 19:32:52 · 1676 阅读 · 0 评论 -
MapReduce之计数器计数
MapReduce之计数器计数模式描述这是使用Mapreduce框架自身的计数器在不产生任何输出的情况下,在map端计算一个全局的计数,是得到大数据集计数概要的一种高效方法适用场景因为计数器信息都是存储在 JobTracker的内存中,每个map任务中的计数器被序列化,并通过状态更新同步到 JobTracker,为了JobTracker正常工作产生影响,计数器的数目族号在几十个内,所以适用...原创 2019-04-13 16:29:29 · 849 阅读 · 0 评论 -
MapReduce之词频统计
MapReduce之词频统计这次终于开始了这是的MapReduce的编码过程,记录以下问题描述编写MapReduce对一个文本中单词的使用频率进行统计样例输入hello worldhello hadoophello mapreducehello sparkhello school输出结果hadoop 1hello 5mapreduce 1school 1spar...原创 2019-04-06 23:58:14 · 7453 阅读 · 7 评论 -
MapReduce之气象数据分析
MapReduce之气象数据分析问题描述通过获取的气象数据来分析气温最大值样例输入数据集地址:天气数据集样例输出表示1901年最大温度为239,可能是他们使用的温度单位和咱们不一样吧map阶段任务map阶段主要是对文本进行切割,提取时间和温度形成 <时间,<温度,,温度,温度>>的键值对map阶段编码如下public static class MaxT...原创 2019-04-10 13:04:40 · 5263 阅读 · 2 评论 -
Mapreduce之二次排序
Mapreduce之二次排序二次排序问题的解决方案归约器值排序至少有两种解决方案:第一种方案是让归约器读取和缓存给定键的所有值,然后对这些值完成一个归约器中排序,这种方法不具有可伸缩性,因为归约器要接收一个给定键的所有值,这种方法可能导致归约器耗尽内存,如果值的数量很少,那么这个方法是适用的第二种方案是使用MapReduce框架对归约器值排序,这种方法“会为自然键增加部分或整个值来创建一...原创 2019-06-06 23:00:16 · 580 阅读 · 0 评论 -
Mapreduce之购物篮分析
Mapreduce之购物篮分析样例输入crackers,bread,bananacrackers,coke,butter,coffeecrackers,breadcrackers,breadcrackers,breadcrackers,bread,coffeebutter,cokebutter,coke,bread,crackers样例输出mapper阶段package...原创 2019-06-18 20:21:19 · 1252 阅读 · 0 评论 -
MapReduce之基于内容的电影推荐(二)
MapReduce之基于内容的电影推荐(二)因为这个MapReduce方案比复杂,所以我把它拆分成三块,这样阅读和管理起来比也方便接上一篇博文MapReduce之基于内容的电影推荐(一),接下来利用MapReduce计算两个电影的相似度,通过计算他们的关联度来计算两个电影的相似度这篇博文主要介绍通过MapReduce获取计算关联度所需要的相关参数MapReduce计算两个电影关联度1、...原创 2019-08-21 15:18:45 · 1609 阅读 · 1 评论 -
Mapreduce之基于内容的电影推荐(一)
Mapreduce之基于内容的电影推荐(一)背景你是不是很想知道腾讯或爱奇艺是如何为用户创建推荐电影?或者淘宝京东如何为用户推荐图书?肯定有某种魔法算法生成的这些推荐系统,那么有那些推荐系统呢?这里介绍基于内容的推荐系统,基于内容的推荐系统会检查项目(如电影)的属性来为用户作出推荐,例如一个用户如果看了很多动作片,那么系统就会为他推荐这一类电影原理在基于内容的推荐系统中,我们得到的内容信...原创 2019-08-21 11:41:55 · 4179 阅读 · 8 评论 -
MapReduce之可能认识的好友
MapReduce之可能认识的好友背景目前有大量的社交网络有一个共同的特性,就是可以推荐联系人,基本思想是:如果A是B的好友,而A又是C的好友(也就是说,A是B和C的共同好友,但B和C彼此并不认识),那么社交网络系统喔咕就会向B推荐C,或者向C推荐B。换句话说,如果两个人有一组共同好友,但这两个人本身不是好友,那么社交网络就会推荐他们相互联络原理所有用户之间的好友关系可以表示为一个图,在数...原创 2019-08-15 15:01:27 · 575 阅读 · 0 评论 -
MapReduce元模式之并行作业链
MapReduce元模式之并行作业链并行作业链的驱动程序和MapReduce元模式之基本作业链和相似,唯一的大改进就是作业以并行的方式提交,然后一直被监控,直到完成并行作业链示例问题描述给定已经分好箱的用户,包含用户ID,用户声望和发表评论的次数,并行执行作业计算每个箱中用户的平均声望样例输入创建数据集的代码如下:import java.io.BufferedWriter;imp...原创 2019-06-24 12:58:30 · 200 阅读 · 0 评论 -
MapReduce元模式之基本作业链
MapReduce元模式之基本作业链模式描述元模式:关于模式的模式元模式不是解决某个特定问题的模式,而是处理模式的模式作业连:该方法将多种模式结合起来以解决复杂的,多级的问题目的解决复杂的,多级的问题,针对于多个不同的mapper阶段和reducer阶段性能分析作业链是众多比较难处理的过程的一种,因为它并不是大多数MapReduce框架中包含的特性,Hadoop被设计成能够很好的处...原创 2019-06-22 16:42:50 · 406 阅读 · 0 评论 -
MapReduce之移动平均(以股票价格为例)
MapReduce之移动平均(以股票价格为例)基本概念时间序列数据时间序列数据表示一个变量在一段时间内的值移动平均令A为一组有序对象的序列:A=(a1,a2,a3,...,aN)A=(a_1,a_2,a_3,...,a_N)A=(a1,a2,a3,...,aN)可以把A表示为{ai}i=1N\{a_i \}_{i=1}^{N}{ai}i=1Nn移动平均序列是由...原创 2019-06-16 10:18:59 · 1042 阅读 · 0 评论 -
MapReduce之反转排序
MapReduce之反转排序模式描述反转排序这种设计模式可以用来控制MapReduce框架中归约器值的顺序,通常会在数据分析阶段应用反转排序模式示例一个简单的例子,通过计算一个给定文档集中单词的相对频度来展示反转排序模式,这个目标是建立一个NxN的矩阵M,其中,其中N=|V|,V=所有给定文档的单词量,每个单元Mij包含一个特定上下文中单词Wi与单词Wj共同出现的次数,假设我们给定以下单词...原创 2019-06-09 22:40:58 · 417 阅读 · 0 评论 -
MapReduce之共同好友
MapReduce之共同好友背景如今大多数的社交网站都有提供的共同好友的服务,可以帮助与好友之间共享图片,消息,视频定义令 U 为包含所有用户的一个集合:{U1,U2,...,UnU_1,U_2,...,U_nU1,U2,...,Un}则为每个{Ui,UjU_i,U_jUi,Uj}对 {i ≠ j} 的共同好友例如好友1 的好友列表中有 100,200,300,400,...原创 2019-06-19 16:18:11 · 460 阅读 · 0 评论