项目梳理
文章平均质量分 81
Wuyikkk
这个作者很懒,什么都没留下…
展开
-
基于MapReduce计算TopN
一、项目需求对上述用户流量表进行处理,输出总流量top10的数据二、项目梳理1、大致流程项目设计分为如下类:FlowBean类:封装用户数据,并定义数据比较方式Mapper类:将从文件读入的每行数据按格式分隔后存入FlowBean输出Comparator类:设置分组比较器,将所有数据输出到一个ReduceReducer类:将从Map端读取到的数据取top10,输出到目标文件2、详细流程首先定义FlowBean,用来封装用户数据(手机号,上行流量,下行流量),还要实现WriteCom原创 2021-02-24 21:58:03 · 733 阅读 · 1 评论 -
基于MapReduce实现PageRank算法
一、什么是PageRankPageRank,又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。二、实现公式对于一个页面A,那么它的PR值为:R(A) 是页面A的PR值PR(Ti)是页面Ti的PR值,在这里,页面Ti是指向A的所有页面中的某个页面C(Ti)是原创 2021-02-23 22:17:42 · 756 阅读 · 1 评论