大数据
zz962
喜欢钻研技术
展开
-
PageRank的简单实现(scala版)
基本思路: 1、假设有B、C、D三个网页链接到A,则A的PR值等于各个网页自身PR值除以外链数之和。 2、比如B的PR值为X,外链到3个网站,则B对外贡献值为X/3 3、实际计算要有阻尼系数参与 样本数据 A B C D 以上代表:A网页会跳转到B、C、D三个网页 伪代码 1、加载数据获得lineRDD 2、将lineRDD转换为(当前网页,(指向网页的原创 2017-04-28 23:34:56 · 882 阅读 · 0 评论 -
scala版wordcount
需求 用scala实现计算wordcount 完整实现 package core import org.apache.spark.{SparkConf, SparkContext} /** * */ object BasicWordCountApp { def main(args: Array[String]): Unit = { //获得SparkConf原创 2017-04-25 23:23:05 · 333 阅读 · 0 评论