分布式计算系统
文章平均质量分 63
作者很懒,什么都没留下
张嘉睿大聪明
这个博主很懒,什么都没有留下...
展开
-
比较 Spark 和 MapReduce 执行迭代应用Pagerank的性能差异
a) MapReduce 执行迭代计算过程中会反复读写 HDFS,因此可以在 HDFS 中观察到每一轮迭代的输出结果。b) MapReduce 会提交一系列的作业,而 spark 仅有一个应用,在 Yarn 的 UI 显示会不一样。c) 对于同样规模的数据集,spark 执行时间应当更短。..................原创 2022-06-24 16:12:10 · 690 阅读 · 0 评论 -
Spark Transitive Closure
在数学中,集合 X 上的二元关系 R 的传递闭包指的是包含 R 的 X 上的最小的传递关系,记作 t®。 例如,假设集合 X 为人的集合 {a,b,c},二元关系 R 为父子关系 {,}, 其中 和 分别表示a是b的父亲以及b是c的父亲,则 t® 应为祖宗-后代关系 {,,}。 当前,社保局拿到了一份名单,该名单给出了子女-父母的关系。 社保局想要从该名单中分析出名单中包含的子女-祖父母、外祖父母关系。 然而,名单很庞大,如果手工分析...原创 2022-06-24 16:09:42 · 303 阅读 · 0 评论 -
Spark Monte Carlo
蒙特卡罗(Monte Carlo)算法计算圆周率的主要思想如下: 给定边长为R的正方形,画其内切圆,然后在正方形内随机打点,设点落在圆内的概为P,则根据概率学原理: P = 落在圆内点的数量/正方形内点的数量 = 圆面积 / 正方形面积 = PI * R * R / 2R * 2R = PI / 4。即 PI=4P。 这样,当随机打点足够多时,统计出来的概率就非常接近于PI的四分之一了。请根据蒙特卡洛思想来估计 Pi 的值。在 DSPPCode.spark.pi 中创建 PiSimulatorImpl,原创 2022-06-24 16:04:12 · 229 阅读 · 0 评论 -
MapReduce Common PageRank
基于两个输入文本(网页链接关系、初始的网页排名)实现网页链接排名算法(阻尼系数以0.85计算)。 本题对网页排名值的收敛条件做了简化,如果当某一网页当前排名值与上一轮迭代排名值之间差值的绝对值小于1e-6,那么认为该网页的排名值已经收敛。 迭代停止的条件为达到最大迭代次数或某次迭代中所有网页均收敛。 网页总数N在测试阶段由后台自动给出。输入格式:文本中的第一列都为网页名,列与列之间用空格分隔。其中,网页链接关系文本中的其他列为出站链接,如A B D表示网页A链向网页B和D(所有网页权重按1.0计算)初始的原创 2022-06-24 16:01:59 · 281 阅读 · 0 评论 -
MapReduce Inverted Index
倒排索引是 Elasticsearch 中非常重要的索引结构,是从文档单词到文档 ID 的过程。 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。 由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index) 现实中,倒排索引主要应用于搜索引擎中,用于构建单词到文档的索引,从而能够快速的通过用户的输入查找相关的网页。本题目需要实现构建倒排索引的过程。具体来说,给定一组英文文档,使用空格进行分词原创 2022-06-24 15:56:01 · 284 阅读 · 0 评论 -
MapReduce Crashed SQL
DASE店铺在开业一周年之际,决定通过以下活动来回馈新老用户,即在过去一年内订单金额前5的订单可以享受八折优惠。Tom是一名SQL开发人员,他为了从历史订单表中找出总金额前五的订单,很轻松地就写出了相应的SQL语句 SELECT id,UserName,SUM(Price) total FROM orders ORDER BY total DESC LIMIT 5; 但海量的订单导致该SQL查询在单机数据库中执行一段时间后就崩溃而无法得到结果,Tom只好求助作为大数据开发工程师的你,希望你能帮他实现该SQL原创 2022-06-24 15:49:40 · 264 阅读 · 0 评论 -
MapReduce Student Info
某校统计了在校学生的性别和身高数据,现要求对这些数据进行处理以分别计算出男生身高的最大值与男生平均身高的差,女生身高的最小值与女生平均身高的差。输入格式:数据保存在文件中,文件的每行由学生的序号、性别以及身高信息(单位为cm)组成。信息之间用逗号分隔。输出: 请输出性别和对应差值,中间用制表符分隔。请在 DSPPCode.mapreduce.student_info.impl 中创建 StudentInfoMapperImpl 和 StudentInfoReducerImpl, 分别继承 StudentI原创 2022-06-24 15:45:21 · 138 阅读 · 0 评论