大数据
文章平均质量分 64
小鱼儿的博客
每天付出一点点,让自己变得更强壮!终身学习者,遇见更多优秀的人
展开
-
大数据三道习题
Lambda 架构设计图Lambda体系架构的优点 鲁棒性和容错能力。由于批处理层被设计为追加式,即包含了自开始以来的整体数据集,因此该系统具有一定的容错能力。如果任何数据被损坏,该架构则可以删除从损坏点以来的所有数据,并替换为正确的数据。同时,批处理视图也可以被换成完全被重新计算出的视图。而且速度层可以被丢弃。此外,在生成一组新的批处理视图的同时,该架构可以重置整个系统,使之重新运行。 可扩展性。Lambda体系架构的设计层是作为分布式系统被构建的。因此,通过简单地添加更...原创 2021-11-18 00:58:35 · 1066 阅读 · 1 评论 -
spark实现倒排索引
1.需求:读取文件夹下的文件列表,并实现文件索引和词频统计2.思路2.1读取目录下的文件,并生成列表2.2遍历文件,并读取文件类容成成Rdd,结构为(文件名,单词)并将多个Rdd拼接成1个Rdd2.3 构建词频((文件名,单词),词频)2.4调整输出格式,将(文件名,单词),词频)==》 (单词,(文件名,词频)) ==》 (单词,(文件名,词频))汇总3.实现package org.jikeimport org.apache.hadoop.fs.{FileSyst...原创 2021-09-08 08:32:34 · 1520 阅读 · 0 评论 -
HIVE SQL 编程实操
1.需求根据一下三张表完成对应的查询需求表1:hive_sql_test1.t_user观众表共6000+条数据表2:hive_sql_test1.t_movie电影表共3000+条数据表3:hive_sql_test1.t_rating影评表100万+条数据查询1:展示电影ID为2116这部电影各年龄段的平均影评分查询2:找出男性评分最高且评分次数超过50次的10部电影,展示电影名,平均影评分和评分次数2.思路2.1 统计维度:年龄、平均影评分 ...原创 2021-08-09 01:12:40 · 427 阅读 · 0 评论 -
Java Api 操作 Hbase
1.需求主要实践建表、插入数据、删除数据、查询等功能。要求建立一个如下所示的表:表名:$your_name:student 空白处自行填写, 姓名学号一律填写真实姓名和学号2.思路2.1 建立远程Hbase集群连接 --HbaseInit.javapackage com.jike.bigdata;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfigur.原创 2021-08-06 01:29:16 · 920 阅读 · 0 评论 -
HadoopRPC调用案例
目录1.需求:2.基本思路2.1首先需用定义一个协议,它描述了服务对外提供了哪些接口或者功能--MyProtocol.java2.2Server端需要实现协议接口,并返回版本号,实现返回学院名称的函数--MyImp.java2.3构建Server,绑定协议的实现类,并启动server--Myserver.java2.4. 构建客户端,并访问add服务以及返回学员名称的服务--MyClient.java3.执行结果4.参考资料1.需求:根据HadoopRPC框...原创 2021-07-26 16:26:52 · 182 阅读 · 0 评论