
大数据
文章平均质量分 64
小鱼儿的博客
每天付出一点点,让自己变得更强壮!终身学习者,遇见更多优秀的人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据三道习题
Lambda 架构设计图 Lambda体系架构的优点 鲁棒性和容错能力。由于批处理层被设计为追加式,即包含了自开始以来的整体数据集,因此该系统具有一定的容错能力。如果任何数据被损坏,该架构则可以删除从损坏点以来的所有数据,并替换为正确的数据。同时,批处理视图也可以被换成完全被重新计算出的视图。而且速度层可以被丢弃。此外,在生成一组新的批处理视图的同时,该架构可以重置整个系统,使之重新运行。 可扩展性。Lambda体系架构的设计层是作为分布式系统被构建的。因此,通过简单地添加更...原创 2021-11-18 00:58:35 · 1124 阅读 · 1 评论 -
spark实现倒排索引
1.需求:读取文件夹下的文件列表,并实现文件索引和词频统计 2.思路 2.1读取目录下的文件,并生成列表 2.2遍历文件,并读取文件类容成成Rdd,结构为(文件名,单词)并将多个Rdd拼接成1个Rdd 2.3 构建词频((文件名,单词),词频) 2.4调整输出格式,将(文件名,单词),词频)==》 (单词,(文件名,词频)) ==》 (单词,(文件名,词频))汇总 3.实现 package org.jike import org.apache.hadoop.fs.{FileSyst...原创 2021-09-08 08:32:34 · 1686 阅读 · 0 评论 -
HIVE SQL 编程实操
1.需求 根据一下三张表完成对应的查询需求 表1:hive_sql_test1.t_user观众表共6000+条数据 表2:hive_sql_test1.t_movie电影表共3000+条数据 表3:hive_sql_test1.t_rating影评表100万+条数据 查询1:展示电影ID为2116这部电影各年龄段的平均影评分 查询2:找出男性评分最高且评分次数超过50次的10部电影,展示电影名,平均影评分和评分次数 2.思路 2.1 统计维度:年龄、平均影评分 ...原创 2021-08-09 01:12:40 · 510 阅读 · 0 评论 -
Java Api 操作 Hbase
1.需求 主要实践建表、插入数据、删除数据、查询等功能。要求建立一个如下所示的表: 表名:$your_name:student 空白处自行填写, 姓名学号一律填写真实姓名和学号 2.思路 2.1 建立远程Hbase集群连接 --HbaseInit.java package com.jike.bigdata; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfigur.原创 2021-08-06 01:29:16 · 1046 阅读 · 0 评论 -
HadoopRPC调用案例
目录 1.需求: 2.基本思路 2.1首先需用定义一个协议,它描述了服务对外提供了哪些接口或者功能--MyProtocol.java 2.2Server端需要实现协议接口,并返回版本号,实现返回学院名称的函数--MyImp.java 2.3构建Server,绑定协议的实现类,并启动server--Myserver.java 2.4. 构建客户端,并访问add服务以及返回学员名称的服务--MyClient.java 3.执行结果 4.参考资料 1.需求: 根据HadoopRPC框...原创 2021-07-26 16:26:52 · 241 阅读 · 0 评论