大数据
xiaoxiaodu201314
有数据,会分析,保证结果
展开
-
hive中的with…as
with…as子查询部分。就是查询出一部分数据保存在一个临时表temp表中使用最普通的嵌套查询部分select * from table_b where id in (select id from table_a where Name like 'C%')这时候进行优化,如果嵌套过多的话,就很难阅读,建议使用变量来解决这个问题declare @t table(id nvarchar(3))insert into @t(id) (select id from table_原创 2020-05-15 15:54:23 · 1096 阅读 · 0 评论 -
Spark之综合性练习(Spark,Kafka,Spark Streaming,MySQL)
**文章目录题目答案<1> 创建Topic<2> 读取文件,并对数据做过滤并输出到新文件<3> 读取新文件,将数据按照题意发送到Kafka的不同分区<4> 先在数据库中创建好接收数据需要用到的表<5> 使用Spark Streaming对接kafka之后进行计算结语**题目以下是RNG S8 8强赛失败后,官微发表道...原创 2020-04-27 22:16:27 · 204 阅读 · 0 评论 -
hive--分组排序函数
分组排序最主要的区别就是如果两个分数相同,排名是否同列以及排名是否相同。这个方法仅在mysql8.0以后,hive或其他数据库支持直接看图:原始表原表如上,想要的结果如下从图中可以发现:row_number函数:如果并列但名次反而不相同,但是后续的名次是连续的rank函数:如果并列则名次相同,但是后续的名次会不连续dense_rank函数:如果并列则名次相同,但是后续的名次...原创 2020-04-27 21:18:52 · 1618 阅读 · 0 评论 -
HDFS读写底层源码
一、HDFS 客户端读文件流程1、打开HDFS文件: HDFS客户端首先调用DistributedFileSystem.open方法打开HDFS文件,底层会调用ClientProtocal.open方法,返回一个用于读取的HdfsDataInputStream对象2、从NameNode获取DataNode地址:在构造DFSInputStream的时候,对调用ClientPortocal.ge...原创 2020-04-27 20:47:55 · 471 阅读 · 0 评论 -
hive—面试题(1)
假设现在有100W数据放在hive的这一张内部分区表table1,平均分配到了十个分区,假设有个工作人员不小心删掉了一个hdfs文件夹(hadoop fs rm -r, 分区表的一个分区文件夹),请问select count(1) from table1的执行结果。A 90W B 100W C 其他情况,请具体说明???自己电脑上有虚拟机集群的, 可以亲测一下哦!!!...原创 2020-04-27 20:37:04 · 194 阅读 · 0 评论 -
Hadoop--之--RPC(远程过程调用)与HTTP的区别
#Hadoop相关RPC(远程过程调用)与HTTP的区别:最主要的区别:OSI网络7层模型RPC组件HTTP服务:总结:RPC(远程过程调用)与HTTP的区别:最主要的区别:RPC是基于TCP/IP协议的HTTP服务是基于HTTP协议的因为http协议是在传输层协议TCP之上的,所有效率上TCP也就是RPC会高一点。OSI网络7层模型第一层:应用层。定义了用于在网络中进行...原创 2020-04-27 18:58:55 · 771 阅读 · 0 评论