
大数据
文章平均质量分 75
yisuoyanyv
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Iceberg Research
Apache iceberg 的感性认知,架构,业务,特性,优点原创 2022-06-01 16:07:54 · 1253 阅读 · 0 评论 -
Flink 错误记录解决
背景<flink.version>1.10.1</flink.version>在测试Table API和Flink SQL时出现如下错误错误日志Exception in thread "main" org.apache.flink.table.api.TableException: Could not instantiate the executor. Make sure a planner module is on the classpath at org.apache.原创 2021-04-07 21:28:22 · 1237 阅读 · 0 评论 -
Hadoop 企业级优化
Hadoop 企业级优化1 MapReduce 跑的慢的原因2 MapReduce优化方法数据输入Map阶段Reduce阶段IO传输数据倾斜问题常用的调优参数3 Hadoop 小文件优化方法Hadoop小文件弊端Hadoop小文件解决方案小文件优化的方向:Hadoop ArchiveSequenceFileCombineTextInputFormat开启uber模式,实现jvm重用配置mapreduce.job.jvm.numtasks 参数实现在一个Jvm中运行多个Task1 MapReduce 跑的慢原创 2021-02-18 18:51:15 · 177 阅读 · 0 评论 -
大数据技术生态体系图
大数据技术生态体系图名词解释1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;3)Kafka:Kafka是一种高吞吐量的分布式发布订原创 2021-02-07 14:18:36 · 1149 阅读 · 1 评论 -
Hive SQL 面试题及解析过程
问题问题:查询user_low_carbon表中每日流水记录,条件为:用户在2017年,连续三天(或以上)的天数里,每天减少碳排放(low_carbon)都超过100g的用户低碳流水。需要查询返回满足以上条件的user_low_carbon表中的记录流水。例如用户u_002符合条件的记录如下,因为2017/1/2~2017/1/5连续四天的碳排放量之和都大于等于100g:seq(key) user_id data_dt low_carbonxxxxx10 u_002 2017/1/2原创 2021-01-24 23:12:11 · 587 阅读 · 0 评论 -
Hive 实战
目录数据准备-表结构gulivideo_orcgulivideo_user_orc需求一:统计视频观看数最高的 top10需求二:统计视频类别热度Top10需求三:统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数需求四: 统计视频观看数Top50所关联视频的所属类别Rank需求五:统计每个类别中的视频热度Top10,以Music为例需求五扩展: 统计每个类别中的视频热度Top10需求六:统计每个类别视频观看数Top10 参考需求五拓展需求七:统计上传视频最多的用户Top10以及他原创 2021-01-20 22:09:03 · 335 阅读 · 0 评论 -
Hive UDF函数与UDTF函数
目录UDF(User-Defined-Function)UDAF(User-Defined-Aggregation Function)UDTF(User-Defined Table-Generating Functions)UDF(User-Defined-Function)一进一出开发示例:1.创建maven项目, 引入依赖 <dependencies> <dependency> <groupId>org.apache原创 2021-01-16 22:59:32 · 632 阅读 · 0 评论 -
Hive 常用函数实例
常用日期函数实例hive (default)> select unix_timestamp();unix_timestamp(void) is deprecated. Use current_timestamp instead.OK_c01607595857Time taken: 0.026 seconds, Fetched: 1 row(s)hive (default)> select unix_timestamp('2018-08-08 08:08:08');OK_c0原创 2021-01-15 22:34:50 · 371 阅读 · 0 评论 -
Hive 学习笔记 排序-分区-分桶-函数
1. 排序1.1 Order By 全局排序关注点: 只有一个reducer ,也就是只有一个分区。1.2 Sort By Reducer内部排序,分区内排序关注点: 有多个reducer,也就是有多个分区注意点: 有多个reducer,单独使用sort by ,数据会被随机分到每个reducer中,在每个reducer中,sort by 将数据排序。set mapreduce.job.reduces; select * from epm order by detp desc;in原创 2021-01-14 23:08:48 · 1849 阅读 · 1 评论 -
Spark 键值对操作
Spark 键值对操作2019年11月22日简介键值对RDD通常用来进行聚合计算键值对RDD在各节点上分布情况的高级特性:分区使用可控的分区方式把常被一起访问的数据放到同一个节点上,可以大大减少应用的同学开销,带来明显的性能提升。为分布式数据集选取正确的分区方式。pair RDD提供 reduceByKey()方法,可以分别规约每个键对应的数据。Join()方法,可以把两个RDD中...原创 2019-11-23 23:38:53 · 1241 阅读 · 0 评论 -
Spark RDD总结
Spark RDD 总结2019年11月21日16:58RDD两种操作RDD 支持两种类型的操作:转化操作(transformation)和行动操作(action)转化操作会由一个RDD生产一个新的RDD。 如fliter,map行动操作会对RDD计算出一个结果。如first,count两种操作区别在于Spark计算RDD的方式不同。Spark惰性计算,只有第一次在一个行动操作中用到...原创 2019-11-23 23:17:26 · 622 阅读 · 0 评论