大数据
重生之我在异世界打工
ok
展开
-
HDFS 最全命令合集【持更】
官方地址http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemShell.htmldf查看磁盘占用情况(base) [root@hadoop101 ~]# hdfs dfs -df /Filesystem Size Used Available Use%hdfs://hadoop101:9000 67316113408 .原创 2020-05-31 15:09:13 · 307 阅读 · 0 评论 -
【大数据学习】hadoop-mapReduce分组小问题
注意一个问题有如下数据订单id商品id成交金额0000001Pdt_01222.8Pdt_0233.80000002Pdt_03522.8Pdt_04122.4Pdt_05722.40000003Pdt_06232.8Pdt_0233.8mapreduce默认的是先排序,后分组。如果我们编写Bean时,...原创 2020-02-29 11:01:00 · 106 阅读 · 0 评论 -
记一次【该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系】修复过程
1.检查ntp服务,巧了真的是这个问题原因是ntp服务挂掉了,重新启动后,等10分钟左右再启动所有角色。我启动kudu的时候报错,无法同步还是因时钟同步问题,所以等10分钟左右再启动。2.检查agent server 是否启动(先启动server再启动agent)/opt/cm-5.15.1/etc/init.d/cloudera-scm-agent status (start)server机器: /opt/cm-5.15.1/etc/init.d/cloudera-scm-server st原创 2022-02-22 17:32:16 · 1252 阅读 · 0 评论 -
记一次封装superset打docker镜像的过程
1.拉取镜像docker pull centos:centos72.运行docker run -itd --name mysuperset centos:centos73.进入容器docker exec -it mysuperset /bin/bash4.更新环境yum -y update5.安装需要的软件1.安装vimyun -y install vim2.安装依赖yum install gcc gcc-c++ libffi-devel python-devel python-p原创 2022-02-22 09:53:26 · 1183 阅读 · 0 评论 -
parquent和orc对比
Parquet与ORC的对比https://blog.csdn.net/yu616568/article/details/51868447结论: parquent比较通用,orc比较适合hive,无论是压缩还是插入查询速度对于hive来说都比parquent更优parquent原理https://blog.csdn.net/worldchinalee/article/details/82785262?ops_request_misc=%257B%2522request%255Fid%2522.原创 2021-04-06 16:16:37 · 351 阅读 · 0 评论 -
【腾讯大数据面试】
青蛙一次一个或两个台阶那跳上n阶有多少种跳法并给出代码实现? private static HashMap<Integer, Integer> map = new HashMap<Integer, Integer>(); public static int method(int n) { if (n == 1) { map.put(1, 1); return 1; } if (n原创 2020-06-10 21:56:32 · 332 阅读 · 0 评论 -
自己实时数仓实现思路
2.负责直播质量监控模块:实时统计音频视频丢帧数量、人均卡顿次数、卡顿前10区域等、实时举报监控报警3.负责直播流量模块:实时UV,实时在线总人数、各直播间总人数、各分类在线人数、实时热门直播间、 各分类热门直播间等4.负责交易模块:实时购买礼物总交易额、各礼物购买金额、实时打赏总交易额、各类目打赏总交易额、实时各主播被打赏交易额top10等实时举报监控报警:消费报警日志,使用滑动窗口,没10s检测一分钟之内的直播间投诉量。...原创 2020-06-04 09:21:49 · 227 阅读 · 0 评论 -
【大数据面试】瞎说宝典
哈哈啊哈原创 2020-06-03 08:54:33 · 255 阅读 · 1 评论 -
【虎牙】Flink调优实践
数据倾斜原创 2020-05-26 23:33:58 · 180 阅读 · 0 评论 -
Atlas元数据管理
Atlas元数据管理什么是元数据? 元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。为什么进行元数据管理? 对hive表的元数据用Atlas进行管理,就可以很清楚的知道表与表之前的血缘关系。一个表从哪几个表通过什么方式得来的,这些信息可以辅助我们问题追踪。方便工作交接,几千张表对于一个新员工来原创 2020-05-10 14:59:44 · 1890 阅读 · 0 评论 -
【大数据学习】hadoop-mapReduce阶段
mapperReduce阶段大概流程图MapReduce编程规范用户编写的程序分成三个部分:Mapper、Reducer和Driver。(代码上传到git)hadoop序列化java的序列化serializable是一个重量级的序列化框架,序列化后会附带很多额外的信息,不利于高效的网络传输。hadoop序列化Writable1 紧凑2 快速3 可扩展4 互操作编写bean...原创 2020-02-29 10:18:06 · 131 阅读 · 0 评论