自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Hive介绍

1.什么是Hive hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 hive 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能 本质是将HQL转化成MapReduce程序特点:(1)Hive处理的数据存储在HDFS (2)Hive分析数据的底层实现是MapReduce (3)执行程序运行在Yarn上Hive的...

2021-11-16 18:14:55 888

原创 Hadoop介绍

1.hadoop的特点(优势-4高): (1)高可用性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或者存储出现故障,也不会导致数据的丢失 (2)高扩展性:在集群分配任务数据,可方便的扩展数以千记得节点 (3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。 (4)高容错性:能够自动将失败的任务重新分配...

2021-11-16 17:18:32 624

原创 Hive的调优策略

1.Featch抓取,某些情况可以不用MapReduce计算2.开启Hive的本地模式,小数据在本地处理即可3.开启Hive的并行执行4.Hive的严格模式 (1)分区表,只用where过滤分区字段 (2)order by,必须使用limit (3)限制笛卡尔积的查询5.JVM的重用,同一个job重新使用N次6.开启Hive的推测执行7.数据压缩(gzip,lzo,snappy,bzip2)8.表的优化 (1...

2021-11-16 17:04:18 909

原创 Hadoop的组成-1.x和2.x的区别

2021-11-16 09:17:54 457

原创 HDFS分布式文件系统组件及读写操作

1.HDFS的写操作2.HDFS的读操作3.HDFS的组件(文件切成块)1.Namenode:存储文件元数据,与客户端交互2.Datanode:在本地系统存储文件块数据,以及块数据的校验和3.SecondaryNameNode:每一段时间对Namenode元数据备份...

2021-11-15 23:53:58 208

原创 数仓建设架构图

2021-11-15 22:29:56 414

原创 北明软件有限公司大数据开发实习

null

2021-11-15 22:29:31 100

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除