Hadoop
XDSXHDYY
逝者如斯夫,不舍昼夜。
展开
-
carbondata使用笔记
carbondata:列存储格式,与Spark进行了深度集成,兼容了Spark生态功能(SQL,DataFrame,ML等) carbondata文件结构 CarbonData 为每个数据块创建一个文件,每个文件都包含 File Header, Blocklets 和 File Footer。 file header:文件头 保存存储格式的版本和模式信息 blocklet:最大容量64m,存储数据 file footer:文件尾 存储数据的索引和摘要 通过支持二级索引,提升查询性能 第一级:文件级索引,原创 2020-05-14 18:25:55 · 560 阅读 · 1 评论 -
分布式和集群的理解
分布式 分布式:一个业务拆分成多个子业务,部署在多个服务器上。若一个子业务节点垮了,那整个业务就不能访问了。 (举例:一个人跑完一千米,变成四个人各跑250米;四个人都跑完250米用的时间会少于一个人跑1000米用的时间,单个节点无法满足业务需求的时候,采用分布式可减少负载提升性能和并发,把一千米的业务拆分成四个250米的子业务相当于分布式,如果一个人出了问题那这个业务就不能算完成) 集群 ...原创 2018-09-03 00:12:47 · 385 阅读 · 0 评论 -
物联网、大数据、云计算的基本简介
物联网 物联网:物物相连的互联网,是互联网的延伸。利用局部网络或互联网等通信技术把传感器,控制器,机器,人员和物等联在一起,实现信息化和远程管理控制。 最关键技术:识别感知技术(二维码、传感器、RFID公交卡{电磁感应}等),网络通信,数据挖掘 我们日常最常用的就是手机,各种摄像头,手环… 大数据 大数据的技术层面:数据采集,数据存储和管理,数据处理和分析,数据隐私和安全。 大数据两大...原创 2018-09-03 00:40:12 · 831 阅读 · 0 评论 -
Linux命令操作HDFS文件系统
HDFS命令操作 # 格式化操作 $ bin/hdfs namenode -format # 展示文件和文件夹列表 $ bin/hdfs dfs -ls / # 创建文件夹 # 在用户目录下创建 $ bin/hdfs dfs -mkdir AAA/ # 在根目录下创建 $ bin/hdfs dfs -mkdir /AAA/ # 递归层级创建多个文件夹 $ bin/hdfs dfs -m...原创 2018-11-23 00:11:47 · 1099 阅读 · 0 评论