![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
xinxiangsui2008
这个作者很懒,什么都没留下…
展开
-
hadoop对于压缩文件的支持
hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。 如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。 hadoop对每个压缩格式的支持,详细见下表: 压缩格式 工具 算法 文件扩展名 多文件 可分割性转载 2015-12-01 16:23:20 · 404 阅读 · 0 评论 -
Tachyon:Spark生态系统中的分布式内存文件系统
Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。转载 2016-03-16 16:50:45 · 447 阅读 · 0 评论 -
Ganglia监控Hadoop及Hbase集群性能(安装配置)
Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Ganglia 可以实现良好的扩展转载 2016-03-18 14:07:08 · 1153 阅读 · 0 评论 -
Spark 中map与 flatMap的区别
通过一个实验来看Spark 中 map 与 flatMap 的区别。 步骤一:将测试数据放到hdfs上面 hadoopdfs -put data1/test1.txt /tmp/test1.txt 该测试数据有两行文本: 该测试数据有两行文本: 步骤二:在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt转载 2016-05-24 17:44:42 · 839 阅读 · 0 评论 -
Hadoop安全机制
Hadoop集群安全 Hadoop自带两种安全机制:Simple机制、Kerberos机制转载 2016-05-25 17:42:51 · 4362 阅读 · 0 评论 -
Ganglia监控Hadoop与HBase集群
Hadoop 集群基本部署完成,接下来就需要有一个监控系统,能及时发现性能瓶颈,给故障排除提供有力依据。监控hadoop集群系统好用的比较少,自身感觉 ambari比较好用,但不能监控已有的集群环境,挺悲催的。ganglia在网上看到原生支持Hadoop、Hbase性能监控,试用一段时间感觉还不 错,监控项比较全面,配置简单,软件包在epel网络源中,使用yum安装方便快捷。 Gangl转载 2016-07-15 13:33:01 · 473 阅读 · 0 评论 -
hive的脚本执行
hive -e "SQL" hvie -f file 实例 [root@spark1 ~]# hive -e "show tables" #查看有哪些表 [root@spark1 ~]# hive -e "show tables" >> wujiadong #将查看结果追加到wujiadong文件中 [root@spark1 ~]# hive -f 1.转载 2017-08-07 14:24:46 · 677 阅读 · 0 评论