hadoop
文章平均质量分 74
Alonzo de blog
这个作者很懒,什么都没留下…
展开
-
scala
Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的 静态类型编程语言(静态语言需要提前编译的如:Java、c、c++等,动态语言如:js)。原创 2022-11-18 15:10:18 · 768 阅读 · 0 评论 -
关于hive在运行insert时失败原因刨析
设置yarn容器最大内存、容器最小内存等。运行 insert语句后。原因虚拟机内存不足。原创 2022-11-12 10:01:09 · 2364 阅读 · 1 评论 -
hadoop分布式文件系统
分布式文件系统:管理网络中跨多台计算机存储的文件系统称为分布式文件系统。提出背景:当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干台单独的计算机上。Hadoop的分布式文件系统称为HDFS(Hadoop Distributed Filesystem)。原创 2022-11-10 20:12:53 · 2557 阅读 · 1 评论 -
zookeeper概述
Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。原创 2022-11-10 14:24:13 · 753 阅读 · 0 评论 -
Yarn资源调度器
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。原创 2022-11-06 15:51:19 · 215 阅读 · 0 评论 -
MapReduce内核
(1)Read阶段:MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。 (3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。原创 2022-11-06 15:48:35 · 87 阅读 · 0 评论 -
MapRecuce框架原理
(1)如果RedceTask的数量>getPatition的结果数,则会多产生几个空的输出文件part-r-000xx;(2)如果1原创 2022-11-06 15:47:02 · 253 阅读 · 0 评论 -
MapReduce概述
序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。实现Writable接口反序列化时,需要反射调用空参构造函数重写方法 write 和 readFields 方法注意反序列化的顺序和序列化的顺序完全一致要想把结果显示在文件中,需要重写toString()原创 2022-11-04 16:51:47 · 549 阅读 · 0 评论 -
HDFS概述
HDFS(Hadoop Distributed File System),他是一个文件系统,用于存储文件,通过目录树来定位文件。它是分布式文件管理系统。原创 2022-10-27 14:29:35 · 204 阅读 · 0 评论 -
Hadoop集群配置
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置。原创 2022-10-27 14:26:41 · 131 阅读 · 0 评论 -
JDK与Hadoop安装
bin:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本。etc:Hadoop的配置文件目录,存放Hadoop的配置文件。share:存放Hadoop的依赖jar包、文档和官方案例。sbin:存放启动或停止Hadoop相关服务的脚本。lib:存放Hadoop的本地库。原创 2022-10-27 14:24:42 · 246 阅读 · 0 评论 -
Hadoop简介
hadoop原创 2022-10-27 14:23:58 · 1183 阅读 · 0 评论