hadoop
旧时光中的旅人
这个作者很懒,什么都没留下…
展开
-
hive配置
APACHE HIVEApacheHive™数据仓库软件可以使用sql方便地读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投影到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序,将用户连接到Hive。这个ApacheHive™数据仓库软件可以方便地读取、写入和管理分布存储中的大型数据集,并使用SQL语法进行查询。本地模式需要安装jdk至少1.7或更高版本的首先解压安装包到你放置的目录 $ tar -xzvf hive-x.y.z.tar.gz设置环境变量HIVE_HOME原创 2020-08-11 09:07:21 · 156 阅读 · 0 评论 -
HADOOP框架组成
hadoop框架 hadoop 框架的组成:MapReduce (计算) Yarn(资源调度)Hdfs(数据存储) Common(辅助工具)。一 , HDFS架构概述1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。3)Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔原创 2020-07-26 19:06:22 · 1147 阅读 · 0 评论 -
InputFormat切片
**处理数据时怎么完成切片的?**inpt -> inputFormat -> map ->shuffle -> reduce -> outputformat -> 本地文件默认私用的是TextInputFormatgetSplits():切片方法isSplitable(job, path):判断文件是否支持切片,根据文件路径获取压缩格式,如果支持切片返回true,如果文件不是压缩文件,则直接返回truefile.getBlockSize();获取块大小原创 2020-07-16 19:53:25 · 274 阅读 · 0 评论 -
job提交流程步骤
job提交流程步骤waitForCompletion 提交job 任务的入口方法*if(state == JobState.DEFINE)判断任务是否处于定义状态 submit(); ensureState(JobState.DEFINE); //再次确认任务状态(不是DEFINE状态则抛出异常) setUseNewAPI();判断当前是走新的api还是旧的api connect(); 实例化cluster (明确mr运行在本地还是yarn) submitJ原创 2020-07-16 19:50:47 · 672 阅读 · 0 评论
分享