![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
yoohhwz
这个作者很懒,什么都没留下…
展开
-
windows搭建HDFS客户端
1、去Apache官网下载hadoop解压包(官网)2、找到你需要的安装包下载3、下载后解压,配置环境变量3、下载尽量对应版本的 hadoop.dll 和 winutils.exe(下载地址)4、然后将下载后的 winutils.exe 放入解压后的 %HADOOP_HOME%\bin 目录下,将hadoop.dll 放入C:\Windows\System32 目录下5、新建Maven项目测试 <properties> <maven..原创 2021-02-14 16:11:12 · 1902 阅读 · 0 评论 -
还原hadoop离线项目实战
项目架构:idea创建sb项目:至此,sb项目构建完毕,找到程序入口,测试成功!搭建nginx环境:1,安装c++依赖cd /etc/yum.repos.drm -rf *上传 CentOS6-Base-163.repo 文件---->/etc/yum.repos.dyum clean allyum makecacheyum -y install gcc pcre...原创 2019-10-05 16:23:23 · 143 阅读 · 0 评论 -
阿里云主机Hadoop-HA集群搭建步骤(详细)
环境:阿里云三台:centos7.2hadoop-2.6.0-cdh5.15.1.tar.gzjdk-8u45-linux-x64.gzzookeeper-3.4.6.tar.gz先在三台机器上分别创建一个hadoop用户,并切换至hadoop用户[root@hadoop001 ~]# useradd hadoop[root@hadoop002 ~]# useradd hadoop...原创 2019-08-21 02:30:03 · 833 阅读 · 0 评论 -
Hive相关概念
Hive:基于Hadoop之上的一个离线数据仓库,使用hdfs作为底层存储,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive主要分为以下几个部分:1. 用户接口用户接口主要有三个:CLI,Client 和 WebUI(HUE/Zeppelin)。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个...原创 2019-07-15 23:29:28 · 235 阅读 · 0 评论 -
常见错误集(持续更新)
1.多次执行hdfs namenode -format命令然后启动start-dfs.sh 然后jps后发现datanode节点(或者其它节点,比如namenode)没有启动,然后去logs目录下查看datanode的日志文件hadoop-hadoop–datanode(或者其它比如namenode).log发现报如下错: 2019-07-03 12:39:54,640 WARNorg.ap...原创 2019-07-15 09:20:13 · 735 阅读 · 0 评论 -
MR的shuffle相关总结
mapreduce流程总结:1.通过InputFormat读取切片的数据,以<k1,V1>(K表示偏移量,V表示一行数据)的形式进入map()方法进行逻辑处理,处理之后的数据<K2,V2>(K2为标识符,V2为自定义的值)会通过partition分区进入到map shuffle阶段2.在进入到map shuffle阶段时会先进入环形内存缓冲区,默认100M,当缓冲区...原创 2019-07-14 23:46:38 · 299 阅读 · 0 评论 -
Yarn的概念以及资源分配
资源:一般来说资源分为CPU和内存 内存是一种“决定生死”的资源CPU是一种“影响快慢”的资源Yarn是做什么的? 是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,可为mr,spark,storm等提供资源分配与调度。yarn的模块划分:ResourceManager1)处理客户端请求2)启动/监控ApplicationMaster3)监控NodeManage...原创 2019-07-14 23:25:00 · 1249 阅读 · 0 评论 -
Hadoop1.0和2.0的主要区别
Hadoop 1.0指的是版本为Apache Hadoop0.20.x、1.x或者CDH3系列的Hadoop,组件主要由HDFS和MapReduce两个系统组成,HDFS是一个分布式文件存储系统,MapReduce是一个离线处理框架,分为三部分,运行时环境为JobTracker和TaskTracker,编程模型为Map映射和Reduce规约,数据处理引擎为MapTask和ReduceTask,H...原创 2019-07-13 18:28:04 · 4116 阅读 · 0 评论 -
Linux环境下部署Mysql数据库
一篇比较详细的linux环境MySQL的安装步骤1.mysql安装目录在/usr/local下,然后通过rz上传我们的mysql安装包2.使用ps -ef | grep mysqld 命令检查是否已经存在Mysql进程3.使用tar -zxvf mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz 解压我们的MySQL安装包到当前/usr/loc...原创 2019-06-25 22:43:43 · 12617 阅读 · 0 评论 -
HDFS相关基础概念
HDFS:hadoop实现的一个分布式文件存储系统,是主/从(Mater/Slave)体系结构,是基于流 数据模式访问和处理超大文件的需求而开发的。它所具有的高容错、高可靠性、高可扩展性、高吞吐率等特征为海量数据提供了,是主从架构,分为namenode,datanode,secondaryNamenode。Namenode:是master1、管理 HDFS 的名命空间(a.文件名称b....原创 2019-07-08 22:37:02 · 180 阅读 · 0 评论 -
CDH集群伪分布式搭建步骤
1.安装虚拟机,配置ip(参考链接:点击这里)2.更改主机名,关闭防火墙,设置ip映射[root@hadoop001 ~]# vi /etc/sysconfig/network //更改主机名[root@hadoop001 ~]# service iptables stop //关闭防火墙[root@hadoop001 ~]# chkconfig iptables...原创 2019-07-03 00:41:00 · 1036 阅读 · 0 评论 -
linux环境下jdk的安装
1.jdk安装目录必须建在 /usr/java下,不然在cdh集群搭建时候会有问题2.执行命令时候是从$PATH中从前往后执行的,所以需要将你的java环境变量放在$PATH的前边,这样系统才会采用你的jdk3.配置完环境变量后记得刷新 source /etc/profile 或者 . /etc/profile4.安装完成后你会发现你的jdk目录所属用户,所属组有问题需要我们修正开...原创 2019-06-22 13:08:54 · 221 阅读 · 0 评论 -
linux基础命令总结(持续更新)
命令可能不是那么的全,但是却是很实用的一些....查看当前系统主机名:hostname查看ip:ifconfig命令补全:按下tab键显示当前绝对路径:pwd查看hdfs数据块健康状态:hdfs fsck /查看进程:ps -ef | grep xxx eg:ps -ef | grep hadoop查看端口号(必须使用拥有sudo权限的用户或者直接root用户):...原创 2019-06-16 19:01:23 · 258 阅读 · 0 评论 -
Linux虚拟机Nat模式超详细搭建攻略
1.下载VMware Workstation软件,然后傻瓜式一直点击下一步即可完成安装,我这里用的是VMware102.打开VMware软件,点击文件--->新建虚拟机3. 选择自定义安装,点击下一步4.这一步不做任何操作,点击下一步5.选择稍后安装操作系统,点击下一步6.选择 linux 和CentOS64位,点击下一步7.给你的虚拟机起个名字,我这里就...原创 2019-06-15 12:56:27 · 980 阅读 · 0 评论