大数据
超人-归来
开心每一天!!
展开
-
大数据之---Spark编译安装
官方文档:spark.apache.org/docs/latest Spark背景 MapReduce局限性: 1>) 繁杂 map/reduce (mapjoin没有reduce) low_level constained 需求 测试 每次改代码再测试 2>) 技术效率低原创 2018-05-07 14:50:47 · 133 阅读 · 0 评论 -
hadoop01:8020 failed on connection exception: java.net.ConnectException: 拒绝接
实验中使用hdfs报错,怎么也能连接hadoop,重启还是报错,仔细排查下[root@hadoop01 ~]# hadoop fs -ls /ls: Call From hadoop01/172.16.18.133 to hadoop01:8020 failed on connection exception: java.net.ConnectException: 拒绝接; For more de...原创 2018-05-28 16:12:11 · 15178 阅读 · 1 评论 -
linux + idea + scala + cdh环境
http://www.jetbrains.com/idea/download/软件下载上传解压[root@hadoop01 opt]# tar xvf ideaIU-2018.1.4.tar.gz 配置java环境变量export JAVA_HOME=/usr/java/jdk1.7.0_79export PATH=$JAVA_HOME/bin:$ORACLE_HOME/bin:$R_HOME/b...原创 2018-06-19 16:25:47 · 687 阅读 · 0 评论 -
大数据之----IDE开发环境部署idea + hadoop + meavn + scala环境
安装软件 汉化 破解注册 参考下面http://www.jb51.net/softjc/549047.html原创 2018-05-28 18:45:09 · 3039 阅读 · 1 评论 -
大数据---hadoop生态圈之架构HDFS-MR-YARN原理图汇总终极篇
HDFS架构原理图namenode元数据管理机制原创 2018-05-16 15:32:43 · 3410 阅读 · 0 评论 -
大数据之---hadoop常用命令大全终极篇---持续更新
软件环境RHEL6.8hadoop2.8.1apache-maven-3.3.9findbugs-1.3.9protobuf-2.5.0.tar.gzjdk-8u45(操作环境root安装启动的hadoop)hadoop fs == hdfs dfs 将文件上传至hadoop的根目录/下载至本地hadoop dfs -put filename / hadoop dfs -get /file...原创 2018-05-16 11:52:54 · 2242 阅读 · 0 评论 -
大数据之---hadoop伪分布式部署(HDFS)全网终极篇
1、软件环境RHEL6jdk-8u45hadoop-2.8.1.tar.gzsshxx.xx.xx.xx ip地址hadoop1xx.xx.xx.xx ip地址hadoop2xx.xx.xx.xx ip地址hadoop3xx.xx.xx.xx ip地址hadoop4xx.xx.xx.xx ip地址hadoop5本次部署只涉及伪分布式部署只是要主机hadoop1 2.伪分布式部署伪分布式部署文档参考...原创 2018-05-15 17:15:49 · 346 阅读 · 0 评论 -
大数据之----部署安装编译打包hadoop终极篇
------------------------------软件版本--------------------------------------RHEL6.8hadoop2.8.1apache-maven-3.3.9 findbugs-1.3.9protobuf-2.5.0.tar.gzjdk-8u45------------------------------软件版本------------...原创 2018-05-15 15:44:19 · 747 阅读 · 0 评论 -
大数据之----hadoop中各pid进程号之快速定位
经常管理和监控,需要进行shell编程,直接对进程kill或者重启操作。我们需要进行快速定位到每个进程的pid号pid默认存储在/tmp目录pid内容为进程号ps -ef|grep hadoop 出现PID A,B,C 可能误杀B,C [hadoop@hadoop000 sbin]$ cat hadoop-daemon.sh |grep pid# HADOOP_PID_DIR The p...原创 2018-05-21 16:06:03 · 1073 阅读 · 0 评论 -
大数据之---CDH集群离线部署全网终极篇--更新中
1、软件环境和IP规划RHEL6 角色 jdk-8u45apache-maven-3.3.9hive-1.1.0-cdh5.7.1-src.tar.gz hadoop-2.8.1.tar.gz mysql-connector-java-6.0.6.tar.gz apache-maven-3.3.9 cloudera-manager-el6-cm5.9.3_x86_64.tar my...原创 2018-05-19 10:27:46 · 2622 阅读 · 1 评论 -
大数据之---Yarn伪分布式部署和MapReduce案例
1、软件环境RHEL6角色jdk-8u45hadoop-2.8.1.tar.gz sshxx.xx.xx.xx ip地址NNhadoop01xx.xx.xx.xx ip地址DNhadoop02xx.xx.xx.xx ip地址DNhadoop03xx.xx.xx.xx ip地址DNhadoop04xx.xx.xx.xx ip地址DNhadoop05本次涉及伪分布式部署只是要主机hadoop01,软...原创 2018-05-17 14:37:10 · 219 阅读 · 0 评论 -
大数据之---官方文档使用大全终极篇----持续更新中
HDFSweb访问50070YARNweb管理8088HistoryServerweb管理19888Zookeeper服务端口2181Hive服务端口10000Kafka服务端口9092azkabanweb界面8443Hbaseweb界面16010,60010Sparkweb界面8080SparkURL7077 默认端口hadoop官方网站hadoop.apache.orghttp://had...原创 2018-05-17 14:12:25 · 296 阅读 · 0 评论 -
大数据之---hadoop问题排查汇总终极篇---持续更新中
1、软件环境RHEL6角色jdk-8u45hadoop-2.8.1.tar.gz sshxx.xx.xx.xx ip地址NNhadoop1xx.xx.xx.xx ip地址DNhadoop2xx.xx.xx.xx ip地址DNhadoop3xx.xx.xx.xx ip地址DNhadoop4xx.xx.xx.xx ip地址DNhadoop5本次涉及伪分布式部署只是要主机hadoop1 2、启动密钥互信...原创 2018-05-17 12:06:39 · 605 阅读 · 0 评论 -
sqoop操作大全
sqoop介绍Sqoop依赖与hadoop 数据的一方,存储在hdfs 底层的数据传输实现map/reduceyarn 只有map任务因为官网sqoop没有hadoop2.5对应的版本,要根据hadoop的版本进行编译(好像不用对应版本也可以,不过建议最好对应版本)。所以这里使用CDH,选择cdh对应的sqoop版本。比较稳定。去Cloudera的官网下载相应的发布版本号 ...原创 2018-06-19 16:23:52 · 2492 阅读 · 0 评论