- 博客(26)
- 资源 (1)
- 收藏
- 关注
原创 二十六:Spark-submit提交一个WC任务源码解析:
一:准备工作:1.1 准备一个被统计文件:[root@hadoop001 ~]# hadoop fs -ls /logs/inputFound 1 items-rw-r–r-- 3 root supergroup 97 2019-03-14 22:48 /logs/input/text.txt[root@hadoop001 ~]# hadoop fs -cat /l...
2019-03-27 16:53:14 411
原创 二十五:Caused by: java.net.UnknownHostException: nameservice1(CDH 5.14 部署spark2第一次运行报错)
一: 问题描述:CDH 5.14部署好spark2后,写了个WC统计程序,并写了如下执行语句:$SPARK_HOME/bin/spark2-submit \--master local[2] \--class com.weizonggui.core03.SparkContextApp \--name WCApp \/home/hadoop/G5-Spark-1.0.jar \hdfs...
2019-03-21 10:01:23 2660
原创 二十四:RDD源码分析
一:初始Spark:进入官网 http://spark.apache.orgApache Spark™ is a unified analytics engine for large-scale data processingApache Spark是一个标准的大型数据处理分析引擎,具有如下4个特性:1.1:运行速度快:相对于hadoop:编程模型不一样:mapreduce是基于进程计算...
2019-03-08 21:37:22 260
原创 二十三:influxdb v1.7(Centos7.2)安装使用
一:influxdata安装:官网地址为:https://www.influxdata.com下载地址:https://portal.influxdata.com/downloads/1.1 安装:官网为:https://docs.influxdata.com/influxdb/v1.7/introduction/installation/**配置yum文件:**cat <&lt...
2019-03-03 23:33:55 1171
原创 二十二:Flume+kafka+spark日志采集故障分析
一:问题现象 计划Flume+kafka+spark进行消费,在本地测试么有数据过来,然后打开kafka消费端查看,kafka正常,从生产端是可以写入数据的,但是在flume采集文件后消费端没有数据,flume启动也是正常的: flume 启动成功[root@hadoop002 bin]# nohup flume-ng agent -c conf -f /opt/software/fl...
2019-03-03 19:29:54 792
原创 二十一:CDH5.14离线安装Apache Spark 2
一:当有需要CDH安装Apache Spark 2时:老规矩,从官网开始:https://www.cloudera.com/documentation.htmlhttps://www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.html注意几个重要的提示:二:按步骤进行安装:2.1:查看自己需要...
2019-02-24 08:46:35 436
原创 十九:Centos7.4离线安装CDH5.14-阿里云
在前面准备环境已经到位后,下面就可以正式安装了:一:安装http和启动http服务:yum install -y httpdsystemctl status httpd.servicesystemctl list-unit-files |grep httpdystemctl start httpd.service #启动systemctl stop httpd.service #停止...
2019-02-23 23:57:02 398
原创 二十:CDH5.14离线安装kafka (含版本选择)
一:当安装好CDH的hadoop后,准备安装kafka,可是CDH上添加服务是这样的,没法直接添加,需要添加相应包才可以:Apache Kafka is publish-subscribe messaging rethought as a distributed commit log. Before adding this service, ensure that either the Kafk...
2019-02-23 21:33:42 3453 2
原创 十八:Centos7.4离线安装CDH5.14环境准备-阿里云
一:核心软件包下载:CDH安装需要两类软件包:依据自己的系统匹配对应的CDH版本:两类文件包:1.repo-as-tarball cm管理(server agent 闭源)http://archive.cloudera.com/cm5/repo-as-tarball/5.14.0/http://archive.cloudera.com/cm5/repo-as-tarball/5.14.0...
2019-02-09 18:37:14 325
原创 十七:CDH介绍及官网信息
一:背景:1.1在部署Apache Hadoop 及周边软件时,随时不是这个启动不了,就是这里哪里有问题:主要表现在:• 版本管理混乱 • 部署过程繁琐、升级过程复杂 • 兼容性差 • 安全性低1.2 、社区版本与第三方发行版本的比较1.Apache社区版本优点:完全开源免费。社区活跃文档、资料详实缺点:----复杂的版本管理。版本管理比较混乱的,各种版本层出不穷,...
2019-02-09 11:19:20 4074
原创 四:压缩相关
*在Hadoop下使用Snappy,实操整个开启过程,并查看各压缩模式是否正常,同时验证总结各压缩模式的压缩比是怎么样的;目录1 非源码编译下压缩模式情况:2 添加压缩方式:3 各种压缩模式对比:4压缩模式对比5如何选择压缩模式:1.非源码编译下hadoop下压缩模式:cd /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/binhadoop ch...
2019-02-07 20:55:52 182
原创 十六: brokerList must contain at least one Kafka broke 案例及其它几个坑-阿里云
一:启动flume 告警如下:nohup bin/flume-ng agent \-c /home/hadoop/app/apache-flume-1.6.0-cdh5.7.0-bin/conf -f /home/hadoop/app/apache-flume-1.6.0-cdh5.7.0-bin/conf/exec_memory_kafka.properties \-n a1 -Dflu...
2019-02-07 20:21:35 1409
原创 十五:kafka核心实验和全局有序
一:模拟实验:1.1:如何查看生成者和消费者启动命令:1.2 console启动消费者和消费者命令:消费者是zkbin/kafka-console-consumer.sh \--zookeeper 172.17.4.16:2181,172.17.4.17:2181,172.17.217.124:2181/kafka \--topic kunming \--from-beginnin...
2019-02-05 13:05:57 768
原创 十四:kafka的topic创建和解析
一:检查kafka是否成功:创建topic,如能成功创建topic则表示集群安装完成,也可以用jps命令查看kafka进程是否存在bin/kafka-topics.sh \--create \--zookeeper 172.17.4.16:2181,172.17.4.17:2181,172.17.217.124:2181/kafka \--replication-factor 3 \...
2019-02-03 21:10:26 1450
原创 十三:kafka分布式部署
一:kafka概述:就一个消息中间件,当前官网叫做:分布式流平台a distributed streaming platform:A streaming platform has three key capabilities:1.Publish and subscribe to streams of records, similar to a message queue or enterpr...
2019-01-30 12:54:17 665
原创 十二:Flumue操作Channel-Memory/File Channel¶
一:常用channel概述:1.1 memory弊端:在使用Memory作为channel时,需注意source过来的数据 和SINK写出的速度,防止数据处理不过来导致内存挂掉,需要优化两个具体的参数。同时用memory作为channel时,当flume挂了,内存的数据就丢了!capacity的容量是和JVM公用的留意参数调整:export JAVA_OPTS="-Xms100m -Xm...
2019-01-28 21:29:54 320
原创 十一:Flume常用Source配置-taildir-source
一:Flume概述:Apache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log data from many different sources to a centralized data ...
2019-01-27 23:20:31 1921 1
原创 十:WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set,解决案例
在spark on yarn 上提交任务是,报错如下:这是Spark的一个优化点:WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.INFO yarn.Client: Uploading re...
2018-12-25 21:35:52 7369 1
原创 九:Operation category READ/WRITE is not supported in state standby解决案例
1:问题现象:在IDEA写好程序并打包传到hadoop001上去执行的时候,统计不成功,报如下异常:各文件目录如下:log.sh :/home/hadoop/shellG5-Spark-1.0.jar :/home/hadoop/lib2:处理过程2.1依据提示找到相应问题解答:在启用ha的集群中,DFS客户端无法预先知道在操作的时刻哪个NameNode处于活动状态。因此...
2018-12-18 17:44:26 16753
原创 八:Scala单词统计及模拟log生成
一:单词统计:统计本地文件里单词的数量:第一:要去读到这个文件,并转换成sacal里的数据结构,便于处理;第二:要对单词进行分割,压平,放到第三:对单词进行映射,并分组;第四:在组内求和;第五:转换成List,便于排序。最终结果就两条代码搞定,但是对于第一次写,没有其他参考,一个人想破脑袋也无法完成,因为所学到的东西当前还不系统,都没那么深入,只能边实践边摸索,边总结;用多了,自然就...
2018-12-16 11:16:08 425
原创 七:Array/List实操比较-Map需要留意地方
目录:1、数组实操2、List实操:3、Array和List区别:4、Map实操:5、其他列表1、数组实操1.1、定长数组//定义scala> val a =new Array[Boolean](5)a: Array[Boolean] = Array(false, false, false, false, false)scala> val a =new A...
2018-12-08 19:54:19 112
原创 六:Scala学习-面向对象及继承伴生:
目录:*1:Scala面向对象*2:构造器:*3:继承:1、Scala面向对象:类里面定义的val,new新对象的时候也是不能更改的,用占位符的时候,需要在前面加上具体的数据类型,否则推导不出来:private[this]后类里面的属性是私有化的,在类外面不能被调用:object SimepleObjectApp { def main(args: Array[String]):...
2018-12-08 11:09:17 168
原创 五:Scala学习之-函数定义及数据类型
内容:1::val和var区别:2: Scala必学数据类型:3:运算符优先级:4:函数的定义:5:几个重要表达式:1:val和var区别:数据类型第一字母必须大写,val是值类型,内容不允许变更,var 是可变类型,内容可更新;变量类型可自动推导,定义时候可省。scala> ~~val money:int = 10000~~ <con...
2018-12-06 22:40:49 525
原创 三:hadoop HA YEAR架构总结及各组件功能(原理总结)
内容:在前面搭建和熟悉各组件启动流程下,今天总结下hadoop的HA YEAR架构,同时看看各组件的功能,理清启动顺序,并进行相关组件对比。*目录结构:前期搭建规划hadoop HA 架构及功能hadoop YEAR架构及功能启动/关闭流程总结两架构对比及其它1、前期搭建规划2、hadoop HA 架构及功能HDFS HA: 是为了解决单点故障问题,通过JN集群共享状态...
2018-11-29 11:09:14 1404
原创 二:zeekeeper+hadoop HA配置及启动停止
内容:在前面准备工作(多机共享+文件已经上传+JDK已安装)情况下,我们将关注zeekeeper配置启动,hadoop配置启动,并观察各项具体配置和启动流程和相应的进程顺序,同时关闭相关HA,查看其关闭流程。目录结构:zookeeper配置hadoop配置zookeeper启动hadoop配置整体启动流程整体关闭流程1:解压文件和配置环境tar -xzvf hadoo...
2018-11-28 16:30:02 637 2
原创 一:Centos多机共享及其它准备(为了Hadoop HA部署)
为了在阿里云服务器上部署Hadoop HA,在部署之前,需要了解前期的HA架构和阿里云服务器,在熟悉了这些前提下,开始一步进行实操。在实操中熟悉各类架构后,在对各类架构的作用,启动和关闭顺序做*更进一步说明: 目录结构:1:阿里云主机购买2:远程XSHELL登陆3:hadoop用户创建及文件上传4:hosts文件和多台ssh互相信任5:java运行程序...
2018-11-27 17:40:47 245 2
5-投诉案例.ppt
2015-10-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人