2019年04月_yangbosos

转载 Apache Skywalking的部署与实践

一、关于 Apache SkywalkingSkyWalking是针对分布式系统的APM（应用性能监控）系统，项目开源，目前已经已被apache收录，github地址：https://github.com/apache/incubator-skywalking优点：1.Java自动探针，不需要修改应用程序源代码，并且支持多种开源中间件，框架与类库，如果想查看支持列表请到官方github地...

2019-04-29 08:37:29 1119

转载 k8s和docker的关系

Kubernetes 是一个自动化部署、伸缩和操作应用程序容器的开源平台。使用 Kubernetes，你可以快速、高效地满足用户以下的需求：快速精准地部署应用程序即时伸缩你的应用程序无缝展现新特征限制硬件用量仅为所需资源我们的目标是培育一个工具和组件的生态系统，以减缓在公有云或私有云中运行的程序的压力。Kubernetes 的优势可移动: 公有云、私有云、混合云、多态云...

2019-04-29 08:33:01 11942 1

转载 Docker镜像的修改和自定义

一、docker镜像的更新(1)启动镜像，写入一些文件或者更新软件docker run -it 3afd47092a0e[root@44652ba46352 /]# ls(2)更新镜像docker commit -m="test update" -a="wangsir" 44652ba46352 wangsir/centos-test:7.4.1708sha256:7853e6...

2019-04-29 08:30:15 1779

转载 Scala-IDE创建scala的maven项目

文章目录环境（1）安装好scala（会自动配置好环境变量）、scala-IDE、maven插件（2）新建scala的maven项目（3）根据已有的scala原型（archetype）进行创建scala项目没有scala原型样例工程的解决方案（4）等待scala的maven原型项目进行初始化环境java1.7 scala2.11.7 maven插件下载地址：...

2019-04-28 18:53:46 974

转载 k8s集群Node节点的移除与加入

1、如何从集群中移除Node如果需要从集群中移除slave3这个Node，执行下面的命令：在master节点上执行：#先查看node情况[root@master] ~$ kubectl get nodeNAME STATUS ROLES AGE VERSIONmaster.hanli.com Ready master 3d7h...

2019-04-28 18:42:08 8852

转载 pinpoint分布式性能监控工具(docker安装)

在做性能压测的时候，你是不是有只能看到测试报告？在做性能压测的时候，你是不是想知道每一个方法执行了多长时间？Pinpoint几乎可以帮助你查看你想看到的每一个细节。Pinpoint是什么？Pinpoint是一款全链路分析工具，提供了无侵入式的调用链监控、方法执行详情查看、应用状态信息监控等功能。基于GoogleDapper论文进行的实现，与另一款开源的全链路分析工具Zipkin类似...

2019-04-28 18:38:39 592

转载 Spark2 sparkSession使用

package com.jdjr.city.demoimport org.apache.spark.sql.SparkSession/** * @Auther: hongwei * @Date: 2018/11/9 16:31 * @Description: SparkSession使用 */object Test4 { def main(args: A...

2019-04-28 18:15:32 1361

转载 Kubernetes(k8s) Pod 弹性伸缩详解与使用

Kubernetes HPA(Horizontal Pod Autoscaling)Pod水平自动伸缩，通过此功能，只需简单的配置，集群便可以利用监控指标（cpu使用率等）自动的扩容或者缩容服务中Pod数量，当业务需求增加时，系统将为您无缝地自动增加适量容器，提高系统稳定性。本文将详细讲解HPA的核心设计原理和基于Hepaster的使用方法。1. HPA概览HPA在kubernetes...

2019-04-26 10:54:13 9047

转载调用链选型之Zipkin，Pinpoint，SkyWalking，CAT

简介Zipkin是Twitter开源的调用链分析工具，目前基于springcloud sleuth得到了广泛的使用，特点是轻量，使用部署简单。Pinpoint是韩国人开源的基于字节码注入的调用链分析，以及应用监控分析工具。特点是支持多种插件，UI功能强大，接入端无代码侵入。SkyWalking是本土开源的基于字节码注入的调用链分析，以及应用监控分析工具。特点是支持多种插件，U...

2019-04-26 10:46:12 979

转载数据库读写分离、分表分库——Mycat

系统开发中，数据库是非常重要的一个点。除了程序的本身的优化，如：SQL语句优化、代码优化，数据库的处理本身优化也是非常重要的。主从、热备、分表分库等都是系统发展迟早会遇到的技术问题问题。Mycat是一个广受好评的数据库中间件，已经在很多产品上进行使用了。希望通过这篇文章的介绍，能学会Mycat的使用。安装Mycat官网：http://www.mycat.io/ 可以了解下Myc...

2019-04-26 08:36:01 462

转载 docker 端口映射错误解决方法

COMMAND_FAILED: '/sbin/iptables -t nat -A DOCKER -p tcp -d 0/0 --dport 8111 -j DNAT --to-destination 172.17.0.6:8111 ! -i docker0' failed: iptables: No chain/target/match by that name.pkill docke...

2019-04-25 00:34:10 1320

转载 Flume实战采集文件内容存入HDFS

1、flume安装目录下新建文件夹 example2、在example下新建文件log-hdfs.conf内容如下：# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1#exec 指的是命令# Describe/configure the sourcea1....

2019-04-24 18:37:57 709

转载 Spark SQL（三）：Parquet数据源

Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器升级为顶级项目。列式存储和行氏存储相比，有哪些优势？1、可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；2、压缩编码可以降低磁盘存储空间，由于同一列的数据类型是一样的，可以使用更高效压缩编码（例如Run Length Encoding和Delta Enc...

2019-04-24 17:59:13 279

转载集成Hive与Spark SQL及代码实现

结构上Hive On Spark和SparkSQL都是一个翻译层，把SQL翻译成分布式可执行的Spark程序。Hive和SparkSQL都不负责计算。hive编译如果不是采用CDH在线自动安装和部署的话，可能需要对源码进行编译，使它能够兼容HIVE。编译只需要在Spark_SRC_home（源码的home目录）执行如下命令：./make-distribution.sh --tgz -...

2019-04-23 09:06:39 482

当使用spark连接hive时，无论是通过spark-submit提交作业，还是使用spark-shell,spark-sql 都会报以下错误：Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS sho...

2019-04-22 16:59:42 2070

转载用Jenkins打造企业轻量级作业调度系统(如何把参数从上游作业传递给下游作业)

应用场景：我们在大数据清洗（ETL）或程序间（Job）调度过程中，有时候作业与作业之间是有依赖关系，必须等上游作业跑完后才能跑下游作业，并且前后作业参数需要一致。那如何保证参数一致性和稳定有序的执行有上下游依赖关系的作业呢？插件名：Parameterized Trigger Plugin1、安装（可以进入系统管理》管理插件进行在线安装，也可以下载到本地再上传安装2、安装好此插件后，我们...

2019-04-22 12:06:25 554

转载 Kylin构建企业大数据分析平台的4种部署方式

部署Kylin非常简单，称为非侵入式安装，也就是不需要去修改已有的Hadoop大数据平台。你只需要根据的环境下载适合的Kylin安装包，选择一个Hadoop节点部署即可，Kylin使用标准的Hadoop API跟各个组件进行通信，不需要对现有的Hadoop安装额外的Agent。 Kylin部署的架构是一个分层的结构，最底层是数据来源层，我们可以通过Sqoop等工具将数据迁移到HD...

2019-04-21 20:37:11 313

转载 spark高可用集群搭建及运行测试

之前的文章spark集群的搭建基础上建立的，重复操作已经简写；之前的配置中使用了master01、slave01、slave02、slave03；本篇文章还要添加master02和CloudDeskTop两个节点，并配置好运行环境；一、流程：1、在搭建高可用集群之前需要先配置高可用，首先在master01上：　[hadoop@master01 ~]$ cd /software/...

2019-04-21 19:03:15 477

转载 Spark和Zeppelin探索movie-lens数据

MovieLens 100k数据包含有100，000条用户与电影的相关数据wget http://files.grouplens.org/datasets/movielens/ml-100k.zipunzip ml-100k.zip &&cd ml-100k#用户文件(ID,年龄,性别,职业,邮编)zhf@ubuntu:~/Downloads/ml-100k$ head ...

2019-04-21 09:50:27 324

转载 Spark spark-submit 提交的几种模式

local 模式package com.imooc.spark.Testimport org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{Row, SaveMode, SparkSession}/** * 测试sparkContext 案例 */...

2019-04-20 14:41:30 2260

转载 Spark 通过 spark-submit 设置日志级别

前言Spark有多种方式设置日志级别，这次主要记录一下如何在spark-submit设置Spark的日志级别。1、需求因为Spark的日志级别默认为INFO(log4j.rootCategory=INFO, console),这样在运行程序的时候有很多我不需要的日志信息都打印出来了，看起来比较乱，比较烦，抓不住重点，而我只想把warn和error打印出来。之前在测试环境或者在eclips...

2019-04-20 14:19:12 1706

转载 kubectl认证授权准入控制

kubernetes 认证及serviceaccount（服务账号）kubernetes中apiservice是唯一访问的入口认证->授权->准入控制认证方式：token sslkubect和node都要双向认证K8s1.6以上增加了RBAC认证，授权检查kuberadm是强制使用kuberadm的授权认证,这都是最高的权限进行管理用户账号具有以下信息：客...

2019-04-20 12:42:17 4693

转载 Kubernetes Dashboard 安装，快速，简便运行Dashboard

https://blog.csdn.net/shenhonglei1234/article/details/80312709

2019-04-20 12:33:07 217

转载 kubeadm安装kubernetes 1.13.2多master高可用集群

https://blog.51cto.com/billy98/2350660?source=drh来源1. 简介Kubernetes v1.13版本发布后，kubeadm才正式进入GA，可以生产使用,用kubeadm部署kubernetes集群也是以后的发展趋势。目前Kubernetes的对应镜像仓库，在国内阿里云也有了镜像站点，使用kubeadm部署Kubernetes集群变得简单并...

2019-04-20 11:44:38 871 1

转载 Flume的监控（Monitor)

使用Flume实时收集日志的过程中，尽管有事务机制保证数据不丢失，但仍然需要时刻关注Source、Channel、Sink之间的消息传输是否正常，比如，SouceàChannel传输了多少消息，ChannelàSink又传输了多少，两处的消息量是否偏差过大等等。Flume为我们提供了Monitor的机制：http://flume.apache.org/FlumeUserGuide.html#m...

2019-04-20 11:39:20 189

转载 Kubernetes-基于flannel的集群网络

1、Docker网络模式在讨论Kubernetes网络之前，让我们先来看一下Docker网络。Docker采用插件化的网络模式，默认提供bridge、host、none、overlay、maclan和Network plugins这几种网络模式，运行容器时可以通过–network参数设置具体使用那一种模式。bridge：这是Docker默认的网络驱动，此模式会为每一个容器分配Network...

2019-04-20 10:57:00 357

转载 Kettle中调用用户自定义的jar包

ETL工具断断续续的也接触了 Informatica，Kettle, SSIS，个人感觉Info很强大但是也很贵，而且有着一些神秘感。Kettle 4.0版本以来已经有了Userdefined java class组件，使用户可以写Java代码让kettle来调用，这就说明了很多kettle不能处理的东西我们可以通过Java代码来实现，步骤如下：一：创建Java Project ...

2019-04-20 08:50:06 720

转载 RDD之flatMap与Map对比

定义首先我们列出flatMap与Map的定义，可参考RDD API def map[U](f: (T) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U] Return a new RDD by applying a function to all elements of this RDD. def flatMap[U](f: (T) ⇒ T...

2019-04-20 08:14:53 236

转载 RDD编程学习

RDD创建1、使用sc.textFile(“文件的路径”)从文件系统中加载,sc是SparkContext2、通过并行集合创建val array = Array(1,2,3,4,5)val rdd = sc.parallelize(array)//sc是SparkContextRDD操作转换得到的RDD是惰性操作，也就是说，整个转换( transformation)过程只是记...

2019-04-20 07:18:56 250

转载 Kubernetes dashboard认证访问

https://www.cnblogs.com/linuxk/p/9783510.html一、Dashboard部署由于需要用到k8s.gcr.io/kubernetes-dashboard-amd64:v1.10.0，这里有2种方式进行pull 镜像。docker search该镜像名称，直接pull，再重新进行tag；另外一种方式是通过谷歌容器镜像拉取。root@k8s-node0...

2019-04-19 23:53:58 3934 1

转载《Kubernetes权威指南》Kubelet运行机制与安全机制，k8s运维技巧

1 Kubelet运行机制Kubenetes集群中的每个Node节点都会启动一个Kubelet服务进程用于处理Master下发到该节点的任务，管理Pod及其中的容器 Kubelet进程在API Server上注册信息，定期向Master节点汇报Node资源情况，并通过cAdvise监控容器和节点资源1.1 节点管理Kubelet进程在启动时设置参数--register-node=tru...

2019-04-19 16:50:16 285

转载 hive表的存储格式; ORC格式的使用

hive表的源文件存储格式有几类： 1、TEXTFILE 默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看 2、SEQUENCEFILE 一种Hadoop API提供的二进制文件，使用方便、可分割、可压缩等特点。 SEQUENCEFILE将数据以<key,value&g...

2019-04-19 15:27:46 1658

转载 docker pull报Error response from daemon..latest not found解决办法

atom@atom:/atom$ docker pull fmcalcagno/maskrcnn-benchmarkUsing default tag: latestError response from daemon: manifest for fmcalcagno/maskrcnn-benchmark:latest not found问题分析：这个问题根据提示是因为找不到最...

2019-04-19 14:40:30 8536 1

转载 HIVE 函数分类（udf、udaf、udtf）

注释：在Hive中，用户可以自定义一些函数，用于扩展HiveQL的功能，而这类函数叫做UDF（用户自定义函数）。UDF分为两大类：UDAF（用户自定义聚合函数）和UDTF（用户自定义表生成函数）。Hive内置函数实际上Hive内置了很多函数，包括关系/算数/逻辑操作符都属于函数hive提供的build-in函数包括以下几类：1. 关系操作符：包括...

2019-04-19 13:10:04 941

转载 K8S集群tls证书管理

k8s master高可用实践方案中，需要对kube-apiserver的证书进行更新，加入VIP和从节点的IP，然后重新下发证书。回顾K8S集群整个搭建过程中，最容易让人懵圈的也就是配置证书环节，因此本文对K8S集群所用到的证书进行梳理一下。一、根证书ca.pem 根证书公钥文件ca-key.pem 根证书私钥文件ca.csr 证书签名请求，用于交叉签名或重新签名ca-confi...

2019-04-19 10:07:54 3242

转载 kubectl config 命令

1.结合kubectl部署,加强了解kubectl config命令kubectl config命令,生成集群信息,集群用户和用户权限并把这些内容写入kubectl读取的配置文件部署kubectl时执行的kubectl config命令,见下[root@k8s-master admin]# source /opt/k8s/bin/environment.sh# 设置集群参数[...

2019-04-19 09:05:16 12411

转载 Hadoop核心组件

1、Hadoop生态系统2、HDFS（Hadoop分布式文件系统）源自于Google的GFS论文，发表于2003年10月，HDFS是GFS克隆版。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。...

2019-04-19 08:11:20 362

转载同步系统时间

(1)安装ntpdate[root@dev ~]# yum install ntpdate(2)接着进行在线同步，选择上海交大的NTP服务器进行同步；确保网络通畅，DNS正常解析；或者使用ntpdate cn.pool.ntp.org[root@dev ~]#ntpdate ntp.sjtu.edu.cn10 Oct 23:02:23 ntpdate[21945]: step time...

2019-04-18 12:10:22 1158

转载使用docker部署skywalking

构建 Docker 镜像可以直接使用 docker hub 上的镜像 weihanli/skywalking:5.0.0-GA示例 DockerfileFROM centos:7# Timezone, Asia/Shanghai by defaultENV Timezone=Asia/ShanghaiRUN ln -snf /usr/share/zoneinfo/$Timez...

2019-04-17 21:40:14 3379

转载 k8s node上kubelet启动参数

启动命令行如下：/usr/bin/kubelet \ --address=10.12.51.171 \ --hostname-override=10.12.51.171 \ --pod-infra-container-image=harbor.local.com/images/pause-amd64:3.0 \ --experimental-bootstrap-kubeconfi...

2019-04-17 14:37:14 1528

ansible hadbook

使用Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析【大数据】

空空如也