自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

翻译 logstash知识梳理 - Persisted Queue

Persisted Queue默认情况下logstash会将在处在pipeline各个stage的event buffer在内存中, 这种buffer方式,在logstash意外down掉的情况下会丢失数据.因此logstash引入了Persisted Queue这种方式, 能将event buffer在磁盘上. 比如直接将queue的文件路径设置为/usr/lib/logstash/queu...

2019-07-15 14:45:15 1161

原创 Install Kubernetes From a Scratch

Install Kubernetes From a Scratch 一个完整的kubernetes服务需要许多组件支持. 比如我们需要安装kubelet, api server, scheduler, kube-proxy等等. 不过除了kubelet, docker需要通过system service来启动外, 其他的组件,比如api server, scheduler, etcd等

2017-12-20 22:11:51 362

原创 Spark 学习日志- SparkContext初始化

SparkContext初始化会主要涉及到以下内容:1. Spark Env的初始化2. 启动一个Task Scheduler3. 启动DAG Scheduler4. 启动schedule backend5. Web UI初始化env: // Create the Spark execution environment (cache, map output tracke

2017-02-11 21:19:38 391

原创 Spark学习日志4

Spark Stream学习总结:1. Spark Stream 基于DStream,离散化数据流来处理流数据。相当于RDD对于Spark而言。DStream本质上是有一串时间上离散的RDD组成。2. 要处理流数据,首先要创建一个StreamContext, 而StreamContext在底层会创建出SparkContext,以下例子是创建一个streamContext,其中第二个参数

2017-02-04 21:45:25 339

原创 Spark Yarn集群搭建的几个注意事项

Spark Yarn集群的搭建,也不算纯原创,借鉴了网上的各种前辈的资料,在此做一次总结,主要参考了http://www.chinacloud.cn/show.aspx?id=23371&cid=12。环境: Vmware搭建的2个Centos虚拟机. master虚拟机地址为192.168.64.131, slave为192.168.64.133 (最好设置静态ip, 否则重启可能会

2017-02-01 21:38:18 748

原创 将有序数组转变成平衡二叉查找树

import java.util.*;public class BinarySearchTreeTest { private static LinkedList list = null; public static void convertToBst(LinkedList s){ list = s; TreeNode root = convertToBstHelp(0, list.

2017-01-28 21:40:41 201

原创 创建二叉树,并先序遍历

先序创建二叉树,并从1递增赋值,先序遍历:class TreeNode{ TreeNode left; TreeNode right; int val; public TreeNode(int val){ this.val = val; } public TreeNode() {}}public class BinaryTreeTest { public static

2017-01-28 21:10:35 404

原创 Spark学习日记3

Spark累加器和广播变量。累加器:通过初始化SparkContext.accumulator(T)来获取一个累加器。在各个工作节点对累加器的更新会影响其他节点累加器的值。 在foreach操作中进行累加器操作可以避免同一任务因为重启而重复更新累加器。但是累加器在RDD转化中无法避免意外的重复更新。广播变量:通过初始化SparkContext.broadca

2017-01-27 21:46:54 206

原创 Linux下 Spark Scala IDE工作环境搭建

环境centos 64位Spark 2.1.0Scala IDE: http://scala-ide.org (可以认为是装了scala插件的eclipse)jdk1.8.0_111(之前玩hadoop的时候装了,scala基于jvm,理论上应该要装的)1. 下载好Spark后直接解压,然后运行bin/spark-shell看是否能进入spark shell。Spark自带

2017-01-26 22:47:28 2489

原创 Spark学习日记2

键值对RDD常用操作:1.分组: groupByKey(), 会对RDD进行hash分区2.连接: join, leftOuterJoin, rightOuterJoin,效果如下:join就是将两个RDD相同key的value组合在了一起,leftOuterJoin表示源RDD的每个key都有value,目的RDD的key的value是可以optional的,如果没有就是No

2017-01-23 21:30:48 244

原创 Spark学习日记1

* 针对RDD有两种操作:1. transformation: 将源RDD转化为另一个RDD,即返回值是rdd常见的有filter, union, map, flatMap,intersection, cartesian,intersection, reduceByKey(Pari RDD所有)操作2. action:对RDD进行计算求值, 其中用的是惰性求值,即当调用到之后才真正的计

2017-01-21 19:29:48 219

转载 Spark单机模式搭建碰到的port异常

按照网上的教程在搭建spark的时候出现了port无法绑定的问题,重试10几次后直接失败,无法创建sc。解决方法,在spark-env.sh中加入export  SPARK_MASTER_IP=127.0.0.1export  SPARK_LOCAL_IP=127.0.0.1

2017-01-21 13:06:31 305

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除