- 博客(12)
- 收藏
- 关注
翻译 logstash知识梳理 - Persisted Queue
Persisted Queue默认情况下logstash会将在处在pipeline各个stage的event buffer在内存中, 这种buffer方式,在logstash意外down掉的情况下会丢失数据.因此logstash引入了Persisted Queue这种方式, 能将event buffer在磁盘上. 比如直接将queue的文件路径设置为/usr/lib/logstash/queu...
2019-07-15 14:45:15 1162
原创 Install Kubernetes From a Scratch
Install Kubernetes From a Scratch 一个完整的kubernetes服务需要许多组件支持. 比如我们需要安装kubelet, api server, scheduler, kube-proxy等等. 不过除了kubelet, docker需要通过system service来启动外, 其他的组件,比如api server, scheduler, etcd等
2017-12-20 22:11:51 363
原创 Spark 学习日志- SparkContext初始化
SparkContext初始化会主要涉及到以下内容:1. Spark Env的初始化2. 启动一个Task Scheduler3. 启动DAG Scheduler4. 启动schedule backend5. Web UI初始化env: // Create the Spark execution environment (cache, map output tracke
2017-02-11 21:19:38 393
原创 Spark学习日志4
Spark Stream学习总结:1. Spark Stream 基于DStream,离散化数据流来处理流数据。相当于RDD对于Spark而言。DStream本质上是有一串时间上离散的RDD组成。2. 要处理流数据,首先要创建一个StreamContext, 而StreamContext在底层会创建出SparkContext,以下例子是创建一个streamContext,其中第二个参数
2017-02-04 21:45:25 340
原创 Spark Yarn集群搭建的几个注意事项
Spark Yarn集群的搭建,也不算纯原创,借鉴了网上的各种前辈的资料,在此做一次总结,主要参考了http://www.chinacloud.cn/show.aspx?id=23371&cid=12。环境: Vmware搭建的2个Centos虚拟机. master虚拟机地址为192.168.64.131, slave为192.168.64.133 (最好设置静态ip, 否则重启可能会
2017-02-01 21:38:18 751
原创 将有序数组转变成平衡二叉查找树
import java.util.*;public class BinarySearchTreeTest { private static LinkedList list = null; public static void convertToBst(LinkedList s){ list = s; TreeNode root = convertToBstHelp(0, list.
2017-01-28 21:40:41 202
原创 创建二叉树,并先序遍历
先序创建二叉树,并从1递增赋值,先序遍历:class TreeNode{ TreeNode left; TreeNode right; int val; public TreeNode(int val){ this.val = val; } public TreeNode() {}}public class BinaryTreeTest { public static
2017-01-28 21:10:35 405
原创 Spark学习日记3
Spark累加器和广播变量。累加器:通过初始化SparkContext.accumulator(T)来获取一个累加器。在各个工作节点对累加器的更新会影响其他节点累加器的值。 在foreach操作中进行累加器操作可以避免同一任务因为重启而重复更新累加器。但是累加器在RDD转化中无法避免意外的重复更新。广播变量:通过初始化SparkContext.broadca
2017-01-27 21:46:54 207
原创 Linux下 Spark Scala IDE工作环境搭建
环境centos 64位Spark 2.1.0Scala IDE: http://scala-ide.org (可以认为是装了scala插件的eclipse)jdk1.8.0_111(之前玩hadoop的时候装了,scala基于jvm,理论上应该要装的)1. 下载好Spark后直接解压,然后运行bin/spark-shell看是否能进入spark shell。Spark自带
2017-01-26 22:47:28 2493
原创 Spark学习日记2
键值对RDD常用操作:1.分组: groupByKey(), 会对RDD进行hash分区2.连接: join, leftOuterJoin, rightOuterJoin,效果如下:join就是将两个RDD相同key的value组合在了一起,leftOuterJoin表示源RDD的每个key都有value,目的RDD的key的value是可以optional的,如果没有就是No
2017-01-23 21:30:48 244
原创 Spark学习日记1
* 针对RDD有两种操作:1. transformation: 将源RDD转化为另一个RDD,即返回值是rdd常见的有filter, union, map, flatMap,intersection, cartesian,intersection, reduceByKey(Pari RDD所有)操作2. action:对RDD进行计算求值, 其中用的是惰性求值,即当调用到之后才真正的计
2017-01-21 19:29:48 220
转载 Spark单机模式搭建碰到的port异常
按照网上的教程在搭建spark的时候出现了port无法绑定的问题,重试10几次后直接失败,无法创建sc。解决方法,在spark-env.sh中加入export SPARK_MASTER_IP=127.0.0.1export SPARK_LOCAL_IP=127.0.0.1
2017-01-21 13:06:31 307
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人