wjcaitu-CSDN博客

翻译 logstash知识梳理 - Persisted Queue

Persisted Queue默认情况下logstash会将在处在pipeline各个stage的event buffer在内存中, 这种buffer方式,在logstash意外down掉的情况下会丢失数据.因此logstash引入了Persisted Queue这种方式, 能将event buffer在磁盘上. 比如直接将queue的文件路径设置为/usr/lib/logstash/queu...

2019-07-15 14:45:15 1162

原创 Install Kubernetes From a Scratch

Install Kubernetes From a Scratch 一个完整的kubernetes服务需要许多组件支持. 比如我们需要安装kubelet, api server, scheduler, kube-proxy等等. 不过除了kubelet, docker需要通过system service来启动外, 其他的组件,比如api server, scheduler, etcd等

2017-12-20 22:11:51 363

原创 Spark 学习日志- SparkContext初始化

SparkContext初始化会主要涉及到以下内容：1. Spark Env的初始化2. 启动一个Task Scheduler3. 启动DAG Scheduler4. 启动schedule backend5. Web UI初始化env: // Create the Spark execution environment (cache, map output tracke

2017-02-11 21:19:38 393

原创 Spark学习日志4

Spark Stream学习总结：1. Spark Stream 基于DStream,离散化数据流来处理流数据。相当于RDD对于Spark而言。DStream本质上是有一串时间上离散的RDD组成。2. 要处理流数据，首先要创建一个StreamContext, 而StreamContext在底层会创建出SparkContext，以下例子是创建一个streamContext，其中第二个参数

2017-02-04 21:45:25 340

原创 Spark Yarn集群搭建的几个注意事项

Spark Yarn集群的搭建，也不算纯原创，借鉴了网上的各种前辈的资料，在此做一次总结，主要参考了http://www.chinacloud.cn/show.aspx?id=23371&cid=12。环境: Vmware搭建的2个Centos虚拟机. master虚拟机地址为192.168.64.131， slave为192.168.64.133 (最好设置静态ip, 否则重启可能会

2017-02-01 21:38:18 751

原创将有序数组转变成平衡二叉查找树

import java.util.*;public class BinarySearchTreeTest { private static LinkedList list = null; public static void convertToBst(LinkedList s){ list = s; TreeNode root = convertToBstHelp(0, list.

2017-01-28 21:40:41 202

原创创建二叉树，并先序遍历

先序创建二叉树，并从1递增赋值，先序遍历：class TreeNode{ TreeNode left; TreeNode right; int val; public TreeNode(int val){ this.val = val; } public TreeNode() {}}public class BinaryTreeTest { public static

2017-01-28 21:10:35 405

原创 Spark学习日记3

Spark累加器和广播变量。累加器：通过初始化SparkContext.accumulator（T）来获取一个累加器。在各个工作节点对累加器的更新会影响其他节点累加器的值。在foreach操作中进行累加器操作可以避免同一任务因为重启而重复更新累加器。但是累加器在RDD转化中无法避免意外的重复更新。广播变量：通过初始化SparkContext.broadca

2017-01-27 21:46:54 207

原创 Linux下 Spark Scala IDE工作环境搭建

环境centos 64位Spark 2.1.0Scala IDE: http://scala-ide.org （可以认为是装了scala插件的eclipse）jdk1.8.0_111（之前玩hadoop的时候装了，scala基于jvm，理论上应该要装的）1. 下载好Spark后直接解压，然后运行bin/spark-shell看是否能进入spark shell。Spark自带

2017-01-26 22:47:28 2493

原创 Spark学习日记2

键值对RDD常用操作：1.分组： groupByKey(), 会对RDD进行hash分区2.连接： join, leftOuterJoin, rightOuterJoin,效果如下：join就是将两个RDD相同key的value组合在了一起，leftOuterJoin表示源RDD的每个key都有value，目的RDD的key的value是可以optional的，如果没有就是No

2017-01-23 21:30:48 244

原创 Spark学习日记1

* 针对RDD有两种操作：1. transformation：将源RDD转化为另一个RDD，即返回值是rdd常见的有filter, union, map, flatMap,intersection, cartesian,intersection, reduceByKey(Pari RDD所有)操作2. action:对RDD进行计算求值, 其中用的是惰性求值，即当调用到之后才真正的计

2017-01-21 19:29:48 220

转载 Spark单机模式搭建碰到的port异常

按照网上的教程在搭建spark的时候出现了port无法绑定的问题，重试10几次后直接失败，无法创建sc。解决方法，在spark-env.sh中加入export SPARK_MASTER_IP=127.0.0.1export SPARK_LOCAL_IP=127.0.0.1

2017-01-21 13:06:31 307

wjcaitu的博客