在路上的学习者

记录生活,定格瞬间

Flume1.7.0的TaildirSource介绍

使用更改后的TaildirSource,可以递归地监听配置目录的动态变化的文件。需求描述使用了SpoolDirectorySource可以配置一个监听目录,会监听该目录下所有的文件,但是如果配置目录下面嵌套了子目录,则无法监听,通过修改源码,我们可以递归地对配置目录的所有子目录的所有文件进行监听,...

2016-07-02 21:39:04

阅读数 12476

评论数 4

Linux中利用logrotate来对log文件进行转储

使用logrotate对日志文件转储,按时或者按大小。logrotate简介NAME logrotate - rotates, compresses, and mails system logsSYNOPSIS logrotate [-dv] [-f|--force] ...

2016-07-02 21:38:17

阅读数 3081

评论数 0

Flume的Spooling Directory Source支持Sub-directories

使得Spooling Directory Source可以递归地对配置目录的所有子目录的所有文件进行监听。 现实需求Spooling Directory Source支持的feature官方介绍: https://flume.apache.org/FlumeUserGuide.html#spo...

2016-07-02 21:36:02

阅读数 2100

评论数 0

Log4j的配置与使用详解

本文转自:《Log4j的配置与使用详解》 作者:李天炜 Log4j是Apache的一个开放源代码项目,通过使用Log4j,我们可以控制日志信息输送的目的地是控制台、文件、GUI组件、甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等;我们也可以控制每...

2016-06-20 11:04:48

阅读数 4585

评论数 0

SparkSQL与Hive on Spark的比较

简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Execu...

2016-05-18 22:20:08

阅读数 53459

评论数 5

Flume event转化为ES的document过程分析

使用更改后的MultiExecSource + MemoryChannel + ElasticsearchSink 将flume收集到的日志信息发送到es集群中。一条flume event的构成一个flume event由 header + body 构成:/** * Basic represe...

2016-05-18 22:18:47

阅读数 2196

评论数 0

Java使用quartz实现作业调度

在spring boot中使用quartz实现作业调度的功能,简单易用。什么是Quartz?Quartz是Java领域最著名的、功能丰富的、开放源码的作业调度工具,几乎可以在所有的Java应用程序中集成——从小的单机应用到大的电子商务系统。 Quartz可以用来执行成百上千甚至数万的级别的、简单或...

2016-05-18 22:17:23

阅读数 2893

评论数 0

Java&Python操作WebHDFS

有用到通过java client或者python client操作HDFS,记录一下简单的代码片段。WebHDFS的认证方式WebHDFS的认证方式有三种:AuthenticationWhen security is off, the authenticated user is the usern...

2016-05-18 22:16:21

阅读数 2573

评论数 0

源码分析Ambari的DAG是如何做的

我认为Ambari最有趣的地方之一是如何计算DAG(Directed acyclic graph,有向无环图)

2016-04-16 14:11:32

阅读数 1496

评论数 0

Ambari的架构与设计思想

Ambari包罗了大部分Hadoop生态系统的组件,说明它的抽象层次、设计思想值得我们去研究学习。

2016-04-16 14:10:08

阅读数 5089

评论数 0

cobbler原理分析

Cobbler通过将设置和管理一个安装服务器所涉及的任务集中在一起,从而简化了系统配置。

2016-04-16 14:09:00

阅读数 2574

评论数 0

cobbler快速批量安装OS

通过cobbler快速部署centos6.5mini的详细指导,且提供了一键部署cobbler的脚本以供参考。实验环境: 1. cobbler server所在机器的OS版本:CentOs6.5-x86_64 mini 2. 快速安装的OS版本:CentOs6.5-x86_64 mini

2016-04-16 14:07:37

阅读数 1596

评论数 0

源码分析Flume启动过程

对Flume-NG的agent启动过程进行详细的分析。

2016-04-16 14:04:10

阅读数 1518

评论数 0

LeetCode Letter Combinations of a Phone Number DFS

DFSC++ code:class Solution { private: vector<string> mapping = {"abc", "def", "ghi", "jkl", "m...

2016-04-06 23:04:39

阅读数 628

评论数 0

六款大数据采集平台的架构分析

本文转自:《六款大数据采集平台的架构分析》 文中介绍了目前业界存在的六款数据采集平台,数据采集平台可以作为数据平台的日志采集系统,个人尝试过Flume+ES+Kibana这样的开源组合,为什么这么选,因为Flume非常灵活且无缝的支持Hadoop生态系统的大部分组件,ES和Kibana也...

2016-03-29 10:15:48

阅读数 17751

评论数 2

flume建立ElasticSearch索引时间的问题

本文转自:《flume建立ElasticSearch索引时间的问题》 本文解决的是Flume导入es中建立的索引时间问题,(index也就是索引在es可以类比为database数据库) 对于@timestamp在es中默认是UTC时区保存,不管flume导入的Date时区是多少,都会强制改...

2016-03-28 15:16:09

阅读数 4243

评论数 1

Spark分布式计算执行模型

本文转自:《Spark分布式计算执行模型》  作者:火光摇曳 亮点:通过最基础的WordCount程序介绍了RDD,Partition,和如何通过RDD之间的依赖关系生成RDD DAG(Stage),使我们可以非常容易的理解Spark的分布式计算执行模型。 引言 相对Hadoop, S...

2016-03-11 18:17:22

阅读数 1560

评论数 0

从机器学习谈起

本文转自:《从机器学习谈起》   作者:计算机的潜意识 本文非常经典,通俗易懂,刚入门ML的都可以看看。 从机器学习谈起   在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyP...

2016-03-09 19:50:17

阅读数 1096

评论数 0

ambari的Command介绍

ambari-server会向ambari-agent发送命令,来控制agent的行为,命令是通过agent向server发送的心跳包的response来传送的:在agent向server注册完毕后,agent的心跳包就开始向server汇报:Ambari Agent starts heartbe...

2016-03-02 11:35:49

阅读数 2294

评论数 0

RPM打包记录

一、根据RPM版本定位rpmbuild工作目录如果 rpm 的版本 <=4.4.x,那么 rpmbuild 工具其默认的工作路径是 /usr/src/redhat ,这就使得普通用户不能制作 rpm 包,因为权限的问题,在制作 rpm 软件包时必须切换到root身份才可以。所以,rpm从4....

2016-02-27 21:12:29

阅读数 1976

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭