qwurey-CSDN博客

原创 Flume1.7.0的TaildirSource介绍

使用更改后的TaildirSource，可以递归地监听配置目录的动态变化的文件。需求描述使用了SpoolDirectorySource可以配置一个监听目录，会监听该目录下所有的文件，但是如果配置目录下面嵌套了子目录，则无法监听，通过修改源码，我们可以递归地对配置目录的所有子目录的所有文件进行监听，见上一篇文章 Flume的Spooling Directory Source支持Sub-director

2016-07-02 21:39:04 14506

原创 Linux中利用logrotate来对log文件进行转储

使用logrotate对日志文件转储，按时或者按大小。logrotate简介NAME logrotate - rotates, compresses, and mails system logsSYNOPSIS logrotate [-dv] [-f|--force] [-s|--state file] config_file ..DESCRIPTION l

2016-07-02 21:38:17 4500

原创 Flume的Spooling Directory Source支持Sub-directories

使得Spooling Directory Source可以递归地对配置目录的所有子目录的所有文件进行监听。现实需求Spooling Directory Source支持的feature官方介绍： https://flume.apache.org/FlumeUserGuide.html#spooling-directory-source使用基本的Spooling Directory Source

2016-07-02 21:36:02 2958

转载 Log4j的配置与使用详解

本文转自：《Log4j的配置与使用详解》作者：李天炜Log4j是Apache的一个开放源代码项目，通过使用Log4j，我们可以控制日志信息输送的目的地是控制台、文件、GUI组件、甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等；我们也可以控制每一条日志的输出格式；通过定义每一条日志信息的级别，我们能够更加细致地控制日志的生成过程。原文链

2016-06-20 11:04:48 5335

原创 SparkSQL与Hive on Spark的比较

简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中，Spark和MapReduce在同一个层级，即主要解决分布式计算框架的问题。架构Spark的架构如下图所示，主要包含四大组件：Driver、Master、Worker和Executor。Spark特点Spark可以部署在YARN上Spark原生支持对HDFS文件系统的访问使用

2016-05-18 22:20:08 71487 4

原创 Flume event转化为ES的document过程分析

使用更改后的MultiExecSource + MemoryChannel +　ElasticsearchSink 将flume收集到的日志信息发送到es集群中。一条flume event的构成一个flume event由 header + body 构成：/** * Basic representation of a data object in Flume. * Provides acces

2016-05-18 22:18:47 2610

原创 Java使用quartz实现作业调度

在spring boot中使用quartz实现作业调度的功能，简单易用。什么是Quartz？Quartz是Java领域最著名的、功能丰富的、开放源码的作业调度工具，几乎可以在所有的Java应用程序中集成——从小的单机应用到大的电子商务系统。 Quartz可以用来执行成百上千甚至数万的级别的、简单或者复杂的作业调度，一个Job可以执行任意的你所编程的任务。 Quartz调度包括许多企业级功能，如JTA

2016-05-18 22:17:23 3504

原创 Java&Python操作WebHDFS

有用到通过java client或者python client操作HDFS，记录一下简单的代码片段。WebHDFS的认证方式WebHDFS的认证方式有三种：AuthenticationWhen security is off, the authenticated user is the username specified in the user.name query parameter. If t

2016-05-18 22:16:21 3945

原创源码分析Ambari的DAG是如何做的

我认为Ambari最有趣的地方之一是如何计算DAG(Directed acyclic graph，有向无环图)

2016-04-16 14:11:32 1953

原创 Ambari的架构与设计思想

Ambari包罗了大部分Hadoop生态系统的组件，说明它的抽象层次、设计思想值得我们去研究学习。

2016-04-16 14:10:08 5731

原创 cobbler原理分析

Cobbler通过将设置和管理一个安装服务器所涉及的任务集中在一起，从而简化了系统配置。

2016-04-16 14:09:00 3861

原创 cobbler快速批量安装OS

通过cobbler快速部署centos6.5mini的详细指导，且提供了一键部署cobbler的脚本以供参考。实验环境： 1. cobbler server所在机器的OS版本：CentOs6.5-x86_64 mini 2. 快速安装的OS版本：CentOs6.5-x86_64 mini

2016-04-16 14:07:37 2114

原创源码分析Flume启动过程

对Flume-NG的agent启动过程进行详细的分析。

2016-04-16 14:04:10 1964

原创 LeetCode Letter Combinations of a Phone Number DFS

DFSC++ code:class Solution {private: vector<string> mapping = {"abc", "def", "ghi", "jkl", "mno", "pqrs", "tuv", "wxyz"};public: vector<string> letterCombinations(string digits) { vec

2016-04-06 23:04:39 832

转载六款大数据采集平台的架构分析

本文转自：《六款大数据采集平台的架构分析》文中介绍了目前业界存在的六款数据采集平台，数据采集平台可以作为数据平台的日志采集系统，个人尝试过Flume+ES+Kibana这样的开源组合，为什么这么选，因为Flume非常灵活且无缝的支持Hadoop生态系统的大部分组件，ES和Kibana也是比较成熟的开源大数据实时搜索展示的组合。随着大数据越来越被重视，数据采集

2016-03-29 10:15:48 23184 2

转载 flume建立ElasticSearch索引时间的问题

本文转自：《flume建立ElasticSearch索引时间的问题》本文解决的是Flume导入es中建立的索引时间问题，（index也就是索引在es可以类比为database数据库）对于@timestamp在es中默认是UTC时区保存，不管flume导入的Date时区是多少，都会强制改为es中默认的时区，所以显示需要在kibana中设置Reference：htt

2016-03-28 15:16:09 5223

转载 Spark分布式计算执行模型

本文转自：《Spark分布式计算执行模型》作者：火光摇曳亮点：通过最基础的WordCount程序介绍了RDD，Partition，和如何通过RDD之间的依赖关系生成RDD DAG（Stage），使我们可以非常容易的理解Spark的分布式计算执行模型。引言相对Hadoop, Spark在处理需要迭代运算的机器学习训练等任务上有着很大性能提升，同时提供了批处理、

2016-03-11 18:17:22 2456

转载从机器学习谈起

本文转自：《从机器学习谈起》作者：计算机的潜意识本文非常经典，通俗易懂，刚入门ML的都可以看看。从机器学习谈起　　在本篇文章中，我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习，并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇，从这里开始，必须对机器学习了解才能进一步介绍EasyPR

2016-03-09 19:50:17 1452

原创 ambari的Command介绍

ambari-server会向ambari-agent发送命令，来控制agent的行为，命令是通过agent向server发送的心跳包的response来传送的：在agent向server注册完毕后，agent的心跳包就开始向server汇报：Ambari Agent starts heartbeat to Ambari Server, checking for commands to execut

2016-03-02 11:35:49 3479

原创 RPM打包记录

一、根据RPM版本定位rpmbuild工作目录如果 rpm 的版本 <=4.4.x，那么 rpmbuild 工具其默认的工作路径是 /usr/src/redhat ，这就使得普通用户不能制作 rpm 包，因为权限的问题，在制作 rpm 软件包时必须切换到root身份才可以。所以，rpm从4.5.x版本开始，将rpmbuid的默认工作路径移动到用户家目录下的rpmbuild目录里，即$HOME/rpm

2016-02-27 21:12:29 2769

原创实时日志收集-查询-分析系统(Flume+ElasticSearch+Kibana)

**设计方案：**Flume（日志收集） +　ElasticSearch（日志查询）+ Kibana（日志分析与展示）实验使用场景：通过ambari部署集群后，可以添加自己的日志系统，记录每个组件的产生的日志，实时的查询分析一、Flume概述：Apache Flume is a distributed, reliable, and ava

2016-02-27 19:01:07 29863 1

原创手动编译flume

版本：1.6.0源码下载地址：http://www.apache.org/dyn/closer.lua/flume/1.6.0/apache-flume-1.6.0-src.tar.gzwindows解压到C盘下：进入C:\apache-flume-1.6.0-src，运行：mvn install -DskipTests -Dtar遇到如下错误：在flume源码的pom.xml下加个reposi

2016-02-26 18:41:46 1657

转载 Maven：mirror和repository 区别

本文转自：《Maven：mirror和repository 区别》1 Repository（仓库）1.1 Maven仓库主要有2种：remote repository：相当于公共的仓库，大家都能访问到，一般可以用URL的形式访问local repository：存放在本地磁盘的一个文件夹，例如，windows上默认是C:\Users\

2016-02-26 16:48:31 1165

转载 linux中select()函数分析

Select在Socket编程中还是比较重要的，可是对于初学Socket的人来说都不太爱用Select写程序，他们只是习惯写诸如connect、accept、recv或recvfrom这样的阻塞程序（所谓阻塞方式block，顾名思义，就是进程或是线程执行到这些函数时必须等待某个事件的发生，如果事件没有发生，进程或线程就被阻塞，函数不能立即返回）。可是使用Select就可以完成非阻塞（所谓非阻塞方式

2016-02-18 16:51:32 442

原创 mysql授予权限小结

注意授予ALL 权限是except GRANT OPTION!!!mysql>Enter the following if the database user already exists.:GRANT SELECT ON database.* TO user@'localhost';If you intend to create a brand new user, then run this

2016-01-28 17:59:30 771

原创 python代码片段——获得三天前时间

获得当前时间的N天前的时间import timeimport datetime#先获得时间数组格式的日期threeDayAgo = (datetime.datetime.now() - datetime.timedelta(days = 3))#转换为时间戳:timeStamp = int(time.mktime(threeDayAgo.timetuple()))#转换为其他字符串格式:

2016-01-26 16:20:15 2027

原创 yum下载包&强制安装

How to use yum to download a package without installing it ?ResolutionThere are two ways to download a package without installing it.One is using the “downloadonly” plugin for yum, the other is using “

2016-01-19 15:23:20 22573

原创 Ambari Extensibility Features

ambari提供了不用硬编码来扩展ambari的3种途径：（1）Stacks：自定义服务，主要通过添加resources实现；（2）Blueprints：自动化集群的构建，主要通过HTTP calls（调用ambari提供的REST APIS）；（3）Views：扩展 & 自定义Ambari Web UI；

2016-01-18 16:28:12 943

原创 ambari部分rest api

关于blueprint：# ambari_server_ip# cluster_name# 从当前集群导出当前集群的Blueprintcurl -H "X-Requested-By: ambari" -X GET -u admin:admin http://ambari_server_ip:8080/api/v1/clusters/cluster_name?format=blueprint关于卸

2016-01-18 15:16:37 2187

原创 osx ssh远程linux

osx ssh到本机vmware下的centos6.5将osx下的 ~/.ssh/id_rsa.pub 拷贝到centos下 ~/.ssh/authorized_keys 中即可，之后就可以连接到相应的用户。ssh urey@172.16.15.150若要连接 root@172.16.15.150 ，则将 id_rsa.pub 拷贝到 /root/.ssh/authorized_keys 中即可。

2016-01-17 13:25:26 463

原创 Linux RPM命令

安装命令rpm -ivh rpm文件名参数解释 -i 安装 -h 解压rpm的时候打印50个斜条 (#) -v 显示详细信息升级命令rpm -Uvh rpm文件名参数解释 -U 升级 -h 解压rpm的时候打印50个斜条 (#) -v 显示详细信息

2016-01-15 11:00:43 388

原创 linux hosts&dns

/etc/hosts ：记录hostname对应的ip地址 /etc/resolv.conf ：设置DNS服务器的ip地址 /etc/host.conf ：指定域名解析的顺序（是从本地的hosts文件解析还是从DNS解析）/etc/hosts详解：As your machine gets started, it will need to know the mapping of some host

2016-01-12 10:01:22 1532

原创 telnet命令

检测远程主机上的某个端口是否开启——telnet命令简单的测试方法：连接指定的ip和port的远程主机telnet ip portwindows下的测试某个机器的ip+port是否开启的方法：安装telnet。如果windows没有telnet，进入控制面板—->程序—->打开或关闭windows功能。然后等一段时间，在出来的对话框把telnet客户端勾选上，这样就安装好了telnet组件了。测

2016-01-11 19:52:12 915

原创 SElinux配置

系统版本：centos 6.5 mini查看selinux状态查看selinux的详细状态，如果为enable则表示为开启$ /usr/sbin/sestatus -v查看selinux的模式$ getenforce关闭selinux永久性关闭（这样需要重启服务器后生效）$ sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/con

2016-01-11 19:34:39 660

原创 linux防火墙设置

简单命令即时生效，重启后失效：查看：/etc/init.d/iptables statusorservice iptables status开启：/etc/init.d/iptables stoporservice iptables start关闭：/etc/init.d/iptables startorservice iptables stop重启：service iptables r

2016-01-11 18:14:11 423

原创 shell技巧

manman ascii 查看ascii码表 man test 查看shell中的特殊测试符号aliasvim ~/.bash_profile添加：alias fin="find / -iname "alias fn="find / -name "source ~/.bash_profile字符串操作字符串替换：${string//pattern/replacement}a='a,b,c'

2016-01-11 10:20:17 536

转载 Linux Shell 通配符、元字符、转义符使用实例介绍

本文转自：《Linux Shell 通配符、元字符、转义符使用实例介绍》说到shell通配符（wildcard），大家在使用时候会经常用到。下面是一个实例：1 1234[chengmo@localhost ~/she

2016-01-10 17:07:29 526

原创 python代码片段——不断尝试执行cmd

"""cmd: 命令tries: 尝试次数timeout: 每一次尝试执行时的时间长度interval: 每一次尝试执行间的时间间隔""" @staticmethod def execute_shell(cmd, tries=1, timeout=10, interval=10): index = 0 errorContent = "" while True:

2016-01-06 23:10:40 896

原创远程调试ambari-metrics的方法

IDE：intellij在ambari-metrics-collector上找到start的运行脚本，再找到启动ambari-metrics-collector的java命令：vi /var/lib/ambari-agent/cache/common-services/AMBARI_METRICS/0.1.0/package/scripts/metrics_collector.py 发现是执行 /u

2015-12-30 17:53:08 2417

原创 Ambari升级问题

从2.0.1升级到2.1.2，重新ambari-server start时候报错：Waiting for server start....................ERROR: Exiting with exit code -1. REASON: Ambari Server java process died with exitcode 255. Check /var/l

2015-12-27 21:58:22 1885