自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(319)
  • 资源 (4)
  • 收藏
  • 关注

原创 graylog 启动流程

启动流程:Main函数参数: server -f graylog.conf.example转存失败重新上传取消主要框架:com.github.rvesse.airline,主要将shell命令参数和java类绑定,根据传参获取对应类的实例,final Runnable command = cli.parse(args);然后启动实例,由于启动参数是sever,绑定的类是o...

2020-04-26 16:33:32 1027

转载 LeetCode总结

最近完成了www.leetcode.com的online judge中151道算法题目。除各个题目有特殊巧妙的解法以外,大部分题目都是经典的算法或者数据结构,因此做了如下小结,具体的解题思路可以搜索我的博客:LeetCode题解题目 算法 数据结构 注意事项Clone Graph BFS 哈希表Word Ladder II BFS 哈希表S...

2020-04-26 16:26:48 121

原创 java 并发编程的思考

程序开发中,经常会对某个资源进行并发读写,进而导致幻读,脏读,不可重复读等问题,解决思路就是封锁技术,本节就聊聊java并发编程中的主要技术。基础 1)通过在总线加LOCK#锁的方式是通过在总线上加LOCK#锁的形式来解决缓存不一致的问题。因为CPU和其他部件进行通信都是通过总线来进行的,如果对总线加LOCK#锁的话,也就是说阻塞了其他CPU对其他部件访问(如内存),从而使得只能有...

2020-04-26 16:06:57 117

原创 Google Guice简介

最近看graylog代码,发现使用了google的Guice,几个月前查看es代码也用到guice,还有不记得的好多github开源项目都使用了Google Guice,所以今天简单学习一下Google Guice概念。Google Guice:google guice是一个轻量级的依赖注入框架啊,Guice基本概念:Guice: 整个框架...

2020-04-24 13:35:05 768

原创 Graylog2 安装

GrayLog 服务端需要一些环境依赖Linux 发行版(如Debian、Ubuntu、或推荐使用的CentOS) Elasticsearch 2.x (2.1.0 or later)graylog2.3以后版本支持了elasticsearch5.x版本,但是不支持6.x版本 MongoDB 2.4 or later (latest stable version is recommende...

2020-04-21 11:30:45 668

原创 mongodb 简介

MongoDB是一个文档数据库,旨在简化开发和扩展。文献数据库¶MongoDB中的记录是一个文档,它是由字段和值对组成的数据结构。MongoDB文档类似于JSON对象。字段的值可以包括其他文档,数组和文档数组。使用文档的优点是:文档(即对象)对应于许多编程语言中的本机数据类型。 嵌入式文档和数组减少了对昂贵连接的需求。 动态模式支持流畅的多态性。Collect...

2020-04-20 15:29:57 153

原创 CentOS Graylog 安装

前提条件以最少的服务器设置为基础将需要以下附加软件包:$ sudo yum install java-1.8.0-openjdk-headless.x86_64如果要pwgen以后使用,则需要使用来安装系统上的EPEL并使用来安装软件包。sudoyuminstallepel-releasesudoyuminstallpwgenMongoDB的在Ce...

2020-04-20 10:20:17 345

原创 Graylog日志系统规划

日志收集:设计日志管理解决方案时,必须考虑许多因素,即使在小型组织中,现代环境也会产生大量日志数据,您将需要一种策略来对其进行有效管理。有两种主要方法:“做有需要的人”:决定要收集哪些事件时,“极简策略”将从“默认否”位置开始。这意味着除非确定的业务用例需要日志,否则您不会收集任何日志。该策略具有一些优势,可通过减少收集的事件数量来降低许可和存储成本。它还最大程度地减少了外部事件产生的...

2020-04-18 10:46:03 776

原创 Graylog

日志监控系统Graylog是一个开源的日志聚合、分析、审计、展现和预警工具。功能上和ELK类似,但又比ELK要简单,依靠着更加简洁,高效,部署使用简单的优势很快受到许多人的青睐。今天就跟着小live来了解一下Graylog的安装部署吧!graylog采用单机部署,,采用最小化部署,架构如下基本架构集群部署从上图可以看出大体上包括Elasticsearc...

2020-04-18 10:32:36 328

原创 java IO

上次从操作系统文件系统开始理解了一下java文件系统及IO,本节开始我们开始查看java IO源码。java IO的操作底层实现都是通过各个操作系统的文件系统,但是各个系统的文件系统有很大区别,所有java抽象了自己的文件系统,各个操作系统都有自己的实现。FileSystemabstract class FileSystem FileSystem是个抽象类,他有各自的实现wi...

2020-04-06 12:40:49 80

原创 hadoop 压缩技术

1. 概述​ 随着大数据时代的来临,数据体量越来越大,处理这些数据会越来越受到网络IO的限制,为了尽可能多的处理更多的数据我们必须使用压缩。​ 压缩技术能够有效减少底层存储系统(HDFS) 读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop 下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下, I/O 操作和网络数据传输要花大量的时间。还有,...

2020-04-05 16:10:09 160

原创 kudu

kudu是什么?Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。现在提起大数据存储,我们能想到的技术有很多,比如HDFS,以及在HDFS上的列式存储技术Apache Parqu...

2020-04-05 16:01:12 546

原创 hadoop平台存储文件格式的概念及对比

最近在书写大数据基础组件的时候对hadoop平台的文件格式感觉到有些困惑,不知道各自的优缺点及如何使用。现特意总结一下:hdfs支持哪些文件格式:TEXTFILE:textfile为默认格式,存储方式为行式存储,在检索时磁盘开销大 数据解析开销大,而对压缩的text文件 hive无法进行合并和拆分SEQUENCEFILE:二进制文件,以<key,value>的形式序列化到文...

2020-04-05 16:00:37 481

原创 MAVEN教程

今天编译多module项目,发现其中一个module的pom需要去远程仓库去获取,而不是 从本地仓库获取,找了好资料,一直没有找到正确的解决方案,所以想着将maven的知识点梳理一下。Maven简介:maven是一种项目管理和整合工具。maven为开发者提供了一套完整的构建生命周期框架maven皆在于简化工程的构建,并实现标准化,无缝衔接编译,发布,文档生成,团队合作。环...

2020-04-04 23:59:41 122

原创 java 文件系统

文件系统: 文件系统是操作系统操作设备上文件和数据结构的方法。操作系统中负责管理文件信息的软件单元叫文件管理系统,简称文件系统,文件系统由三部分组成:文件系统的接口,对象操作和管理的软件集合和对象及属性。文件系统主要解决信息的长期存储。文件: 文件是信息存储的形式,一个文件是一个命名的,存储在设备上的信息的线性字节流。文件在需要的时候可以读取这些信息或者写入新的信息。存储在文...

2020-04-04 23:53:03 983

原创 关于编写基础组件开发的一些思考

以前主要写的是业务系统,感觉业务系统有很成熟的架构,已经封装了很多功能,只需要在架构基础上书写业务逻辑代码即可,主要用的的技术也就是JPA,业务复杂一些可能会有多线程高并发的知识。 但是最近向从0开始写一个大数据采集组件,前后借鉴了spring batch, kafka, flume, nifi 等源码,最后还是搞得很被动。今晚静下心来总结一下到底是拿出问题,我暂时觉...

2020-04-04 23:38:21 293

原创 Hadoop源代码分析

Hadoop源代码分析(一)关键字: 分布式云计算Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。GoogleCluster:http://research.google.com/archive/googlecluster.htmlChubby:http://labs.google.com/papers/chubby.html...

2020-03-20 20:29:23 152

转载 Oracle 的数据批量读取 https://www.quest.com/

有这么一个大表假设数亿条记录,纯数据文本百Gb以上,批量读取的话咋整?SQLLoader,算是一个选择吧。嗯,开并行,数据表本身也许已经partition过了。可是如果自己批量unload数据应该怎么做呢?多线程并行是个好主意,但是怎么并行呢?如果你在想什么数字主键均分的想法,那你也许不会有好的结果。原因,主键的值域范围不一定是均匀分布的,这会造成你某些工作线程很忙,有些却草草结束了。深层次的...

2020-01-19 14:51:38 288

原创 IDEA如何添加项目启动参数

某些项目在运行时需要指定部分参数,类似于:在部分开发工具中支持以RUN的方法运行项目,工具将自动为项目打包并发布运行,并且支持添加启动参数,以下以IDEA为示例:1.打开Edit Configurations窗口2.窗口截图如下:如果没有Application选项页,可以点击绿色的加号,选择新建一个ApplicationMain Class :项目使用Dropwizard搭建,与s...

2020-01-17 14:34:00 2080

原创 spring总结-----Spring AOP实现

spring AOP实现主要依赖java动态代理,实现代理的方法有JDK的方法和CGLIB的方法。下面就对jdk代理和CGLIB代理做些简介:1.JDK方法:利用java.lang.reflect.Proxy类,但局限在于需要被代理的对象必须实现一个接口,如果被代理对象没有实现任何接口,或者被代理的业务方法没有相应的接口,就无法得到代理对象,这个时候就需要CGLIB方式产生代理对象。2.C...

2020-01-17 13:44:13 133

原创 spring总结-----Spring AOP

什么是AOPaop(Aspect-Oriented Programming), 即面向切面编程, 它与 OOP( Object-Oriented Programming, 面向对象编程) 相辅相成, 提供了与 OOP 不同的抽象软件结构的视角. 在 OOP 中, 我们以类(class)作为我们的基本单元, 而 AOP 中的基本单元是Aspect(切面)术语Aspect(切面)...

2020-01-17 10:48:00 199

原创 NiFi vs StreamSets(SDC)

NiFi vs StreamSets(SDC)Posted on2019-01-07|Symbols count in article:2.3k|Reading time ≈0:02前面几篇文章分别介绍了 NiFi 和 StreamSets Data Collector (以下简称 SDC) 在一些场景下的使用配置,本文从几个维度简单对比这两个开源的DFM (Dat...

2020-01-09 16:28:23 1396

原创 Java远程执行Shell命令

1. Jar包:ganymed-ssh2-build210.jar2. 步骤:  a) 连接:    Connection conn = new Connection(ipAddr);    conn.connect();  b)认证:    boolean authenticateVal = conn.authenticateWithPassword(userNam...

2020-01-09 10:39:49 984

原创 spring boot 常用配置

WEB 常用配置: application.propertiesserver.port=80debug=false#/ a , b ,c 三个项目 /地址将产生冲突#一般情况下,小项目通常都是在Tomcat下部署多个webapp,通过上下文来区分#在集群或者中大型项目中,通常我们一个Tomcat对应一个webapp,然后通过不同的端口来进行区分(8080/8081/8082)...

2020-01-07 11:29:27 330

原创 数据采集系统

两个月的时间,终于做出了数据采集系统,虽然支持的插件少了一点,但是整个数据采集的调度,工作流以及执行引擎功能都已完成,后面需要开发新的数据源只需要添加对应的task任务。数据采集架构:程序执行时序图:...

2020-01-06 17:46:57 1011

原创 spring 汇总 -----spring events

本文主要介绍下如何在spring中进行发布时间以及接收事件定义事件public class DemoEvent extends ApplicationEvent { private String message; public DemoEvent(Object source, String message) { super(source); ...

2019-12-31 11:08:07 94

原创 spring总结--spring IOC

所谓 IOC ,就是由 Spring IOC 容器来负责对象的生命周期和对象之间的关系IoCInversion of Control,控制反转。是面向对象编程中的一种设计原则,可以用来减低计算机代码之间的耦合度。其中最常见的方式叫做依赖注入(DependencyInjection,简称 DI),这也是 Spring 的实现方式。通过控制反转,对象在被创建的时候,由一个调控系统内所有对...

2019-12-31 10:47:26 129 1

原创 spring 总结--Spring Bean 生命周期

准确的了解Spring Bean的生命周期是非常必要的。我们通常使用ApplicationContext作为Spring容器。这里,我们讲的也是 ApplicationContext中Bean的生命周期。而实际上BeanFactory也是差不多的,只不过处理器需要手动注册。一、生命周期流程图:Spring Bean的完整生命周期从创建Spring容器开始,直到最终Spring容器销毁Bea...

2019-12-30 11:02:51 123

原创 spring 总结--Spring Bean

什么是Bean:简单说,Spring bean是Spring框架在运行时管理的对象。Spring bean是任何Spring应用程序的基本构建块。你编写的大多数应用程序逻辑代码都将放在Spring bean中。Spring bean的管理包括:创建一个对象 提供依赖项(例如其他bean,配置属性) 拦截对象方法调用以提供额外的框架功能 销毁一个对象Spring bean是框架的...

2019-12-30 10:55:45 246

原创 spring 总结!

背景:工作开发好多年了,一直停留在工具的使用层面,最近写一个高并发数据采集框架感觉还是很生疏,所以计划将spring,mybatis,druid,netty等开源框架的源码梳理一下。为以后自己开发框架做些铺垫。我们先从spring 核心功能开始。spring 选择:Spring MVCandSpring WebFluxweb frameworks.spring 组件说明:...

2019-12-30 10:21:17 117

原创 atlas 学习---简单认识

atlas是hadoop数据治理和元数据框架。Atlas是一组可伸缩和可扩展的核心基础治理服务。使企业能够有效地满足Hadoop中的遵从性需求,并允许与整个企业数据生态系统集成。Apache Atlas为组织提供开放的元数据管理和治理功能,以构建数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作功能。Features:Met...

2019-12-20 18:36:52 441

原创 JDK8 API文档

JDK8 API文档(下载)JDK API文档java SE 8 API文档:http://www.oracle.com/technetwork/java/javase/documentation/jdk8-doc-downloads-2133158.htmljdk-8-apidocs 在线版:http://docs.oracle.com/javase/8/docs/...

2019-12-20 10:55:57 1516

原创 nifi 启动流程

在启动脚本可以看到启动过程调用的是org.apache.nifi.bootstrap.RunNiFi:main() { init "$1" run "$@"}case "$1" in install) install "$@" ;; start|stop|run|status|dump|diagnostics|env)...

2019-12-13 16:04:00 1483

原创 nifi源码分析

NiFi 首先是一个 JVM 应用,其次最上层是一个 web server.我们就从这里入手开始阅读 NiFi 的源码.要分析 maven 工程的源码,首要看的就是 pom 文件,通过 pom 文件,我们能够得知这个工程的大概.可以发现,这394个 pom 工程大部分是子工程,都是一层套一层的父子pom 工程.那么我们首先找到最顶级的pom 工程,也就是 nifi:这么一看,整个...

2019-12-04 09:31:15 665

翻译 NiFi的性能期望和特性

NiFi的性能期望和特性NiFi旨在充分利用底层主机系统上的功能操作。这种资源的最大化在CPU和磁盘方面尤其明显。有关其他详细信息,请参阅管理指南中的最佳实践和配置技巧。对输入输出IO根据系统的配置方式,可以预期看到的吞吐量或延迟差异很大。由于大多数主要的NiFi子系统都有可插拔的方法,所以性能取决于实现。但是,对于一些具体且广泛适用的东西,请考虑开箱即用的默认实现。这些都是有保证的持久性...

2019-12-03 17:50:21 757

翻译 nifi 架构

NiFi Architecture:NiFi在主机操作系统的JVM中执行。JVM上NiFi的主要组件如下:Web Server:web服务器的目的是承载NiFi基于HTTP-based command and control API.Flow ControllerThe flow controller is the brains of the operation. It p...

2019-12-03 17:44:34 576

原创 nifi主要概念

NiFi的建立是为了帮助解决现代数据流的挑战。The core concepts of NiFi:NiFi的基本设计概念与基于流的编程的主要思想密切相关[Flow Based Programming fbp]。以下是一些主要的NiFi概念以及它们是如何映射到FBP的:NiFi Term FBP Term Description FlowFile ...

2019-12-03 16:52:47 393

原创 nifi 简介

最近要开发一套全新的数据采集系统,(不知道当初为什么不选择开源的进行二次开发,现在想想估计当时脑袋秀逗了。不过也好,本人也喜欢挑战)在开发过程中遇到一些问题,所以学习一下nifi, 参考一下nifi找找灵感!nifi简介:一个易于使用、功能强大、可靠的系统来处理和分发数据。nifi 特点:Apache NiFi支持功能强大且可伸缩的数据路由、转换和系统中介逻辑定向图。Apache ...

2019-12-03 16:28:10 844

原创 conductor client

Conductor tasks that are executed by remote workers communicate over HTTP endpoints/gRPC to poll for the task and update the status of the execution.Client APIsConductor provides the following jav...

2019-11-28 10:22:27 213

原创 conductor 概念

Definitionsconductor定义类似于OOP范式或模板中的类定义。您只定义一次,并将其用于每个工作流执行。定义与执行是1:N关系。Taskstask是构建workflow的块,workflow中至少有一个task。task可以分为一下两种:Systems tasks 执行by Conductor server.Worker tasks 执行by your o...

2019-11-28 10:02:25 1538

janusgraph部署开发.docx

JanusGraph over HBase支持全局顶点和边缘迭代。但是,请注意,所有这些顶点和/或边都将加载到内存中,这可能会导致OutOfMemoryException。使用JanusGraph和TinkerPop的Hadoop-Gremlin有效地遍历大型图中的所有顶点或边。

2020-05-15

graylog日志检索系统调研.docx

graylog 调研 --安装 源代码分析 1. Graylog 作为一个开源项目,类没有一行注释,真的是很难想象,

2020-04-26

【恩墨学院】CDH集群的企业部署.pdf

cdh安装及部署文档:操作系统修改,cm安装,cdh安装.///

2019-10-16

Oozie的安装与配置.docx

oozie安装文件:Oozie的安装与配置及自带example演示。1111

2019-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除