自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zkf541076398的博客

数据小白

  • 博客(41)
  • 收藏
  • 关注

转载 31.Elasticsearch批量导入本地Json文件Java实现(ES文件同步)

题记产品开发需要,我们需要将互联网采集的数据存储到ES中,以实现数据的全文检索。互联网采集的数据,往往格式杂乱,需要先进行数据清洗操作。而ES支持的入库格式,json格式数据会相对方便些。本文主要介绍,如何将格式化的Json文件批量插入到ES中。1、需提前做的工作1)设计好索引以及Mapping;Mapping的目的主要是——设定字段名称、字段类型,哪些字段需要进行全文检索等。12)Java程序中...

2018-04-30 14:08:10 3612

转载 30.kafka数据同步Elasticsearch深入详解(ES与Kafka同步)

1、kafka同步到Elasticsearch方式?目前已知常用的方式有四种: 1)logstash_input_kafka插件; 缺点:不稳定(ES中文社区讨论) 2)spark stream同步; 缺点:太庞大 3)kafka connector同步; 4)自写程序读取、解析、写入  本文主要基于kafka connector实现kafka到Elasticsearch全量、增量同步。2、从co...

2018-04-30 14:07:53 17065

转载 29.mongo-connector实现MongoDB与elasticsearch实时同步(ES与非关系型数据库同步)

引言:验证表明:mongo-connector工具支持MongoDB与ES之间的实时增insert、删delete、改update操作。 对于历史数据,mongo-connector工具不能同步到ES中,根因是本身工具不支持(初步界定),还是没有这种场景,待查(进一步研究后再更新)。1. mongo-connector 地址:https://github.com/mongodb-labs/mong...

2018-04-30 14:07:34 301

转载 28.logstash-out-mongodb实现elasticsearch到Mongodb的数据同步(ES与非关系型数据库同步)

本文主要实现将Elasticsearch中的索引数据Index同步到Mongodb中的集合collection中。0、前提1)已经安装好源数据库:elasticsearch V2.X; 2)已经安装好目的数据库:Mongodb; 3)已经安装好logstash及相关插件logstash-output-mongodbGoogle、Statckoverflow上充斥着mongdb到elasticsea...

2018-04-30 14:07:15 572

转载 27.logstash-output-mongodb实现Mysql到Mongodb数据同步(ES与非关系型数据库同步)

本文主要讲解如何通过logstash-output-mongodb插件实现Mysql与Mongodb数据的同步。源数据存储在Mysql,目标数据库为非关系型数据库Mongodb。0、前提1)已经安装好源数据库:Mysql; 2)已经安装好目的数据库:Mongodb; 3)已经安装好logstash及相关插件logstash-output-mongodb 安装步骤参考:http://blog.csd...

2018-04-30 14:06:58 332

转载 26.logstash_output_mongodb插件用途及安装(ES与非关系型数据库同步)

0、logstash-output-mongodb用途Writes events to MongoDB,也就是向mongodb里面写入数据。 来源可以是:jdbc类的Mysql、oracle关系型数据库;也可以是Elasticsearch等。 后续的同步应用中会用到该插件,所以单独列出来。并且,默认logstash不安装该插件,需要手动安装。1、logstash_output_mongodb的安装...

2018-04-30 14:06:42 285

转载 20.elasticsearch-jdbc实现MySQL同步到ElasticSearch(ES与关系型数据库同步)

1.如何实现mysql与elasticsearch的数据同步?逐条转换为json显然不合适,需要借助第三方工具或者自己实现。核心功能点:同步增、删、改、查同步。2、mysql与elasticsearch同步的方法有哪些?优缺点对比?目前该领域比较牛的插件有:1)、elasticsearch-jdbc,严格意义上它已经不是第三方插件。已经成为独立的第三方工具。https://github.com/j...

2018-04-30 14:06:24 4240

转载 21.go-mysql-elasticsearch实现mysql 与elasticsearch实时同步(ES与关系型数据库同步)

引言:go-mysql-elasticsearch 是国内作者开发的一款插件。测试表明:该插件优点:能实现同步增、删、改、查操作。不足之处(待完善的地方): 1、仍处理开发、相对不稳定阶段; 2、没有日志,不便于排查问题及查看同步结果。 本文深入详解了插件的安装、使用、增删改查同步测试。1. go-mysql-elasticsearch 插件安装步骤1:安装goyum install go步骤2:...

2018-04-30 14:06:02 2353 3

转载 19.logstash-input-jdbc实现mysql 与elasticsearch实时同步(ES与关系型数据库同步)

引言:elasticsearch 的出现使得我们的存储、检索数据更快捷、方便。但很多情况下,我们的需求是:现在的数据存储在mysql、oracle等关系型传统数据库中,如何尽量不改变原有数据库表结构,将这些数据的insert,update,delete操作结果实时同步到elasticsearch(简称ES)呢? 本文基于以上需求点展开实战讨论。1.对delete操作的实时同步泼冷水到目前为止,所有...

2018-04-30 14:05:21 619

转载 23.logstash-input-jdbc 同步原理及相关问题解读(ES与关系型数据库同步)

前言:基于logstash-input-jdbc较其他插件的稳定性、易用性、版本和ES同步更新的特点,以下研究主要针对 logstash-input-jdbc 展开。 针对logstash-input-jdbc常见的几个疑难问题,部分问题也在git和stackoverflow进行了激烈讨论,以下统一给出验证和解答。1、logstash-input-jdbc 的同步原理是什么?(1)、对于全量同步依...

2018-04-22 21:56:41 275

转载 24.logstash-input-jdbc实现oracle 与elasticsearch实时同步(ES与关系型数据库同步)

前言:logstash-input-jdbc实现mysql 与elasticsearch的解读之前博文已经解析。本次只是在原有的基础上,针对oracle特性部分做解读。 目标:实现了oracle与ES同步增、删、改、查。 1、配置文件[root@5b9dbaaa148a logstash_jdbc_test]# cat jdbc_oracle.confinput {  stdin {  }  jd...

2018-04-22 21:56:03 1527

转载 25.logstash一次同步Mysql多张表到ES(ES与关系型数据库同步)

题记一次同步多张表是开发中的一般需求。之前研究了很久找到方法,但没有详细总结。 博友前天在线提问,说明这块理解的还不够透彻。 我整理下, 一是为了尽快解决博友问题, 二是加深记忆,便于未来产品开发中快速上手。1、同步原理原有ES专栏中有详解,不再赘述。详细请参考我的专栏: 深入详解Elasticsearch 以下是通过ES5.4.0, logstash5.4.1 验证成功。 可以确认的是2.X版本...

2018-04-22 21:55:45 1571 1

转载 18.Elasticsearch6.X 新类型Join深入详解

0、ES6.X 一对多、多对多的数据该如何存储和实现呢?引出问题:“某头条新闻APP”新闻内容和新闻评论是1对多的关系?在ES6.X该如何存储、如何进行高效检索、聚合操作呢?相信阅读本文,你就能得到答案!1、ES6.X 新类型Join 产生背景Mysql中多表关联,我们可以通过left join 或者Join等实现;ES5.X版本,借助父子文档实现多表关联,类似数据库中Join的功能;实现的核心是...

2018-04-22 21:55:24 297

转载 17.Elasticsearch单字段支持的最大字符数

在业务系统中,遇到过两个问题: 问题1:设置为keyword类型的字段,插入很长的大段内容后,报字符超出异常,无法插入。 问题2:检索超过ignore_above设定长度的字段后,无法返回结果。思考:Elasticsearch单字段支持的最大字符数?设置ignore_above之后引申的问题:1、ignore_above的作用?ES中用于设置超过设定字符后,不被索引或者存储。 Strings lo...

2018-04-22 21:54:59 1251

转载 16.Elasticsearch究竟要设置多少分片数

0、引言本文翻译自Elasticsearch20170918热乎的官方博客,原作者:Christian Dahlqvist。 在构建Elasticsearch集群的初期如果集群分片设置不合理,可能在项目的中后期就会出现性能问题。Elasticsearch是一个非常通用的平台,支持各种各样的用例,并且为数据组织和复制策略提供了巨大灵活性。这种灵活性使得作为ELK新手的你将数据组织成索引和分片变得困难...

2018-04-22 21:54:36 541

转载 15.上线必备 | 高性能ES5.X部署配置清单

题记网上当前(截止20170914)流传的各种配置文件普通存在以下问题: 1)版本低,不能和当前版本5.X匹配。 2)5.X的配置本身较1.X,2.X就有很大不同,原有配置已不适用。 3)ES英文、中文文档也没有及时更新。现在,确保ES5.X的高性能到底需要哪些配置越发令人神往。以下清单内容参考了ES官网文档,且都是在ES5.4.0的环境中验证过的,请放心使用。1、配置之前了解ES的集群拓扑结构您...

2018-04-22 21:54:10 457

转载 14.Elasticsearch检索分类深入详解--基础篇

题记Elasticsearch中当我们设置Mapping(分词器、字段类型)完毕后,就可以按照设定的方式导入数据。有了数据后,我们就需要对数据进行检索操作。根据实际开发需要,往往我们需要支持包含但不限于以下类型的检索: 1)精确匹配,类似mysql中的 “=”操作; 2)模糊匹配,类似mysql中的”like %关键词% “查询操作; 3)前缀匹配; 4)通配符匹配; 5)正则表达式匹配; 6)跨...

2018-04-22 21:53:48 192

转载 13.ES技术团队划重点 | ES5.X,你必须知道的API和相关技巧

题记Elasticsearch5.X相关核心知识点必知必会(如下)。0. ES相关推荐首先,不要再使用curl,请安装sense(kibana5.x中默认包含sense) 1)ES官方向导 https://www.elastic.co/guide/en/elasticsearch/guide/master/index.html2)ES官方文档(API相关) https://www.elastic....

2018-04-22 21:53:12 203

转载 12.Elasticsearch5.4.0 IK分词插件安装

铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/514728211、ES5.4.0 IK分词安装步骤步骤1:下载最新版的ik插件地址:https://github.com/medcl/elasticsearch-analysis-ik步骤2:解压elasticsearch-...

2018-04-22 21:52:51 125

转载 恒丰银行基于大数据平台构建数据仓库的研究与实践

恒丰银行原传统数据仓库是建立在IOE(IBM、ORACLE、EMC)传统架构体系上,已接入数据源系统有30多个,配套建立监管数据集市、数据分析集市,风险数据集市三个主要数据集市,负责十几个管理应用和监管系统的数据需求,下游建有银行管理类系统如综合经营分析系统(管理驾驶舱)、自定义查询平台等,并为各分行提供数据下发服务。随着恒丰银行各类业务快速发展以及与外部机构跨界合作的展开,历史数据越来越多,半结...

2018-04-18 21:32:01 4181

转载 大数据实践之数据建模

随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。为什么需要数据建模 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措...

2018-04-18 21:31:15 13622

转载 11.elasticsearch插件六分词 IK analyzer插件安装详解

铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/51472821一、 IK Analyzer 介绍IK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包,最初的时候,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件,...

2018-04-18 21:23:51 157

转载 10.elasticsearch插件五graph插件安装详解

铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/51472821一、graph插件介绍graph插件一个新的用于 Elasticsearch 和 Kibana 的插件,通过它们您可以很方便的发现、理解和探索现有数据之间的关系。和 Elastic 的所有产品一样,它的 UI ...

2018-04-17 11:50:48 173

转载 9.elasticsearch插件四 logstash插件安装详解

铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/51472821一、logstash插件介绍logstash是一个用来管理事件和日志的工具,它的作用是收集日志,解析日志,存储日志为以后使用。二、logstash插件安装步骤1:下载和安装公共签名key。rpm –import...

2018-04-17 11:50:07 177

转载 8.elasticsearch插件三 Marvel插件安装详解

铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/51472821一、Marvel插件介绍Marvel插件:在簇中从每个节点汇集数据。这个插件必须每个节点都得安装。 Marvel是Elasticsearch的管理和监控工具,在开发环境下免费使用。它包含了一个叫做Sense的交...

2018-04-17 11:49:30 633

转载 7.elasticsearch插件二kibana插件安装详解

铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/51472821一、kibana 插件介绍kibana 插件提供了Marvel监控的UI界面。 kibana是一个与elasticsearch一起工作的开源的分析和可视化的平台。使用kibana可以查询、查看并与存储在elas...

2018-04-17 11:48:30 453

转载 6.elasticsearch插件一head插件安装详解

铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/51472821一、elasticsearch-head插件介绍elasticsearch-head是一个用来浏览、与Elastic Search簇进行交互的web前端展示插件。 elasticsearch-head是一个用来...

2018-04-17 11:47:12 947

转载 5.Elasticsearch5.4.0(head/kibana/logstash)安装部署详解

铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/733687401、ES5.4.0安装包下载地址https://www.elastic.co/downloads/past-releases/elasticsearch-5-4-02、Centos6.7 Elasticsear...

2018-04-17 11:43:30 206

转载 4.Elasticsearch集群部署详解

原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/728508341、题记之前应用都是Elasticsearch单节点,随着业务的拓展、数据量的增多,部署分布式Elasticsearch刻不容缓。本文以Elaticsearch2.3.4版本为基础,讲解Elasticsearch三个节点...

2018-04-17 11:42:38 271

转载 3.elasticsearch 索引存储深入详解

1、关于ES index存储在内存的问题?(1)早期ES1.X版本对ES索引存储介绍:原文地址: https://www.elastic.co/guide/en/elasticsearch/reference/1.4/index-modules-store.html ES1.X存储模块可以控制索引数据的存储方式,索引可以存储在内存和磁盘上。使用内存方式可以得到更好的性能,但受限于实际的可用的物理内...

2018-04-17 11:39:20 308

转载 2.Elasticsearch增、删、改、查操作

铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/51931981引言:对于刚接触ES的童鞋,经常搞不明白ES的各个概念的含义。尤其对“索引”二字更是与关系型数据库混淆的不行。本文通过对比关系型数据库,将ES中常见的增、删、改、查操作进行图文呈现。能加深你对ES的理解。同时,...

2018-04-17 11:37:00 190

转载 1.Elasticsearch学习

铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/52244917题记:Elasticsearch研究有一段时间了,现特将Elasticsearch相关核心知识、原理从初学者认知、学习的角度,从以下9个方面进行详细梳理。欢迎讨论……0. 带着问题上路——ES是如何产生的?(1...

2018-04-17 11:35:19 598

转载 Oozie安装应用-工作流引擎 Oozie

本文基于 Centos6.x + CDH5.xOozie是什么简单的说Oozie是一个工作流引擎。只不过它是一个基于Hadoop的工作流引擎,在实际工作中,遇到对数据进行一连串的操作的时候很实用,不需要自己写一些处理代码了,只需要定义好各个action,然后把他们串在一个工作流里面就可以自动执行了。对于大数据的分析工作非常有用安装OozieOozie分为服务端和客户端,我现在选择host1作为服务...

2018-04-14 17:13:54 1089

转载 Oozie教程-实现你自己的Hadoop/Spark作业工作流

前言Oozie是什么呢?按官方说法:Oozie是一个基于工作流引擎的服务器,其中每个工作流的任务可以是Hadoop的Map/Reduce作业或者Pig作业等。Oozie是运行于Java servlet容器上的一个java web应用。Oozie的目的是按照DAG(有向无环图)调度一系列的Map/Reduce或者Pig任务。Oozie 工作流由hPDL(Hadoop Process Definiti...

2018-04-14 17:11:57 596

转载 使用Hue创建Spark1和Spark2的Oozie工作流

1.文档编写目的使用Hue可以方便的通过界面制定Oozie的工作流,支持Hive、Pig、Spark、Java、Sqoop、MapReduce、Shell等等。Spark?那能不能支持Spark2的呢,接下来本文章就主要讲述如何使用Hue创建Spark1和Spark2的Oozie工作流。内容概述1.添加Spark2到Oozie的Share-lib2.创建Spark2的Oozie工作流3.创建Spa...

2018-04-14 16:35:54 3136

转载 如何使用Hue上创建一个完整Oozie工作流

1.文档编写目的在使用CDH集群中经常会有一些特定顺序的作业需要在集群中运行,对于需要多个作业顺序执行的情况下,如何能够方便的构建一个完整的工作流在CDH集群中执行,前面Fayson也讲过关于Hue创建工作流的一系列文章具体可以参考《如何使用Hue创建Spark1和Spark2的Oozie工作流》、《如何使用Hue创建Spark2的Oozie工作流(补充)》、《如何在Hue中创建Ssh的Oozie...

2018-04-14 16:34:21 10447

转载 如何使用Sqoop2

1.文档编写目的通sqoop1一样,sqoop2同样也是在Hadoop和关系型数据库之间互传数据的工具,只不过sqoop2引入sqoop server,集中化管理connector,而sqoop1只是客户端工具。下图是sqoop1的架构;版本:目前sqoop1社区版最新为1.4.7架构:使用sqoop客户端直接提交访问方式:通过sqoop1命令在后台终端直接访问安全性:命令或者脚本中直接指定数据库...

2018-04-14 15:44:43 1695

转载 搭建分布式Spark计算平台

集群机器规划三台机器的操作系统全部为CentOS7.2.主机名称 IP地址master 192.168.1.106slave1 192.168.1.107slave2 192.168.1.108其中master为hadoop的namenode,slave1和slave2为hadoop的datananode。如果安装spark的话,master、slave1和slave2都是...

2018-04-14 15:42:13 2511

转载 Spark Structured Streaming入门编程指南

Spark结构式流编程指南概览Structured Streaming 是一个可拓展,容错的,基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使用DataSet/DataFrame API处理流数据的聚集,事件窗口,和流与批次的连接操作等。最后St...

2018-04-14 12:18:52 389

转载 sparkSQL的整体实现框架

这篇博客的目的是让那些初次接触sparkSQL框架的童鞋们,希望他们对sparkSQL整体框架有一个大致的了解,降低他们进入spark世界的门槛,避免他们在刚刚接触sparkSQL时,不知所措,不知道该学习什么,该怎么看。这也是自己工作的一个总结,以便以后可以回头查看。后续会对sparkSQL进行一系列详细的介绍。慢慢来吧~~~1、sql语句的模块解析   当我们写一个查询语句时,一般包含三个部分...

2018-04-14 12:16:33 150

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除