- 博客(22)
- 收藏
- 关注
原创 先说说什么是主数据和参考数据?
主数据是有关(雇员,客户,产品等)的数据,这些实体为业务交易和分析提供了语境信息。需要对主数据的值和标识符进行控制参考数据用于其他数据,或者将数据与组织外部的信息联系起来的任何数据。是因为什么业务驱使我们关注参考数据和主数据的管理?比如代码表、分类表、描述表等。需要对定义的值域以及其定义进行控制。...
2022-07-23 17:29:47
4038
原创 PDManer区分索引类型
背景PDmaner是一个非常强大的数据库建模工具,但是还有一些细节功能还是做的不到位,比如对索引类型的不区分。比如我需要建立全文索引,工具中没地方选择,导出来的ddl语句全部是普通索引。解决有改源码能力的,应该加一个类型区分应该也很方便,但是对于没有修改源码能力的人来说也是有比较方便的解决方案的。发现是通过脚本模板的方式来生成DDL语句,所以就考虑通过修改脚本模板来解决。步骤如下:1.规范:比如全文索引的命名规范idx_search开头2.修改模板脚本{{~ it.enti
2022-04-30 20:00:43
1166
原创 数据服务开发工具(Magic-API)
前言对于数据开发人员来说,把数据通过api的方式提供出去,往往是数据开发的最后一公里。对于一个数据开发人员来说,通过自己写java或者其他代码提供数据服务往往比较困难,但是写SQL对他们来说是so easy,所以需要有一个工具通过SQL的方式快速提供API。搜索几方,发现已经有比较成熟的开源方案。一、相关开源产品Datawayhttps://www.hasor.net/doc/display/datawayMagic-APIssssssss-teamRocket-API-Platfo..
2022-04-30 19:44:26
9212
1
转载 Flink 和 Pulsar 的批流融合
作者:Sijie Guo编辑:IreneApache Flink和 Apache Pulsar的开源数据技术框架可以以不同的方式融合,来提供大规模弹性数据处理。4 月 2 日,我司 CEO 郭斯杰受邀在 Flink ForwardSan Francisco 2019 大会上发表演讲,介绍了 Flink 和 Pulsar 在批流应用程序的融合情况。这篇文章会简要介绍 Apache Pulsar 及其与其他消息系统的不同之处,并讲解如何融合 Pulsar 和 Flink 协同工作,为大规模弹性...
2021-07-27 15:24:15
791
转载 HBase RowKey与索引设计
1.HBase的存储形式hbase的内部使用KeyValue的形式存储,其key时rowKey:family:column:logTime,value是其存储的内容。其在region内大多以升序的形式排列,唯一的时logTime是以降序的形式进行排列。所以,rowKey里越靠近左边的信息越容易被检索到。其设计时,要考虑把重要的信息放左边,不重要的信息放到右边。这样可以提高查询数据的速度。最重要的提高索引速度的就是设计合适的rowKey。在做RowKey设计时,请先考虑业务是读比写多,还是读.
2021-07-27 15:05:53
990
原创 Hbase 基础命令
hbase shell命令 例子 描述 alter alter "table_a",NAME=>'info',TTL=>'86400' 修改列族(column family)模式 count count 'table_a', {INTERVAL => 100, CACHE => 500} 统计表中行的数量...
2021-07-27 14:56:35
128
原创 Elasticsearch5.X权限管理
ES6以前的开源版本,默认情况下是没有账户体系,但是可以通过以下开源的插件进行用户权限管理。下面就以search-guard插件来实践下1、安装search-guard 插件,对应我们的es版本cd $ES_HOMEbin/elasticsearch-plugin install -b com.floragunn:search-guard-5:5.4.0-152、生成证书访问:https://search-guard.com/tls-certificate-generator/
2021-07-27 14:53:27
653
原创 Dataway搭建数据服务
对于大数据场景,计算的业务逻辑基本都在数据处理过程中完成,最后往往会持久化下来计算的结果,存储在mysql,es,hbase等适合提供查询的地方。而对于在不同数据库上的数据,需要开发接口,管理接口也是一个不小的工作量。Dataway的出现,正好解决了这个场景下的接口开发,管理等问题。只需要通过SQL,Dataql等配置就能完成一个接口的上线,大大提高了开发效率,以及管理成本。对于数据中台建设中,Dataway可以使用在统一服务层,对接各种数据源,管理数据出口。一、安装引入依赖Da...
2021-07-27 14:51:35
1905
原创 elasticsearch故障:an index cannot exceed 2147483519 but readers have total maxDoc=2147499025
版本:elasticsearch5.4.0故障现象:一个索引的shard 变成unassigned状态,由于这个索引正在做数据初始化,所以没有副本数据curl -XGET localhost:9200/_cat/shards?h=index,shard,prirep,state,unassigned.reason| grep UNASSIGNED详细原因:curl -XGET localhost:9200/_cluster/allocation/explain?pretty"shard
2021-07-27 14:48:30
1386
原创 Hive查询问题(卡住)
一、现象几乎全部SQL语句都不能查,卡死在那里,过很久之后可能会报FAILED: Error in acquiring locks: Error communicating with the metastore但是查看后台hive的日志,没有任何异常SQL语句比如:select 1;show tables;二、定位原因1、重启hiveserver2,MetaStore等服务都没有效果2、考虑是hive元数据的问题查看hive元数据表的使用情况show OPEN
2021-07-27 14:43:01
5675
原创 Kettle发邮件模块设计
一、场景 在数据提取工作中,往往会碰到以下场景周期性发生报告 没有现成发生邮件的工具 组内都是SQL高手,开发能力欠缺(编码高手可以绕道了)为了提高工作效率,利用Kettle设计了一套通过配置SQL,定期提取数据发送给需求方的模块。二、数据库设计 设计一套表来存储必要的配置信息邮件发送设置表,sql和excel的sheet的对应关系一个需求可能需要好几个sql才能产生结果,可以写到同一个sheet也可以写到不同的sheet,自由组合。建表脚本...
2021-07-27 14:35:38
898
debezium-connector-opengauss-1.9.8.Final.jar
2025-03-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人