自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 如何让数据治理快速出成效——反向治理,以终为始

比如财务科目、客商信息、物料编码,认为上一套主数据系统就解决了,而实际的情况,上了主数据系统的单位,各业务系统中主数据依然存在不一致问题。三、数据质量“以终为始”,数据质量是数据治理的目标,以数据仓库建模开始,基于数据模型,通过MPP数据仓库的高性能,快速定位数据质量问题,并以此开始数据治理任务实施,形成“质量反馈——治理改进”的循环迭代,让数据问题收敛。鲁四海团队根据十多年的数据治理经验,也就是十多年的填坑经历,提出了“反向治理,以终为始”的数据治理方法,解决了数据治理缺少抓手、投入大、见效慢的问题。

2024-08-30 16:05:01 367

原创 Canal+RabbitMQ实现MySQL数据同步至ClickHouse

ClickHouse作为一个被广泛使用OLAP分析引擎,在执行分析查询时的速度优势很好的弥补了MySQL的不足,但是如何将MySQL数据同步到ClickHouse就成了用户面临的第一个问题。消息生产者并没有直接将消息发送给消息队列,而是通过建立Exchange(交换器)和Channel(信道),将消息发送给Exchange,Exchange根据routing key,将消息转发给指定的Queue(消息队列)。targetTable: 目标库的目标表,不需要带数据库名称,否则会出现:库名.库名.表名的错误。

2024-01-03 10:44:15 1517

原创 SeaTunnel同步SQLserver数据至ClickHouse

先将SQL server的TestDB数据库下test表中的10000条历史数据,同步到ClickHouse数据库下default.test中,之后增量同步新数据至ClickHouse中。本章我们运用数据集成平台SeaTunnel实现了SQLserver到ClickHouse的数据同步,通过SQLserver CDC实现了历史数据同步以及增量同步。用户只需要配置作业信息,就能完成数据的同步。SeaTunnel支持SQLserver CDC的实时数据同步,继续向SQLserver中插入数据。

2024-01-02 11:55:53 662

原创 SeaTunnel同步Oracle数据至ClickHouse

从Oracle同步数据到ClickHouse,是目前最常见到的数据同步场景,将数据从Oracle同步到ClickHouse可以帮助提升数据处理速度和查询性能,提供更好的数据管理和分析能力,以及降低成本和提高经济效益。ClickHouse是OLAP 在线分析领域的一颗冉冉新星,它拥有极其出众的查询性能,以及丰富的分析函数,可以助力分析师灵活而迅速地挖掘海量数据的价值。本示例将Oracle的test表中的9999条数据,同步到ClickHouse数据库下default.test0中。

2023-12-27 11:50:39 1287

原创 SeaTunnel流处理同步MySQL数据至ClickHouse

先将MySQL的test数据库下bigtest表中的10000条历史数据,同步到ClickHouse数据库下default.tests中,之后增量同步新数据至ClickHouse中。下载连接器connector-cdc-mysql-2.x.x.jar,并放至'$SEATNUNNEL_HOME/connectors/seatunnel/'目录下。本章我们运用数据集成平台SeaTunnel实现了MySQL到ClickHouse的数据同步,通过MySQL CDC实现了历史数据同步以及新数据增量同步。

2023-12-26 14:18:53 1167

原创 SeaTunnel批处理同步MySQL数据至ClickHouse

SeaTunnel是一个分布式、高性能、易扩展、用于海量数据同步和转化的数据集成平台。用户只需要配置作业信息,就能完成数据的同步。提交作业后,源连接器负责并行读取数据并将数据发送到下游转换或直接发送到接收器,接收器将数据写入目标。ClickHouse是一种OLAP类型的列式数据库管理系统,ClickHouse完美的实现了OLAP和列式数据库的优势,因此在大数据量的分析处理应用中ClickHouse表现很优秀。数据库下bigtest表中的10000条数据,同步到。当任务运行完毕,会出现本次任务的汇总信息:。

2023-12-25 11:06:19 807

原创 SeaTunnel同步PostgreSQL数据至ClickHouse(1)

ClickHouse是一种OLAP类型的列式数据库管理系统,ClickHouse完美的实现了OLAP和列式数据库的优势,因此在大数据量的分析处理应用中ClickHouse表现很优秀。SeaTunnel是首个由国人主导并贡献到Apache软件基金会的大数据集成领域的顶级项目,SeaTunnel是一个分布式、高性能、易扩展、用于海量数据同步和转化的数据集成平台。SeaTunnel支持数据同步过程中每一步的详细监控信息,让用户轻松了解同步任务读写的数据数量、数据大小等信息。配置化、低代码、易维护是。

2023-12-25 10:56:42 1372

原创 2023年度大数据十大关键词--增强分析

增强技术通常易于使用,降低了技术门槛,这使得广泛的业务人员可以大幅减少对数据科学家的依赖,能够基于增强分析的结果更充分的发挥自己的业务专业知识,当更多人参与数据分析时,数据素养就会提高。当人们更快地回答他们的数据问题时,他们可以专注于更具战略性,挑战性的任务,并花更少的时间梳理数据以获取见解。机器学习和自然语言技术可以降低分析的技术障碍,包括让数据技能和经验不太成熟的人可以使用更先进的技术,帮助领域专家(深入业务的人员)更敏捷的使用他们的数据。借助一些数据模型,系统自动的去发现、挖掘一些有价值的数据。

2023-12-25 10:34:19 446

原创 2023大数据十大关键词--数据资产化

是指对数据资产进行规划、控制和提供的一组活动职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。在组织中,并非所有的数据都构成数据资产,数据资产是能够为组织产生价值的数据资源。数据资产管理包含数据资源化、数据资产化两个环节,将原始数据转变为数据资源、数据资产,逐步提高数据的价值密度,为数据要素化奠定基础。),提出通过数据商,为数据交易双方提供数据产品开发、发布、承销和数据资产的合规化、标准化、增值化服务,促进提高数据交易效率。

2023-12-25 10:30:31 847

原创 2023大数据十大关键词--数据伦理

在由中国通信标准化协会和中国信息通信研究院联合主办的“2023大数据产业发展大会”上,发布了“2023大数据十大关键词”,分别是湖仓一体、数据资产化、DataOps、数据服务、增强分析、数据伦理、数据基础制度、公共数据授权运营、数据安全风险评估、数据出境。由于组织的社会责任,在执行商务智能、分析和数据科学相关活动时,需要一种超越当前所在组织界限的伦理观念,这会对更广泛的社区产生影响。在数据行级保护中,通常需要对数据进行分类和分级,根据数据的不同类型和敏感程度,采取不同的保护措施。偏见是一种有倾向性的观点。

2023-11-09 16:00:24 149

原创 2023大数据十大关键词--数据服务

数据目录即是将数据进行分类后,以目录的方式进行呈现,这样能够更好的体现不同数据的业务含义,辅助用户快速定位所需数据,用户可以通过查询的方式筛选数据集,并通过浏览元数据、探查样例数据等方式了解数据集的细节信息。形式的数据服务即是将用户需要的数据提供给用户,这里的数据可以是未经加工处理的数据,也可是加工后的指标和标签,用户得到数据后可根据自身的需求进行后续的分析挖掘等工作。形式的服务适用于技术实力较强的用户群体,在互联网、电子商务等数据密集型行业中,业务部门通常具备较高的数据分析、应用能力,数据中台以。

2023-11-09 15:57:54 160

原创 2023大数据十大关键词--公共数据授权运营

授权运营单位在开展公共数据运营过程中,由于数据汇聚、关联分析等原因发现数据间隐含关系与规律,并危害国家安全、公共利益,或侵犯个人信息、商业秘密、保密商务信息的,应立即停止相应的数据处理活动,及时向公共数据主管部门报告数据风险情况。在由中国通信标准化协会和中国信息通信研究院联合主办的“2023大数据产业发展大会”上,发布了“2023大数据十大关键词”,分别是湖仓一体、数据资产化、DataOps、数据服务、增强分析、数据伦理、数据基础制度、公共数据授权运营、数据安全风险评估、数据出境。

2023-11-09 15:55:48 139

原创 2023大数据十大关键词--DataOps

就是一个应届毕业生从数据的获取到数据的加工治理再到后面的数据分析,最终产出一份简单的分析报告,一个星期之内可以完完全全的做下来,这就能达到“低门槛”的效果。通过经营分析、运营分析、生产分析、流程分析、领导驾驶舱,实现决策、经营、运营、生产管理、流程优化等多层面、多角度的及时数据分析,为。的落地一样,实施成功的数据项目也需要做大量的工作,例如深入了解数据和业务的关系、树立良好的数据使用规范和培养数据驱动的公司文化。流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。

2023-11-09 14:45:39 153

原创 什么是“去ETL”?

性能差,上亿级的数据,如果在处理过程中,涉及到多个数据级关联处理,或者说某个数据集的数据需要在一个较大数据集里进行验证,那性能将非常非常差,几乎不可用。可以方便地对数据进行筛选、过滤、组合和变形等操作,从而实现各种复杂的数据转换。是一种成熟且稳定的语言,经过多年的发展和优化,已经成为了数据处理领域的重要工具。来处理数据,不需要编译,直接运行,而且你还可以不需要外部工具,直接在数据库。运维复杂,出了问题先查调度工具,从调度工具显示的位置,再去查。数据集成低门槛,不管是数据库,还是接口数据源,均可使用相同的。

2023-08-29 21:18:17 69

原创 8 月数据库排行:clickhouse排名稳步上涨

DB-EnginesRanking 会根据受欢迎程度对全球范围内的419款数据库管理系统进行排名,每月更新一次。排名越靠前,则表示越流行。

2023-08-27 11:14:02 193

原创 关注 2023大数据十大关键词

在由中国通信标准化协会和中国信息通信研究院联合主办的“2023大数据产业发展大会”上,发布了“2023大数据十大关键词”,分别是湖仓一体、数据资产化、DataOps、数据服务、增强分析、数据伦理、数据基础制度、公共数据授权运营、数据安全风险评估、数据出境。是数据开发的新范式,将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。服务体系建设成为数据中台发展规划的重点。

2023-08-25 21:31:26 268 1

原创 2023大数据十大关键词--湖仓一体

在由中国通信标准化协会和中国信息通信研究院联合主办的“2023大数据产业发展大会”上,发布了“2023大数据十大关键词”,分别是湖仓一体、数据资产化、DataOps、数据服务、增强分析、数据伦理、数据基础制度、公共数据授权运营、数据安全风险评估、数据出境。然而,在企业数据湖的实践中,最主要的挑战不是构建数据湖,而是如何从数据湖的数据中获益。湖仓一体概念的提出,将用户熟悉的数仓方案与数据湖进行融合,在保留数据灵活性的同时,也纳入了更强的数据的管理能力、安全管控能力,让数据湖和数据仓库的边界变得模糊。

2023-08-24 22:42:34 155 1

原创 如何实现繁体字和简体字的相互转换

繁体字,又称传统汉字,是相对于简化字而言的。繁体字是我们文化遗产的重要组成部分,承载着丰富的历史文化信息。简体字,又称简化汉字,是在传统汉字基础上进行简化的结果。简体字的推广和应用,大大提高了书写的效率和便利性。在各种数据分析的场景中,我们难免会遇到需要简体字和繁体字转换的需求。编写代码或者调用而外的包,下面给大家介绍如何在数据库中快速完成简体字和繁体字之间的转换。是一个开源项目,拥有一个活跃的社区,不断有新的功能和优化被贡献出来。查询功能,使得用户可以方便地进行数据的查询和管理。

2023-08-17 23:52:24 665 1

原创 ClickHouse 中文拼音转换应用

的中文拼音转换功能为数据处理和分析提供了极大的便利。通过将中文字符转换为拼音,可以在很多场景下简化数据处理流程,提高数据处理效率。数据可视化:在制作包含中文的图表时,可以将中文字符转换为拼音,方便在不同语言环境下展示。自然语言处理:将文本转换为拼音后,可以进一步进行语音合成、语音识别等操作。是一款高性能的分布式列式数据库,提供了丰富的数据处理功能。文本分析:通过将文本转换为拼音,可以更方便地分析文本的音韵特征。输入法:输入法可以根据用户输入的拼音,快速匹配出对应的汉字。的中文拼音转换功能。

2023-08-16 22:25:44 171 2

原创 ClickHouse预计算

预计算以一种优化执行查询的格式存储数据,这个特性对于以下几点非常有用:1、在不是主键的列上运行查询2、预聚合列,它将减少计算和IO你可以为一个表定义一个或多个预聚合,在查询分析期间,ClickHouse将选择需要扫描的数据最少的预计算,而无需修改用户提供的查询。(注:磁盘使用情况:预计算将在内部创建一个新的隐表,这说明将需要更多的IO和磁盘空间。例如,如果预计算定义了不同的主键,那么将复制原始表中的所有数据。

2023-08-14 11:49:03 147

原创 clickhouse HTTP处理之数据推送

随着互联网技术的不断发展,HTTP请求的处理成为了许多应用程序的关键问题。ClickHouse,作为一款高性能的列式数据库,专为实时分析、大规模数据处理和快速查询而设计。一款集数据治理、元数据管理、数据标准、数据质量、任务调度、数据资产管理等功能在内的数据治理工具。推送给钉钉机器人,方便运维人员监控数据治理任务的状态,更及时的为上层数据服务提供保障。接口,支持多种数据导入和查询方式,使得用户可以灵活地进行数据处理和分析。接口,提高并发查询和处理能力,以更好地满足不断增长的数据处理需求。接口发挥了重要作用。

2023-08-12 13:50:40 231 1

原创 clickhouse如何实现国密加解密

国密算法,作为国家密码局发布的密码算法标准,为保障数据安全提供了重要支撑。国密算法作为国家密码局发布的密码算法标准,具有高安全性、高性能等优点。主要用于数字签名及验证、消息认证码生成及验证、随机数生成等,其算法公开。这些算法均具有高安全性、高性能等优点,已广泛应用于金融、政府、军事等领域。是中华人民共和国政府采用的一种密码散列函数标准,由国家密码管理局于。国密算法,即国家密码局发布的密码算法标准,包括。分组密码算法是我国自主设计的分组对称密码算法,,确保国家,企业的数据资产安全。功能,可以实现国密算法。

2023-08-12 13:45:12 345 1

原创 基于CLICKHOUSE的数据仓库分层规范

接入层。

2023-08-05 21:56:17 433 1

原创 ClickHouse存算分离之存储策略

上一篇文章中我们用S3表引擎简单快速的实现了存算分离。本文在S3表引擎的基础上聊聊实现存算分离的存储策略。

2023-08-03 17:43:49 232

原创 clickhouse存算分离之S3表引擎

ClickHouse最初是为世界第二大Web分析平台而开发的。多年来一直作为该系统的核心组件被该系统持续使用着。目前为止,该系统在ClickHouse中有超过13万亿条记录,并且每天超过200多亿个事件被处理。它允许直接从原始数据中动态查询并生成报告。ClickHouse的特征ClickHouse针对数据量和查询场景提供了不同的数据库和数据表引擎,此外它也可以使用多种多样的专用引擎或表函数(例如HDFSKafkaS3等)与许多外部系统进行通讯。针对S3目前。

2023-08-02 21:06:15 219

原创 ClickHouse生态圈

ProxySQL 是基于 MySQL 的一款开源的中间件的产品,是一个灵活的 MySQL 代理层,可以实现读写分离,支持 Query 路由功能,支持动态指定某个 SQL 进行缓存,支持动态加载(无需重启 ProxySQL 服务),故障切换和一些 SQL 的过滤功能。DBH是万山数据研发的一款数据集成工具,能够实现多源异构数据之间灵活、快速、无侵入式的数据集成与转化,数据源通过DBH可以一键映射到clickhouse中,转化成对应的数据表和统一的操作视图,通过统一的SQL界面供分析工具或者应用系统使用。

2023-07-31 21:47:56 468 1

原创 网页内容提取难?ClickHouse一招快速搞定

第三步,通过第二个时临时表与原表的关联,合并提取出来正确的中标人信息,写入目标表。JAVA程序设计逻辑:连接数据库批量取出数据,然后逐条用正则表达式提取中标人信息并用提取出来的中标人信息查询法人库进行正确性测试,对测试通过的数据写入目标数据表。此方案运行时间为9.8秒,共提取出18121个中标人,共计算了236243条数据,满足该格式的正文提取完全,平均每秒处理数据超过2万条。(1)用于测试的数据表,有两个字段,一个ID,一个CONTENT字段,CONTENT字段为从互联网抓取的公共资源中标成交公告内容。

2023-07-30 21:12:17 125 1

原创 ClickHouse自然语言处理技术之文本相似度计算

文本相似度的计算场景比较复杂,有时不能直接使用SQL的JOIN关键字进行关联。但需要关联的表中均有一列文本,可通过其文本相似度进行关联。比如从互联网上抓取的公共资源交易的招标公告和中标公告,如果要把同一个项目的招标公告和中标公告关联起来,就需要用到两个公告的公告标题进行文本关联。测试环境为笔记本电脑,CPU为Intel is-8265U,内存为8G,硬盘为256G的固态硬盘;(1)源表结构如下,其中str、str1分别为两个文本字段,需要在目标表中增加一个str、str1文本相似度标签;

2023-07-29 22:50:53 306

原创 7 月数据库排行:clickhouse排名再度上涨

Snowflake也早已冲上总榜TOP 11,关系型数据库榜单TOP 8,是当下最火的云原生数仓。在开源数据库里面Clickhouse是一个能与Snowflake媲美的选手,也是实现云原生数仓的优秀技术。目前,万山数据已将clickhouse推广应用到国家部委、省级平台、地市级平台,以及互联网、快销、家居制造、旅游、医疗、军工、钢铁等多个行业。WSDCK是万山数据在clickhouse多年应用基础上推出的更简单、更稳定、更便捷的企业版。,国内的阿里巴巴、腾讯、字节、携程等许多头部大厂都在深度使用。

2023-07-29 00:16:07 122

原创 ClickHouse如何实现实时日志分析

基于上述分析,我们认为基于Clickhouse实现日志实时分析,并构建敏捷数据分析平台,是一种行之有效的方案。其原因有以下几点:首先,高效是clickhouse的一大优势之一。下图是官方测试数据,可看出其查询性能远远高于其他平台。(详细信息可查询clickhouse官方网站https://clickhouse.yandex/benchmark.html)其次,clickhouse具有易用的特点。ClickHouse支持基于SQL的声明式查询语言,该语言大部分情况下是与SQL标准兼容的。

2023-07-27 20:00:24 670 1

原创 基于clickhouse的湖仓一体

数据仓库:英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据湖:是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。

2023-07-26 18:14:13 374 1

原创 ClickHouse如何替代SAP数仓

可以通过OGG+KAFKA+CLICKHOUSE物化视图的方式实现,OGG将sybase的数据库日志文件传输到kafka,clickhouse中建立对应的kafka引擎表和物化视图,将sybase中的数据变化实时同步到clickhouse中。将SAP的数据拉到clickhouse,使得更多的数据使用场景变得简单,比如可以通过帆软、superset等报表工具实现自主分析;万山数据基于clickhouse打造的数据中台,实现了数据可见、数据可管、数据好用,同时中台具有高易用性、功能完善、高扩展性和高稳定性。

2023-07-25 17:40:35 133

原创 Clickhouse开源版和WSDCK版本有什么区别

1 Clickhouse介绍1.1 Clickhouse简介ClickHouse最初是为Yandex.Metrica世界第二大Web分析平台而开发的。多年来一直作为该系统的核心组件被该系统持续使用着。目前为止,该系统在ClickHouse中有超过13万亿条记录,并且每天超过200多亿个事件被处理。它允许直接从原始数据中动态查询并生成报告。在Yandex.Metrica中,ClickHouse被用于多个场景中。 它的主要任务是使用原始数据在线地提供各种数据报告。它使用374台服务器的集群,存储了

2023-07-24 19:06:01 157

原创 日志流式转换为关系型数据库表

本文借助Filebeat、Kafka、CLickHouse将日志流式转换为关系型数据库表。

2023-05-25 14:47:00 139

原创 CLICKHOUSE中JSON解析

Clickhouse一般使用字符串行式保存JSON数据,clickhouse提供了JSON函数,方便我们提取JSON数据。CLICKHOUSE中,没有提供Decimal类型的JSON提取函数,当要提取的字段类型为Decimal时,可以这样写。此时可以看到已经将DATA从CONTENT中提取出来,同理可以将data从DATA中提取出来。如要提取CONTENT字符串中保存的JSON数据,DATA的所有字段。–1.抽取JSON中返回值为String类型的值。–2.抽取JSON中返回值为Float类型的值。

2023-04-13 14:52:32 3856 4

数据治理研究报告(2023)

数据治理研究报告(2023)

2023-06-20

迁移到ClickHouse

迁移到ClickHouse

2023-06-20

湖仓一体化调研报告(2023)

湖仓一体化调研报告(2023)

2023-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除