数据湖
文章平均质量分 82
数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。
资料来源:总结、整理、网络转载
YoungerChina
目前从事存储与计算相关的架构设计和研发管理工作
展开
-
跨域数据分布式传输关键技术研究
为有效降低企业运营成本、促进绿色发展,“东数西算”工程已全面启动。在此背景下,构建大带宽、低时延、智能化、安全高效的传输网络,成为实现大数据场景下计算、存储向西部高效转移的关键技术。本文分析了跨域数据分布式传输的研究现状及技术演进,深入浅出地介绍了传输优化、传输保障、安全加密三大关键技术,并对跨域数据分布式传输的未来进行展望,旨在深入探讨如何增强跨域数据交换能力,以提供稳定高性能的文件传输保障。转载 2024-07-24 09:43:05 · 289 阅读 · 0 评论 -
阿里云数据湖存储加速套件JindoData
阿里云作为一家全球领先的云计算及人工智能科技公司,其产品EMR提供了相对方便可控的企业级大数据服务,作为EMR的核心,在底层存储也有突出的设计和优化,本文主要调研和阿里云EMR的存储核心产品能力。阿里云EMR在存储领域的核心组件涉及SmartData、JindoData、JindoFS、jindoFSx、OSS-HDFS、JindoCache等概念。本文不讨论阿里云盘古等底层存储系统的设计。原创 2024-03-11 16:11:31 · 2069 阅读 · 0 评论 -
业界主流数据加速技术路线
计算存储分离已经成为云计算的一种发展趋势。在计算存储分离之前,普遍采用的是传统的计算存储相互融合的架构,但是这种架构存在一定的问题,比如在集群扩容的时候会面临计算能力和存储能力相互不匹配的问题。用户在某些情况下只需要扩容计算能力或者存储能力,而传统的融合架构不能满足用户的这种需求,进行单独的扩充计算或者存储能力;其次在缩容的时候可能会遇到人工干预,人工干预完后需要保证数据在多个节点中同步,而当有多个副本需要同步时候,可能会造成的数据丢失。而计算存储分离架构则可以很好的解决这些问题,使得用户只需要关心整个集群原创 2024-03-11 18:00:00 · 1153 阅读 · 0 评论 -
数据中台开源技术栈:一图看懂全面的数据管理与应用架构
随着数字化时代的到来,数据管理和应用架构变得越来越重要。数据平台作为一个集中管理和利用数据的架构,为组织提供了促进数据驱动决策和业务创新的能力。本文通过一幅图表,将数据平台技术栈的组成部分清晰呈现,助您深入了解数据中台的全面数据管理与应用架构。原创 2024-03-08 08:59:05 · 5164 阅读 · 0 评论 -
[Flink04] Flink部署实践
Standalone模式是最简单的一种集群模式,不需要Yarn、mesos等资源调度平台,自带集群,资源管理由flink集群管理,开发环境测试使用。Standalone模式是一种主从模式,主要有两个组件构成分别是JobManager(Master)和TaskManager(Slave)。当一个应用提交执行时,Flink的各个组件是如何交互协作的:1)App程序通过rest接口提交给Dispatcher(rest接口是跨平台,并且可以直接穿过防火墙,不需考虑拦截)。原创 2024-02-18 16:58:27 · 1593 阅读 · 0 评论 -
[Flink03] Flink安装
在Flink Standalone模式下,实现HA的方式可以利用ZooKeeper在所有正在运行的JobManager实例之间进行分布式协调,实现多个JobManager无缝切换。Flink Standalone模式的HA架构如图:HA的核心就是:可以在集群中启动多个JobManager,并使它们都向ZooKeeper进行注册,ZooKeeper利用自身的选举机制保证同一时间只有一个JobManager是活动状态(Active)的,其他的都是备用状态(Standby)。原创 2024-02-18 16:28:43 · 1759 阅读 · 0 评论 -
[Flink02] Flink架构和原理
这是继第一节之后的Flink入门系列的第二篇,本篇主要内容是是:了解Flink运行模式、Flink调度原理、Flink分区、Flink安装。原创 2024-02-18 16:26:11 · 1358 阅读 · 0 评论 -
[Flink01] 了解Flink
link就是个实时处理数据任务的框架,这个框架帮助开发者执行数据处理的任务,让开发者无需关心高可用、性能等问题。原创 2024-02-18 16:24:40 · 1241 阅读 · 0 评论 -
集群clickhouse使用和clickhouse索引的使用
ClickHouse支持多种索引类型,包括普通索引、范围索引、哈希索引、倒排索引等。使用索引可以加快查询速度和提高查询效率。原创 2024-02-06 02:30:00 · 1309 阅读 · 0 评论 -
ClickHouse表常用引擎
1、重新启动服务器时,表中的数据消失,表将变为空。通常,使用此表引擎是不合理的。(值得注意的是,在许多情况下,与 MergeTree 引擎的性能几乎一样高)。1、自动跟踪传递的消息,因此组中的每条消息仅计算一次。4、分布式引擎参数:服务器配置文件中的集群名,远程数据库名,远程表名,数据分片键(可选)2、引擎支持索引,通过主键和日期来构建索引, 同时提供 数据的实时更新能力.4、以未压缩的形式将数据存储在内存中。2、读取时,远程服务器表的索引(如果有的话)会被使用。3、从这张表中读取是很轻松的。原创 2024-02-05 20:43:36 · 1018 阅读 · 0 评论 -
2023年非结构化数据管理报告
采用分析、分类和分段数据的工具和实践可以导致细致入微的数据管理策略:低优先级的数据存储在存档存储中,直到需要进行活动使用或可以删除为止,而高优先级的活动数据保留在最昂贵的顶级存储中。这些问题包括从敏感数据泄露到威胁公司知识产权和个人身份信息保护的通用语言学习模型(LLMs),再到伦理、准确性、数据源溯源的担忧,以及派生作品的版权问题,甚至是恶意行为者可能造成的威胁,这些都是企业和社会需要认真面对的问题。当前的AI浪潮迅速塑造了新的工作方式,带来了显著的生产率提升,改变了产品和服务的创造与分发方式。原创 2023-09-20 09:00:08 · 2048 阅读 · 0 评论 -
hive with tez:无法从链中的任何提供者加载aws凭据
hive with tez:无法从链中的任何提供者加载aws凭据原创 2023-09-19 11:36:52 · 2034 阅读 · 0 评论 -
基于 Alluxio 构建统一数据接入层
Alluxio 在知乎的多云架构中发挥了重要作用,为我们解决了数据安全、跨云、专线流量等一系列问题,为知乎的数据处理和模型训练提供了高效、安全、便利的解决方案。在未来,我们将继续深入挖掘 Alluxio 的潜力,探索更多的应用场景,为知乎的技术发展贡献更多的力量。原创 2023-09-13 09:09:06 · 1927 阅读 · 0 评论 -
【前沿】数据目录是什么?您为何需要它?
数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据,帮助数据专业人员收集、组织、访问和充实元数据,从而为数据发现和治理提供支持。原创 2023-09-08 09:22:46 · 1064 阅读 · 0 评论 -
数据资产管理:数据目录怎么搞?
数据治理定义了数据管理的总体策略,规定了数据管理的组织、制度和流程,明确了数据的权属,定义了数据标准,为数据资产管理指明方向。数据资产目录是数据治理策略的具体执行,以业务友好的方式展示企业的数据资产和位置,帮助用户更好地找到、理解和使用他们的数据。原创 2023-09-07 19:54:21 · 1834 阅读 · 0 评论 -
浅谈数据治理中的智能数据目录
IBM很早就认识到将机器学习应用到数据管理的重要性,在IBM的Cloud Pak for Data中,机器学习无处不在,遍布数据集成、自动化数据管理、多云数据整合、数据准备、建议和数据洞察原创 2023-09-07 19:35:50 · 1038 阅读 · 0 评论 -
数据分类分级流程
随着互联网的快速发展和大数据时代的到来,数据分类和分级成为了数据管理中的重要环节。数据分类分级的目的是为了让数据更加有序、易于管理和利用。本文将从数据分类分级的概念、流程和方法等方面进行介绍。原创 2023-09-05 10:12:43 · 1863 阅读 · 0 评论 -
主数据管理案例-中国外运
主数据管理工具是中国外运进行数据治理的重要抓手,是公司实现数字化管理、平台化协同和全程可视化服务的重要基础,为公司提供物流数据服务,打通物流链前后各环节提供基础数据支撑。主数据管理是一项长期而艰巨的基础性工作,一期项目的实施只是跨出了一小步,未来中国外运将构建业务统计指标体系、 管理指标体系、梳理资产分类、代码和关键属性值等,后续还有更长的路要走。在认真总结经验的基础上,中国外运更加坚定信心, 继续努力推进数据治理建设和应用推广工作,为公司的平台化、 数字化战略实施做出应有的努力。原创 2023-08-10 20:17:22 · 532 阅读 · 0 评论 -
主数据管理案例-某研究所
机电类科研生产一体化研究所,具有多品种、小批量、离散性、央企、军工保密等特点,在数据管理系统和研制管理体系的控制下,设计、工艺、 制造、试验、售后服务等环节都产生了大量的数据。在管理信息化、工程信息化的建设过程中,为减少信息孤岛,数据集成与共享不可逾越,不同系统间的数据正确性、一致性变的尤为重要。原创 2023-08-10 20:09:26 · 405 阅读 · 0 评论 -
2022年16种最佳主数据管理工具(MDM解决方案)
特色平台功能包括用于创建、管理和共享差异化产品数据的产品信息管理、用于存储和共享数字资产的数字资产管理,以及用于跨系统创建单一、受管控的真实数据源的 MDM。Informatica MDM 还具有 AI 和机器学习功能,包括数据质量、数据集成、业务流程管理和数据安全功能,使您可以使用来自外部提供商的数据轻松丰富主数据记录。该产品还具有图形技术和机器学习功能。Ataccama 提供增强型数据管理平台,具有数据发现和分析、元数据管理和数据目录、数据质量管理、主数据和参考数据管理以及大数据处理和集成等功能。转载 2023-08-10 19:58:49 · 2763 阅读 · 0 评论 -
主数据管理案例-某政务
近年来,我国在大数据发展方面持续发力,取得了明显成效。但也要看到,目前我国大数据发展还存在“孤岛化”“碎片化”等问题,无序参与过度与创新参与不足并存,导致大数据资源配置统筹不,部门间缺乏有效互动,开放的大数据平台缺失,大数据的应有作用尚未充分发挥出来。原创 2023-08-10 19:53:57 · 476 阅读 · 0 评论 -
主数据管理案例-北京燃气
主数据作为数据资源中最重要、基础的一部分,是北京燃气实现数据资源管理的切入点,对北京燃气而言,实现主数据的集中统一管理也是解决集团信息化建设中“信息孤岛”现象,实现系统集成和业务协同需求最迫切的内容之一。而北京燃气在开展主数据管理、建设数据资源管理系统之前,情况却不容乐观:原创 2023-08-10 19:41:47 · 417 阅读 · 0 评论 -
主数据管理
主数据(Master Data) 是指用来描述企业核心业务实体的数据,是跨越各个业务部门和系统的、高价值的基础数据。 主数据管理(Master Data Management,MDM) 是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。原创 2023-08-10 19:27:40 · 276 阅读 · 0 评论 -
非结构化数据分析是忽悠?
大数据概念兴起的同时也带热了非结构化数据分析。传说一个企业中80%的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大。有这么大的数据量,需要进行分析是很自然的事了,而要分析当然就要有相应的技术手段了。 那为什么说非结构化数据分析技术是忽悠呢?原创 2023-07-26 10:21:00 · 309 阅读 · 0 评论 -
Mysql+ETLCloud CDC+Doris实时数仓同步实战
通常情况下我们使用CDC实时监听表销售或订单表数据的LOG时会形成流式的数据,CDC每次传入的数据有可能是一条也可能是多条,监听到的流式数据都是订单表的单条数据,但在业务上单表的数据在业务价值上可能缺少一些关键的维度业务数据字段,例如要计算毛利合并客户及产品数据等。Flink CDC安装和使用难度比较大,没有可视化的CDC配置和监控界面对于不熟的用户安装相对比较麻烦,对于实时数据的加工和处理还需要写代码,没一点技术的用户根本搞不定,对于数据工程师来说难度太大。id=0600024。原创 2023-06-29 18:49:44 · 1190 阅读 · 0 评论 -
ETLCloud社区版与Kettle对比分析
ETLCloud为最新一代的数据集成平台,我们致力于打造一款集离线数据集成ETL、ELT、CDC实时数据集成、编排调度、数据服务API为一体的数据集成平台(DataOps),一站式满足企业的各种最为复杂的数据集成场景。提供私有化部署能力和云原生架构,满足企业不同发展阶段的业务需求。 提供开放的组件市场,企业通过本平台可以快速构建大数据基础底座,同时快速打通ERP、MES、OA、SaaS、API、MQ、IOT等数据构建数据仓库.原创 2023-06-29 18:42:45 · 1977 阅读 · 0 评论 -
你真的需要一个(专门的)向量数据库么
随着 LLM 的火爆,向量数据库也成为了一个热门的话题。只需要一些简单的 Python 代码,向量数据库就可以为你的 LLM 插上一个廉价但极有效的“外接大脑”。但是,我们真的需要一个(专门的)向量数据库吗?转载 2023-06-10 16:11:15 · 2311 阅读 · 0 评论 -
被 ChatGPT 点燃的向量数据库们
在 AIGC 革命大爆发的日子,一个特别的挑战是大规模存储和查询非结构化数据(比如图像、视频、文本)的能力。为了快速搜索和理解非结构化数据,现在的普遍解法是使用向量数据库(vector database)。在向量数据库中,向量是一等公民,所有的功能都是围绕着它建立的。向量数据库可以让开发者以向量嵌入的形式处理非结构化数据(两个向量之间的距离代表了它们的关联性),这对于使用和扩展大型语言模型(LLM)尤为重要。转载 2023-06-10 16:05:40 · 1656 阅读 · 0 评论 -
Impala 在网易大数据的优化和实践
网易大数据平台的底层数据查询引擎,选用了 Impala 作为 OLAP 查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享下 Impala 在网易大数据的优化和实践。原创 2023-03-01 19:54:30 · 2795 阅读 · 0 评论 -
Presto 在美图的实践
本文的主题是Presto高性能引擎在美图的实践,首先将介绍美图在处理ad-hoc场景下为何选择Presto,其次我们如何通过外部组件对Presto高可用与稳定性的增强。然后介绍在美图业务中如何做到合理与高效的利用集群资源,最后如何利用Presto应用于部分离线计算场景中。使大家了解Presto引擎的优缺点,适合的使用场景,以及在美图的实践经验。原创 2023-03-01 19:44:01 · 2611 阅读 · 0 评论 -
算力网络:十大技术发展方向
在社会算力并网场景下,将联合超算、智算等社会算力开展算力并网验证;在云边端协同场景下,打造算网融合创新技术方案,探索算网大脑雏形,深入车联网自动驾驶、超边缘生产现场、XR文娱、公共安全等特色行业场景,配合智能化技术,实现不同生产要素间的高效协同,从而提高生产效率,满足行业应用智能感知、泛在连接、实时分析、精准控制等需求。原创 2023-02-07 21:45:00 · 3776 阅读 · 0 评论 -
开源大数据热力榜单 TOP30
本报告从 102 个入围项目中,评选出了 TOP30 热力榜单。Kibana 以 989.40 的热力值高居榜首。ClickHouse(数据查询与分析)、Airflow(数据调度与编排)、Flink(流处理)、Airbyte(数据集成)分别摘得各自细分领域的 TOP1。Pulsar、Doris、StarRocks、DolphinScheduler、SeaTunnel 等一众中国开源项目也表现出高热力趋势。把解决用户痛点作为核心竞争力,是这些优秀开源项目的共同特征,这一特征保证它们与时俱进,成为热力趋势中的原创 2022-11-09 09:53:32 · 3533 阅读 · 0 评论 -
大数据开源框架技术扫盲
主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展的做个参考转载 2022-11-01 13:38:59 · 5347 阅读 · 0 评论 -
Hudi编译适配hadoop3.2.4
本文讲解hudi如何编译适配Hadoop3.x,其中hudi采用版本0.12.1,hadoop采用版本3.2.4。原创 2022-10-24 07:25:34 · 3721 阅读 · 0 评论 -
Apache Hudi 0.12.0版本发布
Apache Hudi 0.12.0版本发布转载 2022-10-16 17:06:11 · 2999 阅读 · 0 评论 -
Hive与Hadoop的版本对应关系
hive与hadoop的版本关系原创 2022-10-16 11:20:32 · 5855 阅读 · 0 评论 -
图数据库技术选型汇总
图数据库技术选型汇总原创 2022-10-05 22:11:46 · 3077 阅读 · 0 评论 -
图数据库发展
随着应用的逐步深化,图数据管理的研究也将继续发展。我们将图数据管理的发展趋势归纳为:兼顾在线查询和离线分析的大图数据管理系统、支持丰富属性的大图数据管理框架、大图数据管理中的事务。转载 2022-10-05 21:14:28 · 2861 阅读 · 0 评论 -
存储研发工程师 & 数据开发工程师
存储研发工程师和数据开发工程师原创 2022-05-27 15:22:23 · 652 阅读 · 0 评论 -
hadoop组件官方源和国内源
hadoop组件官方源和国内源原创 2022-08-23 12:45:45 · 2058 阅读 · 0 评论