自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(81)
  • 资源 (1)
  • 收藏
  • 关注

原创 RPC框架之Dubbo

Dubbo 是一款高性能、轻量级的开源 Java RPC(Remote Procedure Call)框架,由阿里巴巴集团于2011年发布。Dubbo 主要用于实现基于微服务架构的分布式应用,通过提供服务注册与发现、负载均衡、容错等功能,极大地简化了服务之间的调用和管理。

2024-07-05 09:00:00 22

原创 大数据平台之CDC (Chanage Data Capture) 方案

Change Data Capture (CDC) 是一种用于跟踪和捕获数据库中数据变更的技术,它可以在数据发生变化时实时地将这些变更捕获并传递到下游系统。以下是一些常用的开源 CDC 方案:

2024-07-05 08:30:00 354

原创 k8s (Kubernetes) 之helm

Helm 是 Kubernetes 的包管理工具,用于简化和自动化应用程序在 Kubernetes 上的部署、管理和配置。Helm 通过 Chart(类似于 Linux 中的包管理)来打包 Kubernetes 应用程序,使得应用程序的管理变得更加便捷和高效。

2024-07-04 09:00:00 743

原创 大数据平台之数据安全

大数据平台的数据安全是一个复杂而关键的领域,涉及多方面的安全策略和技术,以确保数据在整个生命周期中的机密性、完整性和可用性。

2024-07-04 08:30:00 684

原创 容器之k8s(Kubernetes)

Kubernetes(常简称为 K8s)是一个开源的容器编排平台,最初由谷歌设计,现在由云原生计算基金会(CNCF)维护和发展。它旨在自动化容器化应用程序的部署、扩展和管理。

2024-07-03 09:00:00 925

原创 大数据之数据中台

数据中台是一个综合性的数据管理和分析平台,旨在整合企业内部和外部的各种数据源,提供数据存储、处理、分析和服务等一站式解决方案。它能够帮助企业实现数据的标准化、共享和治理,从而支持业务的快速响应和决策。

2024-07-03 08:30:00 667

原创 容器之docker

Docker 是一个开源的平台,旨在使应用程序的开发、部署和运行更加轻松。它利用容器技术,将应用程序及其依赖环境打包在一起,以便于在任何环境中一致运行。

2024-07-02 09:00:00 1367

原创 大数据平台之CDH

Cloudera's Distribution Including Apache Hadoop (CDH) 是 Cloudera 提供的企业级 Hadoop 发行版,包含了 Hadoop 及其生态系统中的各种组件,并进行了优化和增强,适合在生产环境中使用。

2024-07-02 08:30:00 1180

原创 docker服务开机自启动设置

以上步骤适用于大多数基于systemd的Linux发行版,如Ubuntu 16.04及以后版本、Debian 8及以后版本、CentOS 7及以后版本等。命令来设置Docker服务开机自启。确保你已经安装了Docker并且服务正在运行。在Linux系统中,可以使用。

2024-07-01 09:00:00 232

原创 大数据平台之Cloudera Manager

Cloudera Manager 是一个企业级平台,用于管理、监控和优化 Apache Hadoop 集群。它提供了一个集中的控制台,使管理员能够有效地管理大规模的 Hadoop 环境,简化了集群部署、配置、监控和维护的工作。

2024-07-01 08:30:00 771

原创 Hive on Spark vs. Spark on Hive

Hive on Spark 和 Spark on Hive 是两个不同的大数据处理架构,它们各自有不同的实现方式和应用场景。

2024-06-28 09:00:00 378

原创 k8s查看pod镜像

在Kubernetes中,要查看Pod中使用的镜像,你可以使用。这个命令会输出集群中所有命名空间(替换为相应的Pod名称和命名空间。标志)中所有Pods的容器镜像。替换为你想要查看的命名空间。

2024-06-28 08:30:00 203

原创 数据仓库之主数据管理

主数据管理(Master Data Management, MDM)是数据管理的一部分,旨在确保企业的关键业务数据(即主数据)的准确性、一致性和完整性。主数据是指在多个系统、应用和流程中共享的核心数据,例如客户、产品、供应商和员工等信息。通过有效的主数据管理,企业可以提高数据质量,简化数据集成,增强数据治理,从而支持业务运营和决策。

2024-06-27 09:00:00 1283

原创 数据仓库之数据集市

数据集市(Data Mart)是数据仓库体系中的一个重要组成部分,通常用于特定业务部门或应用的数据子集。数据集市提供了更加聚焦和高效的数据访问,帮助特定业务领域快速获取所需信息。

2024-06-27 08:30:00 551

原创 数据仓库架构设计

数据仓库架构设计是为了有效地收集、存储、处理和分析大规模数据,从而支持商业智能和数据分析活动。一个良好的数据仓库架构需要考虑数据源的多样性、数据存储的结构化、数据处理的高效性和数据分析的灵活性。

2024-06-26 09:00:00 790

原创 容器之Docker Desktop

Docker Desktop 是一个专为开发人员设计的应用程序,它为使用 Docker 和 Kubernetes 开发应用程序提供了一个简单易用的环境。Docker Desktop 主要针对 Windows 和 macOS 系统用户,帮助他们在本地机器上快速搭建和管理容器环境。

2024-06-26 08:30:00 1731

原创 大数据平台之Ambari

Apache Ambari 是一个用于配置、管理和监控 Hadoop 集群的开源工具。Ambari 提供了一个直观的用户界面和一组全面的 API,使得管理大数据集群变得更加容易和高效。

2024-06-25 09:00:00 924

原创 数据仓库之FlinkSQL

Flink SQL 是 Apache Flink 中的一部分,用于处理实时流数据和批数据的 SQL 查询。Flink SQL 结合了 Flink 的流处理和批处理功能,使用户能够通过 SQL 查询实时和历史数据。

2024-06-25 08:30:00 727

原创 大数据之Hive3 ACID特性

Apache Hive 3引入了ACID(Atomicity, Consistency, Isolation, Durability)特性,显著增强了其在处理事务性操作和高并发数据修改时的能力。

2024-06-24 09:00:00 659

原创 大数据平台之Flink

Apache Flink是一款开源的流处理框架,用于处理实时数据流和批处理数据。它由Apache Software Foundation开发和维护,提供了丰富的功能和特性,适用于各种复杂的数据处理任务。

2024-06-24 08:30:00 777

原创 数据仓库之雪花模型

雪花模型是数据仓库设计中使用的一种规范化模式。它是星型模型的一种扩展,通过进一步规范化维度表来减少冗余和节省存储空间。

2024-06-23 16:10:03 490

原创 数据仓库之BI

商业智能(Business Intelligence, BI)是企业数据管理和分析的重要组成部分。BI通过整合和分析企业数据,为决策制定提供了有力支持,是现代企业实现数据驱动运营和竞争优势的重要工具。

2024-06-23 15:31:45 777

原创 数据仓库的挑战

为了解决这些痛点,企业可以考虑采用现代数据架构和技术,例如数据湖、云数据仓库、实时数据处理平台等。此外,加强数据治理、优化数据管理流程和培训相关人才也是解决这些问题的有效途径。数据仓库(Data Warehouse,DW)在组织和企业中起着关键作用,但也面临着一些痛点和挑战。

2024-06-21 09:00:00 683

原创 数据仓库之SparkSQL

Apache Spark SQL是Spark中的一个组件,专门用于结构化数据处理。它提供了通过SQL和DataFrame API来执行结构化数据查询的功能。

2024-06-21 08:30:00 956

原创 大数据平台之Spark

Apache Spark 是一个开源的分布式计算系统,主要用于大规模数据处理和分析。它由UC Berkeley AMPLab开发,并由Apache Software Foundation维护。Spark旨在提供比Hadoop MapReduce更快的处理速度和更丰富的功能,特别是在处理迭代算法和交互式数据分析方面。

2024-06-20 09:00:00 1124

原创 数据仓库之Hive

Apache Hive是一个基于Hadoop的数据仓库软件,它提供了数据摘要、查询和分析的大数据能力。Hive通过类似于SQL的HiveQL语言,使用户能够在不深入了解MapReduce的情况下进行大数据处理和分析。

2024-06-20 08:45:00 1448

原创 docker官方源无法使用的解决办法

docker官方源无法使用,更换国内的Docker源。https://download.docker.com/linux/centos/7/x86_64/stable/repodata/repomd.xml: [Errno 14] curl#7 - "Failed to connect to 2a03:2880:f10d:83:face:b00c:0:25de: Network is unreachable"Trying other mirror.

2024-06-19 09:00:00 1602

原创 数据仓库之Lambda架构

Lambda架构是一种设计大规模数据处理系统的架构模式,它结合了批处理和实时处理的优点,以应对大数据的多样性、速度和规模问题。该架构主要由三个层次组成:批处理层(Batch Layer)、速度层(Speed Layer)和服务层(Serving Layer)。

2024-06-19 08:30:00 768

原创 数据仓库之主题域

数据仓库的主题域(Subject Area)是按照特定业务领域或主题对数据进行分类和组织的方式。每个主题域集中反映一个特定的业务方面,使得数据分析和查询更加清晰和高效。主题域通常与企业的关键业务过程相关,能够帮助用户在数据仓库中快速找到所需的数据,进行分析和决策。

2024-06-18 09:00:00 970

原创 数据仓库之Kappa架构

Kappa架构是一种简化的数据处理架构,旨在处理实时数据流,解决传统Lambda架构中批处理和实时处理的复杂性。Kappa架构完全基于流处理,不区分批处理和实时处理,所有数据都是通过流处理系统进行处理。

2024-06-18 08:45:00 751

原创 大数据平台之运维管理工具

大数据平台的自动化运维管理工具能够大幅提升集群管理效率,减少人为错误,提高系统的稳定性和性能。这些工具通常提供集群监控、配置管理、自动化任务执行、安全管理和故障处理等功能。

2024-06-17 09:00:00 861

原创 数据仓库之数据标准

数据标准是用于确保数据的一致性、准确性和互操作性的规则和准则。它们涵盖数据的收集、存储、传输、处理和呈现等各个方面。

2024-06-17 08:45:00 500

原创 数据仓库和数据库的区别

数据仓库和数据库在设计目标、架构、数据处理方式、性能优化等方面都有显著区别。数据库侧重于高效的事务处理和数据一致性,而数据仓库则侧重于数据整合和复杂查询分析,以支持商业智能和决策支持系统。这些区别决定了它们在实际应用中的不同角色和用途。

2024-06-16 14:00:00 478

原创 离线数仓VS实时数仓

离线数据仓库和实时数据仓库在数据集成、数据建模和数据治理等方面有许多相似之处,但在数据刷新频率、技术架构、性能要求、数据一致性、复杂度和成本等方面存在显著差异。企业需要根据具体的业务需求、技术能力和预算,选择适合的数仓类型或结合使用以满足不同的需求。

2024-06-16 10:30:00 377

原创 数据仓库之离线数仓

离线数据仓库(Offline Data Warehouse)是一种以批处理方式为主的数据仓库系统,旨在收集、存储和分析大量历史数据。离线数据仓库通常用于定期(如每日、每周、每月)更新数据,以支持各种业务分析、报表生成和数据挖掘任务。

2024-06-15 14:00:00 951

原创 数据仓库之实时数仓

实时数据仓库(Real-time Data Warehouse, RTDW)是一种能够实时处理和分析数据的系统,旨在满足对低延迟数据处理和分析的需求。与传统的批处理数据仓库不同,实时数据仓库能够持续地接收、处理和存储数据,使用户能够快速获得最新的信息和洞察力。

2024-06-15 10:30:00 759

原创 数据仓库之数据资产目录

数据资产目录是数据仓库管理中的重要工具,能够显著提升数据的可发现性、管理性和安全性。通过系统化地记录和管理数据资产,组织可以更好地利用其数据资源,支持业务决策和创新。

2024-06-14 09:00:00 688

原创 大数据平台之hadoop

开发者:Apache软件基金会发布年份:2006年主要功能:分布式存储和分布式计算主要特点可扩展性:支持横向扩展,可以通过添加更多的节点来处理更多的数据。容错性:通过数据冗余和任务重新执行来实现高可靠性。高吞吐量:适合处理大规模数据集的批处理任务。

2024-06-14 08:45:00 684

原创 数据仓库之元数据

元数据在数据仓库中的作用至关重要。元数据是关于数据的数据,它描述了数据的内容、结构、位置和业务含义。元数据管理是数据仓库成功实施和运行的核心部分。

2024-06-13 09:00:00 992

原创 大数据平台之权限管理

大数据平台的权限管理是一个多层次、多方面的过程,涉及身份验证、授权和审计等环节。通过使用合适的工具和技术,遵循最佳实践,可以有效地保护数据安全,确保合规性并支持业务需求。

2024-06-13 08:45:00 1658

深入分析Linux内核源码.pdf

网页版:http://oss.org.cn/kernel-book/index.htm

2010-08-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除