自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(101)
  • 资源 (1)
  • 收藏
  • 关注

原创 docker官方源无法使用的解决办法

docker官方源无法使用,更换国内的Docker源。https://download.docker.com/linux/centos/7/x86_64/stable/repodata/repomd.xml: [Errno 14] curl#7 - "Failed to connect to 2a03:2880:f10d:83:face:b00c:0:25de: Network is unreachable"Trying other mirror.

2024-06-19 09:00:00 3028

原创 数据仓库之维度建模

维度建模是数据仓库设计中的一种方法,旨在优化数据查询和分析过程。它通过将数据划分为事实表和维度表,使复杂的数据查询变得更加高效和直观。

2024-06-10 20:07:57 868

原创 大数据平台技术选型

大数据平台的技术选型是一个复杂的过程,需要考虑多种因素,如数据量、数据类型、处理速度、成本预算、团队技术能力以及未来扩展性等。

2024-06-06 09:00:00 874

原创 大数据平台之HCatalog

Apache HCatalog 是一个用于 Apache Hive 的表和数据管理工具,它为 Hadoop 生态系统中的其他组件(如 Apache Pig、Apache Spark 和 Apache Flink)提供了一种统一的元数据管理方式。以下是 HCatalog 的主要特性和组成部分:

2024-07-18 09:16:27 166

原创 大数据平台之Kafka

Apache Kafka 是一个分布式流处理平台,最初由 LinkedIn 开发,并在 2011 年开源成为 Apache 项目。Kafka 主要用于构建实时数据管道和流应用,具有高吞吐量、低延迟、容错性强等特点。以下是对 Kafka 的详细介绍:

2024-07-18 07:45:00 805

原创 docker容器之Harbor

Harbor 是一个开源的企业级 Docker 镜像仓库,用于存储、签名和扫描 Docker 镜像。它由 VMware 开发,旨在增强用户在容器化环境中的安全性和效率。以下是对 Harbor 的详细介绍:

2024-07-17 08:45:00 603

原创 大数据平台之YARN

Hadoop YARN(Yet Another Resource Negotiator)是Hadoop 2.x引入的一个通用资源管理和作业调度框架,它将资源管理和作业调度/监控分离开来,从而提升了集群的资源利用率和可扩展性。YARN是Hadoop生态系统的核心组件之一,支持不同类型的分布式计算框架和应用程序。以下是对YARN的详细介绍:

2024-07-17 08:15:00 481

原创 监控系统之Grafana

Grafana 是一个开源的分析和监控平台,用于可视化和查询数据。它支持多种数据源,可以帮助用户创建动态仪表盘、图表和警报。Grafana 具有高度的可定制性,广泛应用于 DevOps、应用监控和物联网等领域。以下是对 Grafana 的详细介绍:

2024-07-16 08:45:00 833

原创 大数据平台之Impala

Apache Impala 是一个用于大数据处理和分析的开源分布式查询引擎,专为 Hadoop 生态系统设计。它允许用户使用 SQL 查询在 Hadoop 分布式文件系统 (HDFS) 和 Apache HBase 等存储系统中的大数据,提供了快速、交互式的查询能力。

2024-07-16 08:15:00 725

原创 Spring Cloud微服务开发框架

Spring Cloud是基于Spring Boot的微服务开发框架,为构建分布式系统和微服务架构提供了一系列的工具和解决方案。它包含了很多组件,每个组件都有特定的功能,可以解决微服务架构中常见的问题。下面是对Spring Cloud的一些主要组件和功能的详细介绍:

2024-07-15 09:00:00 728

原创 大数据平台之MapReduce

MapReduce是一个编程模型和处理框架,用于处理和生成大规模数据集。它由Google提出,并在Hadoop中得到了广泛的实现和应用。MapReduce通过将任务分割成独立的小块并在多个计算节点上并行处理,提供了一种高效处理大数据的方法。

2024-07-15 08:30:00 995

原创 容器之Dockerfile

Dockerfile 是一个包含了一系列指令的文本文件,这些指令描述了如何创建一个 Docker 容器镜像。每条指令都会在镜像中创建一层,使得镜像具有可追溯性和版本管理的能力。下面是对 Dockerfile 的详细介绍:

2024-07-12 08:45:00 781

原创 大数据平台之HiveServer2

HiveServer2 是 Apache Hive 的一个重要组件,用于为客户端提供统一的接口来访问 Hive 数据仓库。它提供了一个 JDBC、ODBC 和 Thrift 接口,支持多种客户端连接方式,并增加了多用户隔离和增强的安全性。

2024-07-12 08:15:00 1060

原创 Spring Boot开发框架

Spring Boot是一个基于Spring框架的开源项目,旨在简化Spring应用的创建、配置和部署。它通过提供默认配置和一系列开箱即用的功能,帮助开发者快速构建生产级的Spring应用。以下是对Spring Boot的详细介绍:

2024-07-11 09:00:00 1239

原创 大数据平台之HDFS

HDFS(Hadoop Distributed File System)是Hadoop生态系统的核心组件之一,专为大数据存储而设计。它提供了高吞吐量的访问方式,用于处理海量数据。以下是对HDFS的详细介绍:

2024-07-11 08:30:00 1014

原创 AIGC概念介绍

AIGC(Artificial Intelligence Generated Content)即人工智能生成内容,是指利用人工智能技术自动生成各种形式的内容,如文本、图像、音频和视频等,是人工智能1.0时代进入2.0时代的重要标志。ChatGPT是AIGC的一种实现,这些内容可以用于多种应用,包括新闻写作、社交媒体内容生成、广告制作、创意设计等。以下是对AIGC的详细介绍:

2024-07-10 16:27:43 420

原创 ZooKeeper常用命令

ZooKeeper 是一个开源的分布式协调服务,最初由 Yahoo 开发,现由 Apache Software Foundation 维护。它主要用于分布式应用程序中的协调服务,如配置管理、命名服务、分布式同步和集群管理等。ZooKeeper 通过提供可靠的数据存储、简单的 API 以及高性能的分布式锁和同步机制,解决了分布式系统中的许多复杂问题。使用 ZooKeeper 的过程中,命令行工具是非常重要的管理工具。以下是一些常用的 ZooKeeper 命令:

2024-07-10 09:00:00 288

原创 大数据平台之Hive Metastore

Hive Metastore 是 Apache Hive 的核心组件之一,用于存储关于 Hive 数据仓库中表和分区的所有元数据。元数据包括表的模式、位置、分区信息、列的数据类型等。Metastore 为 Hive 提供了表管理和查询优化所需的信息。

2024-07-10 08:30:00 595

原创 容器之docker compose

Docker Compose 是一个用于定义和运行多容器 Docker 应用的工具。通过一个 YAML 文件,您可以配置应用程序需要的所有服务,并使用单个命令来创建和启动这些服务。以下是对 Docker Compose 的详细介绍:

2024-07-09 09:18:22 662 1

原创 数据仓库之命名规范

数据仓库命名规范旨在确保数据仓库中的各种对象(如数据库、表、列、索引、视图等)具有一致、清晰且有意义的名称。这些规范有助于提高数据的可读性、可维护性和可理解性。以下是一些常见的数据仓库命名规范,涵盖了数据库对象的各个方面。

2024-07-09 08:30:00 371

原创 Markdown介绍

Markdown是一种轻量级标记语言,旨在使用纯文本格式进行内容编写,并最终转化为格式化的文档。由约翰·格鲁伯(John Gruber)和亚伦·斯沃茨(Aaron Swartz)在2004年创建,Markdown非常适合撰写文档、笔记、博客文章等,因为它简单易读且便于转换为HTML。

2024-07-08 20:52:38 275

原创 大数据之ZooKeeper

ZooKeeper 是一个开源的分布式协调服务,最初由 Yahoo 开发,现由 Apache Software Foundation 维护。它主要用于分布式应用程序中的协调服务,如配置管理、命名服务、分布式同步和集群管理等。ZooKeeper 通过提供可靠的数据存储、简单的 API 以及高性能的分布式锁和同步机制,解决了分布式系统中的许多复杂问题。

2024-07-08 09:00:00 320

原创 大数据平台权限之ACL

在 Hadoop 3 中,访问控制列表 (ACL) 是一种权限管理机制,用于更细粒度地控制用户对 HDFS(Hadoop Distributed File System)文件和目录的访问权限。ACL 允许你为文件和目录指定传统 Unix 权限模型之外的用户和组权限。

2024-07-08 08:30:00 552

原创 RPC框架之Dubbo

Dubbo 是一款高性能、轻量级的开源 Java RPC(Remote Procedure Call)框架,由阿里巴巴集团于2011年发布。Dubbo 主要用于实现基于微服务架构的分布式应用,通过提供服务注册与发现、负载均衡、容错等功能,极大地简化了服务之间的调用和管理。

2024-07-05 09:00:00 314

原创 大数据平台之数据同步

Change Data Capture (CDC) 是一种用于跟踪和捕获数据库中数据变更的技术,它可以在数据发生变化时实时地将这些变更捕获并传递到下游系统。以下是一些常用的开源 CDC 方案:

2024-07-05 08:30:00 833

原创 k8s (Kubernetes) 之helm

Helm 是 Kubernetes 的包管理工具,用于简化和自动化应用程序在 Kubernetes 上的部署、管理和配置。Helm 通过 Chart(类似于 Linux 中的包管理)来打包 Kubernetes 应用程序,使得应用程序的管理变得更加便捷和高效。

2024-07-04 09:00:00 1050

原创 大数据平台之数据安全

大数据平台的数据安全是一个复杂而关键的领域,涉及多方面的安全策略和技术,以确保数据在整个生命周期中的机密性、完整性和可用性。

2024-07-04 08:30:00 948

原创 容器之k8s(Kubernetes)

Kubernetes(常简称为 K8s)是一个开源的容器编排平台,最初由谷歌设计,现在由云原生计算基金会(CNCF)维护和发展。它旨在自动化容器化应用程序的部署、扩展和管理。

2024-07-03 09:00:00 1079

原创 大数据之数据中台

数据中台是一个综合性的数据管理和分析平台,旨在整合企业内部和外部的各种数据源,提供数据存储、处理、分析和服务等一站式解决方案。它能够帮助企业实现数据的标准化、共享和治理,从而支持业务的快速响应和决策。

2024-07-03 08:30:00 779

原创 容器之docker

Docker 是一个开源的平台,旨在使应用程序的开发、部署和运行更加轻松。它利用容器技术,将应用程序及其依赖环境打包在一起,以便于在任何环境中一致运行。

2024-07-02 09:00:00 1541

原创 大数据平台之CDH

Cloudera's Distribution Including Apache Hadoop (CDH) 是 Cloudera 提供的企业级 Hadoop 发行版,包含了 Hadoop 及其生态系统中的各种组件,并进行了优化和增强,适合在生产环境中使用。

2024-07-02 08:30:00 1192

原创 docker服务开机自启动设置

以上步骤适用于大多数基于systemd的Linux发行版,如Ubuntu 16.04及以后版本、Debian 8及以后版本、CentOS 7及以后版本等。命令来设置Docker服务开机自启。确保你已经安装了Docker并且服务正在运行。在Linux系统中,可以使用。

2024-07-01 09:00:00 307

原创 大数据平台之Cloudera Manager

Cloudera Manager 是一个企业级平台,用于管理、监控和优化 Apache Hadoop 集群。它提供了一个集中的控制台,使管理员能够有效地管理大规模的 Hadoop 环境,简化了集群部署、配置、监控和维护的工作。

2024-07-01 08:30:00 777

原创 Hive on Spark vs. Spark on Hive

Hive on Spark 和 Spark on Hive 是两个不同的大数据处理架构,它们各自有不同的实现方式和应用场景。

2024-06-28 09:00:00 398

原创 k8s查看pod镜像

在Kubernetes中,要查看Pod中使用的镜像,你可以使用。这个命令会输出集群中所有命名空间(替换为相应的Pod名称和命名空间。标志)中所有Pods的容器镜像。替换为你想要查看的命名空间。

2024-06-28 08:30:00 236

原创 数据仓库之主数据管理

主数据管理(Master Data Management, MDM)是数据管理的一部分,旨在确保企业的关键业务数据(即主数据)的准确性、一致性和完整性。主数据是指在多个系统、应用和流程中共享的核心数据,例如客户、产品、供应商和员工等信息。通过有效的主数据管理,企业可以提高数据质量,简化数据集成,增强数据治理,从而支持业务运营和决策。

2024-06-27 09:00:00 1294

原创 数据仓库之数据集市

数据集市(Data Mart)是数据仓库体系中的一个重要组成部分,通常用于特定业务部门或应用的数据子集。数据集市提供了更加聚焦和高效的数据访问,帮助特定业务领域快速获取所需信息。

2024-06-27 08:30:00 556

原创 数据仓库架构设计

数据仓库架构设计是为了有效地收集、存储、处理和分析大规模数据,从而支持商业智能和数据分析活动。一个良好的数据仓库架构需要考虑数据源的多样性、数据存储的结构化、数据处理的高效性和数据分析的灵活性。

2024-06-26 09:00:00 797

原创 容器之Docker Desktop

Docker Desktop 是一个专为开发人员设计的应用程序,它为使用 Docker 和 Kubernetes 开发应用程序提供了一个简单易用的环境。Docker Desktop 主要针对 Windows 和 macOS 系统用户,帮助他们在本地机器上快速搭建和管理容器环境。

2024-06-26 08:30:00 1762

原创 大数据平台之Ambari

Apache Ambari 是一个用于配置、管理和监控 Hadoop 集群的开源工具。Ambari 提供了一个直观的用户界面和一组全面的 API,使得管理大数据集群变得更加容易和高效。

2024-06-25 09:00:00 943

深入分析Linux内核源码.pdf

网页版:http://oss.org.cn/kernel-book/index.htm

2010-08-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除