- 博客(101)
- 资源 (1)
- 收藏
- 关注
原创 docker官方源无法使用的解决办法
docker官方源无法使用,更换国内的Docker源。https://download.docker.com/linux/centos/7/x86_64/stable/repodata/repomd.xml: [Errno 14] curl#7 - "Failed to connect to 2a03:2880:f10d:83:face:b00c:0:25de: Network is unreachable"Trying other mirror.
2024-06-19 09:00:00 3028
原创 数据仓库之维度建模
维度建模是数据仓库设计中的一种方法,旨在优化数据查询和分析过程。它通过将数据划分为事实表和维度表,使复杂的数据查询变得更加高效和直观。
2024-06-10 20:07:57 868
原创 大数据平台技术选型
大数据平台的技术选型是一个复杂的过程,需要考虑多种因素,如数据量、数据类型、处理速度、成本预算、团队技术能力以及未来扩展性等。
2024-06-06 09:00:00 874
原创 大数据平台之HCatalog
Apache HCatalog 是一个用于 Apache Hive 的表和数据管理工具,它为 Hadoop 生态系统中的其他组件(如 Apache Pig、Apache Spark 和 Apache Flink)提供了一种统一的元数据管理方式。以下是 HCatalog 的主要特性和组成部分:
2024-07-18 09:16:27 166
原创 大数据平台之Kafka
Apache Kafka 是一个分布式流处理平台,最初由 LinkedIn 开发,并在 2011 年开源成为 Apache 项目。Kafka 主要用于构建实时数据管道和流应用,具有高吞吐量、低延迟、容错性强等特点。以下是对 Kafka 的详细介绍:
2024-07-18 07:45:00 805
原创 docker容器之Harbor
Harbor 是一个开源的企业级 Docker 镜像仓库,用于存储、签名和扫描 Docker 镜像。它由 VMware 开发,旨在增强用户在容器化环境中的安全性和效率。以下是对 Harbor 的详细介绍:
2024-07-17 08:45:00 603
原创 大数据平台之YARN
Hadoop YARN(Yet Another Resource Negotiator)是Hadoop 2.x引入的一个通用资源管理和作业调度框架,它将资源管理和作业调度/监控分离开来,从而提升了集群的资源利用率和可扩展性。YARN是Hadoop生态系统的核心组件之一,支持不同类型的分布式计算框架和应用程序。以下是对YARN的详细介绍:
2024-07-17 08:15:00 481
原创 监控系统之Grafana
Grafana 是一个开源的分析和监控平台,用于可视化和查询数据。它支持多种数据源,可以帮助用户创建动态仪表盘、图表和警报。Grafana 具有高度的可定制性,广泛应用于 DevOps、应用监控和物联网等领域。以下是对 Grafana 的详细介绍:
2024-07-16 08:45:00 833
原创 大数据平台之Impala
Apache Impala 是一个用于大数据处理和分析的开源分布式查询引擎,专为 Hadoop 生态系统设计。它允许用户使用 SQL 查询在 Hadoop 分布式文件系统 (HDFS) 和 Apache HBase 等存储系统中的大数据,提供了快速、交互式的查询能力。
2024-07-16 08:15:00 725
原创 Spring Cloud微服务开发框架
Spring Cloud是基于Spring Boot的微服务开发框架,为构建分布式系统和微服务架构提供了一系列的工具和解决方案。它包含了很多组件,每个组件都有特定的功能,可以解决微服务架构中常见的问题。下面是对Spring Cloud的一些主要组件和功能的详细介绍:
2024-07-15 09:00:00 728
原创 大数据平台之MapReduce
MapReduce是一个编程模型和处理框架,用于处理和生成大规模数据集。它由Google提出,并在Hadoop中得到了广泛的实现和应用。MapReduce通过将任务分割成独立的小块并在多个计算节点上并行处理,提供了一种高效处理大数据的方法。
2024-07-15 08:30:00 995
原创 容器之Dockerfile
Dockerfile 是一个包含了一系列指令的文本文件,这些指令描述了如何创建一个 Docker 容器镜像。每条指令都会在镜像中创建一层,使得镜像具有可追溯性和版本管理的能力。下面是对 Dockerfile 的详细介绍:
2024-07-12 08:45:00 781
原创 大数据平台之HiveServer2
HiveServer2 是 Apache Hive 的一个重要组件,用于为客户端提供统一的接口来访问 Hive 数据仓库。它提供了一个 JDBC、ODBC 和 Thrift 接口,支持多种客户端连接方式,并增加了多用户隔离和增强的安全性。
2024-07-12 08:15:00 1060
原创 Spring Boot开发框架
Spring Boot是一个基于Spring框架的开源项目,旨在简化Spring应用的创建、配置和部署。它通过提供默认配置和一系列开箱即用的功能,帮助开发者快速构建生产级的Spring应用。以下是对Spring Boot的详细介绍:
2024-07-11 09:00:00 1239
原创 大数据平台之HDFS
HDFS(Hadoop Distributed File System)是Hadoop生态系统的核心组件之一,专为大数据存储而设计。它提供了高吞吐量的访问方式,用于处理海量数据。以下是对HDFS的详细介绍:
2024-07-11 08:30:00 1014
原创 AIGC概念介绍
AIGC(Artificial Intelligence Generated Content)即人工智能生成内容,是指利用人工智能技术自动生成各种形式的内容,如文本、图像、音频和视频等,是人工智能1.0时代进入2.0时代的重要标志。ChatGPT是AIGC的一种实现,这些内容可以用于多种应用,包括新闻写作、社交媒体内容生成、广告制作、创意设计等。以下是对AIGC的详细介绍:
2024-07-10 16:27:43 420
原创 ZooKeeper常用命令
ZooKeeper 是一个开源的分布式协调服务,最初由 Yahoo 开发,现由 Apache Software Foundation 维护。它主要用于分布式应用程序中的协调服务,如配置管理、命名服务、分布式同步和集群管理等。ZooKeeper 通过提供可靠的数据存储、简单的 API 以及高性能的分布式锁和同步机制,解决了分布式系统中的许多复杂问题。使用 ZooKeeper 的过程中,命令行工具是非常重要的管理工具。以下是一些常用的 ZooKeeper 命令:
2024-07-10 09:00:00 288
原创 大数据平台之Hive Metastore
Hive Metastore 是 Apache Hive 的核心组件之一,用于存储关于 Hive 数据仓库中表和分区的所有元数据。元数据包括表的模式、位置、分区信息、列的数据类型等。Metastore 为 Hive 提供了表管理和查询优化所需的信息。
2024-07-10 08:30:00 595
原创 容器之docker compose
Docker Compose 是一个用于定义和运行多容器 Docker 应用的工具。通过一个 YAML 文件,您可以配置应用程序需要的所有服务,并使用单个命令来创建和启动这些服务。以下是对 Docker Compose 的详细介绍:
2024-07-09 09:18:22 662 1
原创 数据仓库之命名规范
数据仓库命名规范旨在确保数据仓库中的各种对象(如数据库、表、列、索引、视图等)具有一致、清晰且有意义的名称。这些规范有助于提高数据的可读性、可维护性和可理解性。以下是一些常见的数据仓库命名规范,涵盖了数据库对象的各个方面。
2024-07-09 08:30:00 371
原创 Markdown介绍
Markdown是一种轻量级标记语言,旨在使用纯文本格式进行内容编写,并最终转化为格式化的文档。由约翰·格鲁伯(John Gruber)和亚伦·斯沃茨(Aaron Swartz)在2004年创建,Markdown非常适合撰写文档、笔记、博客文章等,因为它简单易读且便于转换为HTML。
2024-07-08 20:52:38 275
原创 大数据之ZooKeeper
ZooKeeper 是一个开源的分布式协调服务,最初由 Yahoo 开发,现由 Apache Software Foundation 维护。它主要用于分布式应用程序中的协调服务,如配置管理、命名服务、分布式同步和集群管理等。ZooKeeper 通过提供可靠的数据存储、简单的 API 以及高性能的分布式锁和同步机制,解决了分布式系统中的许多复杂问题。
2024-07-08 09:00:00 320
原创 大数据平台权限之ACL
在 Hadoop 3 中,访问控制列表 (ACL) 是一种权限管理机制,用于更细粒度地控制用户对 HDFS(Hadoop Distributed File System)文件和目录的访问权限。ACL 允许你为文件和目录指定传统 Unix 权限模型之外的用户和组权限。
2024-07-08 08:30:00 552
原创 RPC框架之Dubbo
Dubbo 是一款高性能、轻量级的开源 Java RPC(Remote Procedure Call)框架,由阿里巴巴集团于2011年发布。Dubbo 主要用于实现基于微服务架构的分布式应用,通过提供服务注册与发现、负载均衡、容错等功能,极大地简化了服务之间的调用和管理。
2024-07-05 09:00:00 314
原创 大数据平台之数据同步
Change Data Capture (CDC) 是一种用于跟踪和捕获数据库中数据变更的技术,它可以在数据发生变化时实时地将这些变更捕获并传递到下游系统。以下是一些常用的开源 CDC 方案:
2024-07-05 08:30:00 833
原创 k8s (Kubernetes) 之helm
Helm 是 Kubernetes 的包管理工具,用于简化和自动化应用程序在 Kubernetes 上的部署、管理和配置。Helm 通过 Chart(类似于 Linux 中的包管理)来打包 Kubernetes 应用程序,使得应用程序的管理变得更加便捷和高效。
2024-07-04 09:00:00 1050
原创 大数据平台之数据安全
大数据平台的数据安全是一个复杂而关键的领域,涉及多方面的安全策略和技术,以确保数据在整个生命周期中的机密性、完整性和可用性。
2024-07-04 08:30:00 948
原创 容器之k8s(Kubernetes)
Kubernetes(常简称为 K8s)是一个开源的容器编排平台,最初由谷歌设计,现在由云原生计算基金会(CNCF)维护和发展。它旨在自动化容器化应用程序的部署、扩展和管理。
2024-07-03 09:00:00 1079
原创 大数据之数据中台
数据中台是一个综合性的数据管理和分析平台,旨在整合企业内部和外部的各种数据源,提供数据存储、处理、分析和服务等一站式解决方案。它能够帮助企业实现数据的标准化、共享和治理,从而支持业务的快速响应和决策。
2024-07-03 08:30:00 779
原创 容器之docker
Docker 是一个开源的平台,旨在使应用程序的开发、部署和运行更加轻松。它利用容器技术,将应用程序及其依赖环境打包在一起,以便于在任何环境中一致运行。
2024-07-02 09:00:00 1541
原创 大数据平台之CDH
Cloudera's Distribution Including Apache Hadoop (CDH) 是 Cloudera 提供的企业级 Hadoop 发行版,包含了 Hadoop 及其生态系统中的各种组件,并进行了优化和增强,适合在生产环境中使用。
2024-07-02 08:30:00 1192
原创 docker服务开机自启动设置
以上步骤适用于大多数基于systemd的Linux发行版,如Ubuntu 16.04及以后版本、Debian 8及以后版本、CentOS 7及以后版本等。命令来设置Docker服务开机自启。确保你已经安装了Docker并且服务正在运行。在Linux系统中,可以使用。
2024-07-01 09:00:00 307
原创 大数据平台之Cloudera Manager
Cloudera Manager 是一个企业级平台,用于管理、监控和优化 Apache Hadoop 集群。它提供了一个集中的控制台,使管理员能够有效地管理大规模的 Hadoop 环境,简化了集群部署、配置、监控和维护的工作。
2024-07-01 08:30:00 777
原创 Hive on Spark vs. Spark on Hive
Hive on Spark 和 Spark on Hive 是两个不同的大数据处理架构,它们各自有不同的实现方式和应用场景。
2024-06-28 09:00:00 398
原创 k8s查看pod镜像
在Kubernetes中,要查看Pod中使用的镜像,你可以使用。这个命令会输出集群中所有命名空间(替换为相应的Pod名称和命名空间。标志)中所有Pods的容器镜像。替换为你想要查看的命名空间。
2024-06-28 08:30:00 236
原创 数据仓库之主数据管理
主数据管理(Master Data Management, MDM)是数据管理的一部分,旨在确保企业的关键业务数据(即主数据)的准确性、一致性和完整性。主数据是指在多个系统、应用和流程中共享的核心数据,例如客户、产品、供应商和员工等信息。通过有效的主数据管理,企业可以提高数据质量,简化数据集成,增强数据治理,从而支持业务运营和决策。
2024-06-27 09:00:00 1294
原创 数据仓库之数据集市
数据集市(Data Mart)是数据仓库体系中的一个重要组成部分,通常用于特定业务部门或应用的数据子集。数据集市提供了更加聚焦和高效的数据访问,帮助特定业务领域快速获取所需信息。
2024-06-27 08:30:00 556
原创 数据仓库架构设计
数据仓库架构设计是为了有效地收集、存储、处理和分析大规模数据,从而支持商业智能和数据分析活动。一个良好的数据仓库架构需要考虑数据源的多样性、数据存储的结构化、数据处理的高效性和数据分析的灵活性。
2024-06-26 09:00:00 797
原创 容器之Docker Desktop
Docker Desktop 是一个专为开发人员设计的应用程序,它为使用 Docker 和 Kubernetes 开发应用程序提供了一个简单易用的环境。Docker Desktop 主要针对 Windows 和 macOS 系统用户,帮助他们在本地机器上快速搭建和管理容器环境。
2024-06-26 08:30:00 1762
原创 大数据平台之Ambari
Apache Ambari 是一个用于配置、管理和监控 Hadoop 集群的开源工具。Ambari 提供了一个直观的用户界面和一组全面的 API,使得管理大数据集群变得更加容易和高效。
2024-06-25 09:00:00 943
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人