![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 82
james二次元
分享大数据及AI相关技术,每天进步一点点,和大家一起学习、一起进步!
展开
-
数据同步工具之sqoop
Sqoop(SQL-to-Hadoop)是一个专门用于在Hadoop和关系型数据库(如MySQL、PostgreSQL、Oracle等)之间传输数据的开源工具。它是Apache Hadoop生态系统的重要组成部分,可以方便地进行数据的导入和导出。下面是对Sqoop的详细介绍:原创 2024-07-19 07:45:00 · 640 阅读 · 0 评论 -
大数据平台之YARN
Hadoop YARN(Yet Another Resource Negotiator)是Hadoop 2.x引入的一个通用资源管理和作业调度框架,它将资源管理和作业调度/监控分离开来,从而提升了集群的资源利用率和可扩展性。YARN是Hadoop生态系统的核心组件之一,支持不同类型的分布式计算框架和应用程序。以下是对YARN的详细介绍:原创 2024-07-17 08:15:00 · 777 阅读 · 0 评论 -
大数据平台之HCatalog
Apache HCatalog 是一个用于 Apache Hive 的表和数据管理工具,它为 Hadoop 生态系统中的其他组件(如 Apache Pig、Apache Spark 和 Apache Flink)提供了一种统一的元数据管理方式。以下是 HCatalog 的主要特性和组成部分:原创 2024-07-18 09:16:27 · 292 阅读 · 0 评论 -
大数据平台之MapReduce
MapReduce是一个编程模型和处理框架,用于处理和生成大规模数据集。它由Google提出,并在Hadoop中得到了广泛的实现和应用。MapReduce通过将任务分割成独立的小块并在多个计算节点上并行处理,提供了一种高效处理大数据的方法。原创 2024-07-15 08:30:00 · 1002 阅读 · 0 评论 -
大数据平台之HDFS
HDFS(Hadoop Distributed File System)是Hadoop生态系统的核心组件之一,专为大数据存储而设计。它提供了高吞吐量的访问方式,用于处理海量数据。以下是对HDFS的详细介绍:原创 2024-07-11 08:30:00 · 1017 阅读 · 0 评论 -
大数据平台之HiveServer2
HiveServer2 是 Apache Hive 的一个重要组件,用于为客户端提供统一的接口来访问 Hive 数据仓库。它提供了一个 JDBC、ODBC 和 Thrift 接口,支持多种客户端连接方式,并增加了多用户隔离和增强的安全性。原创 2024-07-12 08:15:00 · 1063 阅读 · 0 评论 -
大数据平台之Hive Metastore
Hive Metastore 是 Apache Hive 的核心组件之一,用于存储关于 Hive 数据仓库中表和分区的所有元数据。元数据包括表的模式、位置、分区信息、列的数据类型等。Metastore 为 Hive 提供了表管理和查询优化所需的信息。原创 2024-07-10 08:30:00 · 602 阅读 · 0 评论 -
大数据平台权限之ACL
在 Hadoop 3 中,访问控制列表 (ACL) 是一种权限管理机制,用于更细粒度地控制用户对 HDFS(Hadoop Distributed File System)文件和目录的访问权限。ACL 允许你为文件和目录指定传统 Unix 权限模型之外的用户和组权限。原创 2024-07-08 08:30:00 · 554 阅读 · 0 评论 -
大数据平台之数据安全
大数据平台的数据安全是一个复杂而关键的领域,涉及多方面的安全策略和技术,以确保数据在整个生命周期中的机密性、完整性和可用性。原创 2024-07-04 08:30:00 · 954 阅读 · 0 评论 -
大数据平台之Cloudera Manager
Cloudera Manager 是一个企业级平台,用于管理、监控和优化 Apache Hadoop 集群。它提供了一个集中的控制台,使管理员能够有效地管理大规模的 Hadoop 环境,简化了集群部署、配置、监控和维护的工作。原创 2024-07-01 08:30:00 · 783 阅读 · 0 评论 -
Hive on Spark vs. Spark on Hive
Hive on Spark 和 Spark on Hive 是两个不同的大数据处理架构,它们各自有不同的实现方式和应用场景。原创 2024-06-28 09:00:00 · 404 阅读 · 0 评论 -
大数据平台之Ambari
Apache Ambari 是一个用于配置、管理和监控 Hadoop 集群的开源工具。Ambari 提供了一个直观的用户界面和一组全面的 API,使得管理大数据集群变得更加容易和高效。原创 2024-06-25 09:00:00 · 947 阅读 · 0 评论 -
大数据平台之权限管理
大数据平台的权限管理是一个多层次、多方面的过程,涉及身份验证、授权和审计等环节。通过使用合适的工具和技术,遵循最佳实践,可以有效地保护数据安全,确保合规性并支持业务需求。原创 2024-06-13 08:45:00 · 1694 阅读 · 0 评论 -
fair-scheduler.xml参数配置及解释
一、Fair Scheduler相关参数Fair Scheduler的配置包括两部分;(一)yarn_site.xml,主要用于配置调度器级别的参数;(二)fair_scheduler.xml,主要用于配置各个队列的资源量、权重等信息。 首先在yarn-site.xml中,将配置参数yarn.resourcemanager.scheduler.class设置为:org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.Fa...原创 2021-01-29 10:40:23 · 3007 阅读 · 1 评论 -
[]hadoop自定义Counter
hadoop0.20.X版本中对counter进行了改进,具体写法如下,mark一下 public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{ private final static IntWritable one =...原创 2011-09-26 15:02:29 · 77 阅读 · 0 评论