数据仓库建设方案详细：平台运维管理

最新推荐文章于 2024-05-04 17:20:57 发布

000X000

最新推荐文章于 2024-05-04 17:20:57 发布

阅读量558

点赞数 1

分类专栏：数据仓库实战大数据文章标签：数据仓库建设平台运维管理

本文链接：https://blog.csdn.net/ytp552200ytp/article/details/109741996

版权

数据仓库同时被 3 个专栏收录

200 篇文章 87 订阅

订阅专栏

实战

162 篇文章 19 订阅

订阅专栏

大数据

81 篇文章 9 订阅

订阅专栏

第7章平台运维管理

7.1 Hadoop集群监控

大数据平台以Web图形界面实现Hadoop集群监控，包括大数据平台的硬件资源、软件资源、数据资源的监控，以及整个Hadoop集群的工作负载。主要包括以下几个方面：

7.1.1 服务组件状态监控

通过管理平台可以看到所有目前已安装的服务组件的健康状况，绿色圈表示运行状态健康。

7.1.2 存储与存资源监控

包括获取存储量、剩余存储量以及存储系统整体情况信息。如果集群中的某台机器的磁盘或者存的使用率达到指定的阀值，系统可以通过或者短信的方式进行预警。

7.2 系统负载管理

通过管理平台可以实时看到整个平台的资源负载情况，包括集群的CPU、集群磁盘IO、集群网络IO、HDFS IO，如下图所示：

通过对集群运行任务的实时监测，并根据任务优先级和耗时不同对任务进行动态调度，减少出现大量任务等待和重要任务无法及时完成的可能，可以使Hadoop集群的运行变得更加高效合理。
（1）系统根据各队列资源的最小值分配集群资源，这样可以按照需求对各任务队列获取的集群资源进行分配，而且不会出现集群资源的闲置浪费。
（2）可以实现对各任务队列获取的集群资源大小实时动态调整，及时保证高优先级任务所在队列获得更多的集群资源。
（3）可以实现在某个任务队列出现空闲时，将该任务队列获取的集群资源自动分配给其他繁忙的任务队列，以使得集群资源利用最大化。

7.3 操作系统管理

7.3.1 磁盘性能监控

对集群机器的硬盘进行监控，如下图所示，详细的展示出磁盘IO的利用率，读写速度，磁盘的等待时间。

7.3.2 故障快速定位

大数据平台具备完整的告警监控和故障快速定位能力。能够将计算框架的每个作业进度、状态、资源利用情况进行监控，并通过可视化图形界面进行展示。
当大数据平台出现异常情况时，平台能够通过监控系统，对服务器节点宕机等集群异常、安全异常等异常事件进行预警、报警，并通过、短信等报警手段进行告警通知。提供预制的恢复规则和安全规则，对集群异常进行自动修复、自动限制非安全行为的操作。
大数据平台能够通过对告警信息的分析，快速定位平台部出现故障的节点，对于因故障无法继续提供服务器的节点进行标记，将平台的作业任务自动分配到其他的节点上运行，同时，大数据平台采用分布式体系结构及无单点故障设计，平台任何节点的宕机都不会影响平台的稳定运行和业务的正常使用。待故障节点恢复正常后，再将该节点纳入平台的资源中，将作业任务分配到恢复后的节点上运行。

7.3.3 运行日志监控

针对每个服务组件运行的实时日志信息可以从平台中查看，便于在服务组件运行中断时查找和追踪原因。例如，我们想要查看HBase服务组件中Mater角色的日志信息，如下图所示：

7.4 平台安全管理

在Hadoop 2.x中加入了Kerberos认证机制。Kerberos可以将认证的密钥在集群部署时事先放到可靠的节点上。集群运行时，集群的节点使用密钥得到认证。只有被认证过节点才能正常使用，防止恶意的使用或篡改Hadoop集群的问题，确保Hadoop集群的可靠安全。

7.5 数据质量管理

7.5.1 数据标准化

数据标准化包括数据标准制定及数据标准化处理两个部分，数据标准制定是在专家系统业务统一规前提下，指导专家系统大数据标准，包括数据格式标准、数据交换标准、数据共享标准等；数据标准规化是指按照统一专家系统数据标准格式。将专家信息数据进行标准化处理，生成符合专家系统数据标准要求的信息数据。

7.5.2 数据质量检测

根据数据质量监测规则，通过数据质量检测引擎，对数据表中的增量数据进行扫描，调用规则算法或扩展程序进行数据质量检测，并提供问题数据库的建立、数据质量报告的生成、问题数据的处理、以及对问题数据的通报和反馈来保证数据的质量和实效性等功能。

7.5.3 数据关联

对采集的数据库根据数据间的业务关联关系实现数据的关联，通过数据的关联，增加实体数据的维度，将单个的数据扩展成行业信息资源，提高数据的价值。