众所周知,云计算改变了整个传统IT产业的基础架构,而大数据则改变了IT业务模式。那么在云计算大数据时代,传统的Linux系统运维应该怎么顺应技术的发展呢?今天我们就来聊一聊大数据运维工程师。
1.运维工程师都有哪些岗位
一图胜千言,针对运维工程师在公司都有哪些岗位,我们不妨看看下面这张图。
2.大数据运维的工作职责
【职责1】规划部署
01 根据业务规划和未来业务演进评估集群规模、存储规模、算力需求、技术选型等。
02 大数据生态组件高可用部署,安全合规保障。
03 开发人员使用集群方式规划、权限配置。
【职责2】故障排查
01 对产线环境产生的服务停止卡死、集群节点失败失联、主从切换、RPC性能问题进行排查并进行复盘。
02 对作业失败、作业卡死、数据误删除、数据丢失等问题进行排障并进行复盘。
【职责3】管理变更
01 根据监控的存储指标、资源指标、性能指标或业务调整进行集群的扩容上线、退役下线、数据均衡、数据清理。
02 根据需求变化进行权限修改、参数修改、集群访问方式修改。
03 变更方案编写、评审,变更流程梳理建设、变更记录留痕。
【职责4】集群调优
01 主机测参数调优、JVM参数调优、RPC性能调优。
02 资源队列资源调整、线程分配调整。
03 针对不同组件的运维场景与实践进行优化调整。
【职责5】监控告警
01 无运维不监控,建设监控体系、打通多样化告警方式。
02 了解大数据组件关键核心指标含义,监控服务可用性、存储状态、资源状态、性能瓶颈、操作安全。
03 深度监控,作业状态、小文件、冷数据、影响评估。
【职责6】体系建设
01 运维流程制度建设、运维文化建设。
02 运维人员成长晋升、成就感打造。
03 工具体系的建设,打造一站式运维平台。