随着三网融合逐步发展、深化,广电网络从为用户提供原本单一的信息服务转向了集语音、文字、图像为一体的信息服务,同时也实现了由单一独立的网络向综合性网络的改变。如何在业务的融合与竞争中创造核心竞争力,利用自身网络覆盖率上的优势,在业务运营、网络建设、市场运行等方面降本增效,抢占先机已成为广电企业最为关注的问题。
第1章 广电运营商网络运维建设背景
2015年,国务院办公厅印发《三网融合推广方案》,加快在全国全面推进三网融合,推动信息网络基础设施互联互通和资源共享。《方案》提出将广电、电信业务双向进入扩大到全国范围,提升网络承载和技术创新能力以及加快发展融合业务和网络产业等六项工作目标。
2020年,国家广播电视总局印发的《关于加快推进广播电视媒体深度融合发展的意见》指出,强化先进技术创新引领,加快升级传播体系;深入实施智慧广电战略,打造智慧广电媒体,发展智慧广电网络,一体化推动广电5G网络建设和全国一网整合。随着5G、大数据、云计算、区块链、人工智能等新兴技术的应用,政策驱动传统媒体向移动、融合、智慧、超高清化转型,为广播电视媒体解决上述问题带来前所未有的机遇。
第2章 广电运营商网络运维的痛点
近些年来,智慧广电进一步发展,5G、云计算、大数据、物联网、超高清视频、人工智能、区块链等新一代信息技术逐渐融入广电网络与业务建设,广电运营商的业务形态和网络架构发生重大变化。面对全业务运营需求,网络运维层面正由快速响应转向主动应对,传统运维体系面临挑战。
面临的具体难题如下:
(1)设备种类繁多、数量巨大,包括OLT、GPON、EPON、XPON、ONU、ODU、EOC、HFC、终端等广电领域的所有设备类型,难以统一管理。
(2)网络结构复杂,逐渐向扁平式、集中式发展,难以自动发现各种设备,且基于拓扑图的方式实时管理设备。
(3)对广电网络中的设备配置、性能、安全和故障等方面缺乏统一的管理、监控和维护。
(4)难以对网络资源进行集中管理与合理配置,导致资源利用率低,运营成本增加。
(5)设备监察依赖人工巡检,告警发生仅靠被动发现,日常运维工作多处于“救火”状态,被动地处理各种故障。
(6)随着业务不断发展、系统规模不断扩大,故障根因难以定位,用于确定故障及恢复时间越来越长。
(7)各地区,时段网络负载状况难以实时获取,流量带宽应用情况难以直观呈现。
(8)缺乏对网络信息的科学、统一管理,各系统间形成信息孤岛,有价值的信息难以合理利用。
第3章 广电运营商全域综合监控
有线电视网是国家重要的信息化基础设施,随着业务发展和三网融合的迫切需求,对网络质量和承载能力提出了更高的要求,EPON+EOC成为双向网数字化和双向化改造的主要技术方案。针对三网融合发展的需求,北京智和信通广电运营商网络监控运维方案,对广电网络现有资源进行整合调整,构建出为广电网络三网融合发展提供有力保障的运维新体系。
智和信通广电运营商网络运维方案架构
3.1.广电城域网可视化监控管理
随着国家三网融合政策的全面推进,IP城域网建设逐渐成为广电运营商的重点工作之一,如何保证IP城域网的稳定,降低其故障率是每个广电运营商必须思考的问题。在运维管理上,方案将IP城域网IT设施均纳入智和网管平台中一站管控,避免分散管理,减少运维成本。
广电运营商网络拓扑示意图
平台采取智能技术,实现网络拓扑可视化的能力,通过动态智能拓扑实现全网设备、资源、链接关系、IP等实时更新、快速定位。通过按片区、按地域、按层级等多种布局方式划分网络,使用不同颜色、粗细、图标表示被管理对象的状态信息,助力运维人员实时了解网络架构及全网运行状态,快速感知资源、链路、流量等异常信息。同时通过分级、分权管理,不同人员对不同网络和界面具备差异化权限。
广电运营商网络拓扑示意图
3.2.EPON网络集中管理
通过智能技术,用户只需输入IP范围即可发现PON设备,满足整个网络大量设备接入需求;支持单个添加设备,在管理少量设备时逐个添加。
- 发现OLT:提供IP范围,自动搜索出该IP范围内的OLT设备,并识别出OLT设备的厂商型号及其他相关信息。
- 发现EPON:从OLT设备ARM系统中扫描出所有的EPON,并将EPON数据写入到数据库表中看,供前台界面进行展示。
- 发现ONU:从OLT设备ARM系统中扫描出所有的ONU,以及ONU与EPON之间的对应关系,并将ONU数据写入到数据库表中,供前台界面进行展示。
- 发现EOC:从ONU设备上扫描出EOC设备,并入库,在拓扑中展示。
- 发现终端设备:从EOC设备上自动扫描出EOC设备下挂的终端设备,并入库,在前台展示。
EPON网络拓扑示意图
3.3.全网资源统一监控
广电网络光纤到户快速发展,需要维护的设备也成倍增长,有效地自动化才能解决快速扩张带来的运维负担。通过对广电运营商网络中海量交换机、路由器、BRAS、OLT、ONU、接入设备、无线AC、AP、摄像头、操作系统、应用、数据库、虚拟化、中间件、云、存储等智能解析和关联分析,结合全流量采集分析能力,形成整个网络通信链路的多端网络流量分析链,助力运维人员从多个维度实现对相应告警的智能分析,解决传统运维监控中关联数据缺失,辅助排障信息不足的问题。
设备资源可视化显示
3.4.虚拟化资源统一管理
方案支持对虚拟化环境下的虚拟机、宿主机等进行全方位运维监控,全面支持Exi5、KVM、Xen、Hyper-v等,监测指标涵盖物理机内部虚拟化设备的电源、操作系统、CPU、内存、磁盘等,最大化利用计算资源,保障虚拟化平台运行稳定。
3.5.云上云下资源统一监控
方案对复杂的多云异构环境、云上云下资源、信创云等进行全面管理,实现云下服务器、网络设备、安全设备、机房、机柜、专线、配件等设施,云上各类云服务器、云磁盘等云产品以及各类 IP、NAT、DNS 等资源的真正一站式运维,并支持对纳管资源的快速扩展。
3.6.端到端全链路可视化
三网融合下的广电运营商,接入网向扁平化发展,网络节点众多,OLT直连BRAS/SR需要大量光纤,光纤链路问题频发,交换机收光异常,将导致链路不稳定或部分丢包情况,造成网络异常却难以定位。
方案通过对交换机光口和网络接口的监控,通过数据采集分析,实现对网络流量和关键连接的预测性维护,从整体维度到局部维度全面展示广电运营商网络内IT设备间链路各项指标,整体可观测、可告警、可分析、可统计
链路综合信息示意图
3.7.弹性扩展,满足网络发展需求
方案支持设备及资源弹性伸缩,满足网络中设备量持续增长及更新的需求。通过自定义设备类型及其设备资源,最大限度上提高了智和网管平台的管理范围,真正实现了对设备及其资源的全面化管理,达到管控万物的目标。
3.8.实时故障预警
方案通过统一的故障管理平台,将各个模块中的监控信息统一采集、分析,实现整个广电运营商网络中各种事件信息、设备故障、网络异常、流量异常等告警,以智能化手段进行标准化的分析、压缩、并归关联等,通过多种方式实时传达告警信息,保证落实到指定人员进行处理,为广电运营商提供主动式的故障解决方案。
3.9.异常事件管理
将事件和告警分离管理,接收设备/服务器主动发送的消息,集中处理后,及时地通知用户,并可以通过集中的管理界面进行管理。接收设备/服务器主动发送的消息,极大地提高了管理的主动性,通过统一界面集中管理事件,降低了管理的难度。
3.10.跨地域自动巡检
传统的人工巡检,尤其是应用巡检,缺乏统一的规范、标准,导致巡检的范围和深度都存在一定的局限性,并且是基于人工的手工统计,工作效率比较低,同时耗费较大的人力资源。本方案依托平台将以前依赖手工进行的日常巡检转换为自动化、定时执行的巡检策略,日常例行巡检、节假日和重要事件前的巡检均可自动化执行。
第4章 全网带宽、流量监控与分析
随着广电运营商信息化建设的加速,其业务、应用层出不穷,对网络带宽的需求越来越高。正常的业务需要良好的带宽环境保障机制,避免被一些与业务无关的杂事干扰,影响工作效率。方案对广电运营商流量和带宽实时监控,将出入双方向流量情况可视化展现。基于海量流量数据的存储挖掘,统计分析流量峰值、谷值、流量趋势、设备流量等数据,为网络流量管理提供数据支撑。
提供设备、接口、IP、服务、应用、会话等层级的带宽监控,实时监控带宽使用趋势与带宽占用分布,并通过图表展示,快速识别网络带宽滥用,分析高带宽使用情况,识别带宽消耗较大的应用程序、服务、协议或IP 地址,避免网络容量过载,并提升最终用户网络体验。根据网络总体流量、应用类型、源地址、目的地地址、详细信息产生各种图表和 TOP N 报告,并一一对应流量两端信息。
第5章 全网IP合规监控
对于广电运营商的IP资产,采取统一数据标准,对整体网络中的IP和MAC进行梳理和管理,建立健全IP资产台账,端到端规划、部署、管理和监控IP 地址。通过智能IP扫描能力,定义多层次子网,然后扫描其范围内每个IP地址的当前状态,包括IP地址,MAC地址等信息,也可以查看IP段内地址使用详情,便于IP地址分配管理等。
可手动、自动获取子网信息,并根据网络结构对子网信息进行管理。定时获取全网的MAC-IP信息,并自动保存,自动对比分析IP分配规则和现网IP使用情况,对IP整个生命周期的变更情况进行合规管理。
支持通过端口视图及列表视图的形式,展示当前IP地址的使用情况,可查看某个子网的IP现网详情信息,如IP、掩码、主机名、设备类型、现网MAC、现网接入设备、现网接入端口、规划MAC、规划接入设备、使用人等,可批量分配IP地址。
第6章 端到端业务运维
广电运营商业务类型从单一的广播式电视业务变化为广播式、交互式电视业务共存;从单一的看电视向宽带上网、VOD点播、录播等多种交互式业务方向发展,同时,为应对互联网的挑战,传统业务纷纷触网,成立了网络电视台,推出了手机报、APP等新业务;同时利用自身互联网链路、IDC资源优势,发展商业WIFI运营、行业ICT解决方案等新兴业务。业务和网络由绑定、分散、分割向分层、融合发展。
广电运营商业务系统示意图
针对业务应用性能与用户体验进行检测分析,无需安装插件即可提供开箱即用的主动拨测试业务监测。从前端用户体验、网络延迟到后端的业务服务和基础架构,全栈溯源为用户提供端到端的完整全链路数据融合和关联分析,为用户快速发现业务性能瓶颈,提升用户体验奠定基础。
广电运营商业务看板示意图
直观、便捷地帮助运维人员对广电运营商的VOD系统、CA系统、OTT系统、BOSS系统、网上营业厅、报送系统、呼叫中心、财务系统、办公系统等进行监控,掌握业务的运行状态和健康水平,了解业务动态变化趋势,快速定位故障源,降低运营风险。
方案通过全面的业务数据可视化能力,既可集中呈现业务数据的用户体验状态,也可以基于应用、设备实时监控、呈现业务各节点的实时运行状态,包括用户体验、节点可用性、节点负载等状态信息。基于自定义阈值自动监测,异常指标自动触发告警,快速定位业务瓶颈根因,并可根据用户自愈策略,触发自动运维实现故障自愈。
第7章 全场景自动化运维
广电运营商网络承载的业务经常发生变更,面对业务的变更运维工程师往往要对大量设备进行操作,此时如果依靠工程师逐一登录设备进行命令下发、策略配置,将产生大量重复性的工作,不但导致运维效率低下,也不可避免地产生人为配置错误。
通过智和信通全场景自动化运维方案纳入监控的设备进行单独、批量的配置操作,设备策略远程配置管理,可以自动批量进行设备配置修改,并可对设备配置进行备份、对比、恢复,宕机后设备配置可快速复原,保障设备及时恢复运行,全面提升配置效率、质量和安全性。
针对不同类型的设备,支持进行各种控制、配置操作。
- 对服务器/主机/虚拟化,支持一键开关机、进程管理、应用管理、容量管理等
- 对交换机/路由器,支持ACL、QoS、流量策略、端口策略等
- 对安全设备,支持防护管理、认证管理、NAT管理、VPN管理、内容控制等
- 对数据库/中间件,支持空间管理、池管理、会话管理、连接控制等
- 对传输设备,支持终端管理、链路管理、信号控制、功率配置等
- 对其他设备,支持结合用户实际场景,通过拖拽流程的方式实现自定义管控策略
对不同厂商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、华为、H3C、锐捷、中兴等多家厂商的网络设备。
7.1.交换机策略查询与自动化配置
对交换机提供多设备、多资源批量策略下发,包括ACL策略、QOS策略、路由配置、端口流量限速、账号安全、终端准入、策略备份等,满足运维人员日常基本运维需求,
7.2.设备策略备份对比
方案通过配置文件批量备份、下载、周期性备份、查看等功能,为用户管理网络做出合理的建议提供数据支撑。
7.3.人工运维与故障自愈结合
通过实时发现告警,进行预诊断分析,判断告警类型和级别,如果是一般告警,平台进行自动恢复,如果是严重复杂告警则通过告警通知、运维工单等形式通知运维管理人员,进行人工处理。同时,将只能由专家处理的各类操作和判断转化为可存在于平台内的流程,形成可保留可复用的运维知识。
7.4.灵活编排,多运维场景支持
自动化运维编排,可实现完全根据用户场景,定制化设计运维剧本,真正将运维任务托管至平台,全面解放人力。
- 开发环境自动化,如软件代码自动化更新、自动化编译、自动化打包、自动化发布预警生产环境。
- 应用发布自动化,如服务自动化升级、软件自动化部署等。
- 故障自愈能力,如网口异常自动关闭、磁盘爆满自动清理、非法设备入侵阻断、CPU空间不足自动重启等。
- 定时服务重启,如在工作日每天晚上定时关闭应用,每天早上自动重启应用等。
- 智能批量设备管控,如批量设备策略执行,当设备的配置状态不一时,能够基于当前设备自身的状态自动决策适合于本设备的管控操作等。
- 定期设备健康状况自检,如定期设备健康状态自检、服务运行状态自检等。
- 基于HTTP接口自动化,如基于HTTP接口的工单自动化、审批自动化、业务自动化等。
- 高可用服务自动切换,如主备数据库运行状况自检异常自动切换,服务运行状态检查主备切换等。
- 虚拟化、云服务资源自动化扩容,如在虚拟化环境资源不足时自动化根据实际情况进行扩容。
- 日常运维自动化,如自动化定期执行批处理cmd\sh脚本、自动化定期数据清洗、自动化定期环境检查并导出报表等。
第8章 运维大数据分析
广电运营商网络设施及各业务系统产生的海量数据无法得到深层次的应用,管理者决策缺乏数据依据,难以参考各类网络业务指标、数据等实现对运行态势、隐患风险的实时掌控及运营管理。
广电运营商运维大屏示意图
将采集到的网络流量数据进行整合分析,通过强大的可视化能力对有效信息进行呈现,从流量利用方面为网络和业务稳定提供支撑。
第9章 更多协同运维能力,保障IT设施可管、可用
9.1.IT资产生命周期监管
对于资产管理,采取统一数据标准,对整体网络资产进行梳理和调用,避免资产信息在运维系统和实物间的差异,减少网络运维过程中信息不一致、数据不统一等问题通过平台将资产实物与运维数据库一一对应,解决网络设备在日常运维过程中出现“脱管”或“半脱管”的问题。
9.2.可量化运维工单体系
通过方案实现运维工单“无纸化”,支持于设备和故障管理页面快速创建工单,把控故障处理进度,通过工单平台简化故障处理流程,形成自动化故障处理机制,并在每个处理流程的节点上责任到人,实现在快速响应故障的同时,实现兼顾运维流程管控。
第10章 智和信通信创国产化支持
智和信通提供的信创运维方案,立足于北京智和信通10年的国产融合经验,与国产软硬件产品深度适配,方案应用覆盖各行各业。
第11章 方案应用价值
通过部署智和信通广电网络运维安全态势感知方案,真正实现智能发现、智能监控、智能识别、智能管理、智能维护、智能分析等功能。将原本的复杂操作、分散命令集中化、程序化,实现自动采集、分析和检测报告。
智能发现:可根据网络规划智能发现网络设备,合理分配扫描时间、区域、资源,可根据大数据分析运营情况自动优化发现策略,
智能识别:根据设备参数、厂家信息智能识别网络节点、设备类型和厂家。
智能维护:开发智能运维服务,可根据大数据分析结果,自动对可能存在故障的网络节点进行运维检测,同时可满足智能升级需求、基本故障恢复策略。
智能分析:根据网络流量、性能统计、链路质量、故障分布,系统分析网络瓶颈、故障范围、网络升级方略。
智能管理:所见所得网络拓扑图、智能化定位、多维度洞察网络状态、大数据分析。
第12章 标杆案例
至今,智和信通已成功在诸多运营商进行部署与实施。通过“智和网管平台”实现智能化集中运维管理,对全部IT基础设施进行跨区域、跨平台、跨设备远程集中管控,智和信通运营商网络嘉能可运维方案成果,其可靠性在电信运营商大规模、高复杂的网环境下得到了验证,并得到用户的充分认可
以下为部分项目案例。
12.1.中国移动北方十三省集中监控运维项目
2010年中国移动通信集团在全国建设了不良信息过滤系统,此系统由不良信息过滤软件、Windows 服务器、Linux 服务器、数据库、分流设备、交换机、存储服务器等构成。
7.2.1核心需求
需要一套集中的OMC(操作维护中心)监控软件,对不良信息过滤系统的所有的设施进行监控。
集中部署OMC,分域管理:各省市管理人员从Internet登录到OMC系统,对本省的设备进行监控;
穿透私网:要管理的设备分散在各省公司下不同城市的机房中, 网管服务器无法直接访问各省设备;在北京的中心机房,可以监控到其他机房的设备运行情况;
严格的故障处理机制:故障发生、故障通知、故障清除、故障确认、故障恢复,需要符合中国移动的运维管理规定;
时效性要高:发现故障的时间,平均不能低于30秒,最大不能超过1分钟;每台设备 10—20个需要监控的故障/性能指标,监控周期为10秒钟;
统一监控:所有的服务器、网络设备、软件系统在同一界面中统一监控;
7*24 小时的监控画面:主监控屏幕需要7*24小时不间断展示告警和警报。
7.2.2智和信通建设方案与效果
已实现包括设备拓扑、故障管理、性能管理、配置管理以及安全管理等在内的超过1000种基础网管功能,且支持功能扩展针对中国移动的具体需求,智和信通提出以下解决方案:
拓扑监控效果
- 利用WebService技术采用集中式部署运维平台,分布式部署的网管采集代理,实现中心、片区的层级监测,片区独立运行,中心可以集中管理分部的监测数据;
- 配置代理服务器的IP和端口,做到采集服务端的代理模式,可以做到监控私有网段下的设备;
- 具备主动的故障监控功能,能从众多的事件和状态中,系统将零散的状态信息,总结成为当前工作状态,并产生告警;
- 采用JAVA多线程任务并发技术,把监测频率提升到秒级,以保证监测数据的实时性和精确性,监控周期最低可以设置为5秒;
- 采用设备统一模型,可以统一管理Windows 服务器、Linux 服务器、数据库、分流设备、交换机等各种设备类型;
- 客户端与服务端之间网络故障恢复后,网管客户端无需重启,自动恢复,数据库停机/故障恢复后,网管系统客户端、服务端无需重启,自动恢复,支持双机热备功能。