选型宝访谈:怎样建立全栈可视化+可追溯的IT监控能力?

当应用程序变慢、业务中断,用户开始投诉… 基础设施、网络、应用、用户终端设备……如何以最快的速度,透视整个IT环境,找到问题根源?

当问题间歇性出现,如何追根溯源,彻底解决哪怕是偶发性问题?

以上这些场景,相信对于每一位运维总监,都不会觉得陌生。

然而,现实的问题是,今天大部分运维工具,都只负责管理IT环境的某一层,例如NPM、APM….直接导致的结果,就是排障效率低下、用户投诉多。

这就引出了当前IT运维工作的主要矛盾:用户日益挑剔的体验要求+日益复杂的IT环境,与碎片化、割裂式的运维监测工具之间矛盾。

对话内容

选型宝:我们注意到你们提出DEM(数字体验管理)这个概念?这个概念背后反映出怎么样的一种IT运维理念?

杨立军:一个大的背景是,用户对运维管理很困惑,其实我们有很多不同类型的软件工具可以选,甚至我们已经用了很多工具,但是我们好像没有解决运维的核心问题,所谓核心问题我归纳了九个字,说的清、管的住、用的好。

说得清,就是如果出现任何问题的时候,我能够说清楚我业务系统运行的状态,我能很快速的定位问题,然后把这个问题很好地解决,保证我的业务,让我的业务有一个良性的运行状态,即使我们有很多这样的工具,可是我们还是做不到,甚至我们见过有很多用户做了很大笔的投入之后,还是有这样的困惑。

首先我们来讲,一个企业的IT系统运维真的不是说某一个工具就能解决的,因为我们可以延展出来,任何一个复杂的也好,或一个简单应用,至少有三个层面的因素,客户端发起访问的请求,然后经过网络到达了应用端,至少客户端、应用、网络这三个要素。

所以回到我们今天的主题来讲,其实Riverbed提到这个数字体验管理,强调的是一个完整的端到端的,覆盖各领域各层次的完整管理框架,这是我们想跟各位客户来分享的DEM理念,我们想打破传统的管理藩篱,因为传统管理方案,我们知道网络是网络,应用是应用,数据库是数据库,各自管一摊,现在我们希望能够实现端到端的从应用到网络,甚至到客户端完全打通的这样一个管理平台,在这范围之内从客户端发起任何的访问,只要是我们希望能够去定位去查找到这样的一些问题,我们都有根可循、有据可查。

这就是我们的一个理念。所以我们想实现一个打破原有藩篱的架构,实现一个端到端全域的管理。当然在这个过程当中我们的核心是什么?核心的保障是叫数字体验管理,其实我们所有的这些终极目标是让我们客户在访问应用的时候能达到比较好的体验,这是对外的理念。

选型宝:您刚提到两个关键词,一个是端到端。第二可视化。从外部的角度,你们是想把整个IT资源进行一个集成的可视化吗?
杨立军:是的,是这个概念。我们现在简单回顾一下,我们需要一个什么样的可视化?
首先来讲我们需要一个传统意义上的分层可视化,我们最底层是基础设施,基础设施可以理解为我们的网络设备,我们的计算设备存储设备,甚至我们的客户端使用的终端设备,这些组成了我们交付业务所具备的一个底层条件,这是基础设施的管理。这涉及到每个基础设施网源它的健康状态,它的运行状态的合理性的一个检查,这是从我们最底层的。
往上面跑的就是我们的业务,它在交付的过程就更像是网络上面跑的流量,从客户端发起一个请求,通过互联网也好广域网也好,到达了我们的后端系统,后端系统在不同组件之间再进行流转,它跑的都是这种协议,这是我们第二层,再往上是交易。

所以我们把它分为基础设施管理、性能管理,这包括面比较多,再往上是业务管理,项目交付就是业务了,这个是一层逻辑,所以我们需要三层的这样一个交付。

这是纵向,横向又分什么?首先我们从刚才讲了两点一线,客户端应用网络,所以我们首先要从客户端发起这个请求,客户端本身也是我们管理的一个要点,一会儿我们会谈到为什么。客户端发起了请求之后要走过网络,不管你是什么样类型的网络,是互联网、是专网,它要经过一个很长的传输路径到达数据中心,到达数据中心又会经过一系列的像负载均衡、防火墙、×××,等等一系列的设备再到我们应用服务器区、服务器又可能涉及到多层的处理,所以这是一条长长的业务路径。
这就是我们强调的第二种意义的端到端,一是多层,二是端到端。只有在这么一个二维的空间里,才能够实现我们希望实现的这种全域的覆盖。

选型宝:你们提到的“端到端的概念”,是把用户的终端也作为监测的范畴,对吗?

杨立军:其实我们在传统的NPM也好,APM领域排障的时候,其实都已经考虑到这层因素了。我举个简单的例子,我们在NPM排障的时候,Riverbed的NPM其实已经有很大的应用性能管理的部分了,当时我们在排障用户访问一个页面慢的时候,其实除了server的延迟,网络的延迟之外,其实很大的一个层面上还有来自于哪?来自于客户端的延迟,这是我们在以前的排障当中就已经发现了,也就是客户端那边的等待也好,处理的延时也好,也会影响一个端到端的业务交易。

我们甚至再想一下,任何一笔交易,其实主要是下行的业务,不管是页面的展现还是数据的下载,都是下行的业务为主,但一个客户端处理不过来的时候,它会造成丢包,也会造成服务器端不断地向客户端重传。所以在传统意义上我们就已经发现了很多客户端层面的问题,造成了业务的不正常,甚至有的时候客户反馈说,我就在某一个营业部,那几台终端有问题,其他终端没问题。

通常遇到这种情况的时候,如果用传统的方式,其实都没有特别好的手段,因为传统的方式无论在数据中心部探针,还是在服务器里装Agent的方式,其实都不能够很有效的去触及到远端的节点,远端的终端,甚至节点都很难,更不用说那些分布的比较广泛的终端了。但是其实终端也是造成业务性能的一个很重要的一个节点。

我再举一个例子,我们有一个跨国公司,用户用了O365、微软的统一通信。其实他后来发现很多的用户,他在加入会议的时候或者做一些桌面分享的时候,都会有各种各样的问题,但是这些问题分布在不同用户上,而且是随机的。尤其当它通过×××也好,通过互联网方式接入的时候,其实很难去追溯。所以不管从我们的工作,从客户的需求。其实越来越发现很多问题是跟客户端有着不可切割的关联关系。

所以,终端也是交付数字体验管理的重要一环,终端展示出来的结果那是交给用户的,终端有什么?有智能手机,有智能终端,有我们的笔记本电脑。终端层面也会有一系列这样的因素造成我们交付的效果不理想。当不理想出现的时候,你不能有效的定位,你会花大力气在你的网络,在你的后端,其实叫做南辕北辙。

选型宝: 你们可以针对每一个应用,每一次交易来监测它的数字体验。那么什么场景下用户需要进行这么细颗粒度的检测?然后这种监测能够带来的价值是怎样的?

杨立军:其实就我的理解,因为管理一个是实时层面的,一个是回溯层面,这两个层面来看。实施层面来讲,更多的是说我在业务系统运行当中,我及时发现一些问题隐患,然后及时的我就去干预,去处理。让客户在还没有严重感知前提下,就已经修复了这个问题,这是最理想。

还有一种,有一些问题可能不能够避免,当这些问题出现了以后,我们要去查根排因,排除这个问题的原因,这是要回溯。

其实不管是实时的也好,还是回溯也好,在一个企业范围之内,我听到客户讲的这个需求,就是我们不希望遗漏每一比访问交易,一方面从业务的角度来说,客户希望能够保存我每一笔的交易;从运维的角度来说,是我们能够有效的进行问题的追溯,然后跟根因的查找,帮助快速定位问题,然后解决问题。

我们其实发现即使有很多用户已经用了很好的工具,但由于各种原因没有采集到原始数据,没有采到完整的数据,其实也会对排障造成一定的影响。

我们在帮客户排障的时候,通常会发现你在数据采集上面有些遗漏。比方说你数据不完整,比如说你只采集了单边的数据,或者是采集异步的数据。所谓异步数据就是说这个数据的一部分流量你采到了,另外一部分回去的流量,它从另外一边走的,你没采到,这些都会影响具体排障。

选型宝:云正在快速改变企业的IT环境, 你们对云的支持是怎样的?

杨立军:是的,其实现在我们行业,NPM这个领域,或性能管理这个领域,这些厂商遇到很大的挑战之一就来自于IT系统的革命,应用、服务往云上在迁移,在这过程当中应用不止存在于我们的数据中心里面,那这时候我们原来在数据中心里的各种手段,好像突然就不管用了,边界消失了。

再有一个我们用户也不在我们的数据中心里了,也不再从他的专网进来,他可能移动出去了,所以移动出去也有可能是×××回来,×××回来还好,他走到内网上来;还有可能他直接去O365访问了,所以这时候带来的挑战,不管用户还是说应用全都出了我的管理范围,但是作为IT,我们还是要保证用户的体验。

过程当中有很多盲区,我们其实很久以前就已经关注这个问题了,不管是说对访问SAAS的,访问IAAS的,其实我们都有一系列解决方案。我举个简单的例子,访问SAAS,刚才谈到访问SAAS是我们最难管理的,这就是刚才谈到我访问O365,访问Salesforce,或者一些我们国内的一些其他的SAAS业务,那都会面临这样的挑战。

那我们把这个管理铺到哪去了?放在终端体验管理层面。我们所有的这些访问都是要通过终端的,这点是肯定的。如果我们把管理的目标放在终端上面,我们能看到你访问企业内的,也看到你访问云上的各种各样的资源,所以即使你的整个访问交易不经过我的数据中心,我同样能跟踪到你访问各种SAAS业务的问题,甚至可以细化到说你做一个Login,你做一个重启,或者你做一个所谓转账也好下载也好,每一个细小的行为都可以在我的范围之内。

甚至我会跟踪到你是不同的平台,那你是说安卓平台容易出问题,还是说Apple平台容易出问题,是Windows还是Mac,这个我都可以纳到我的管理当中来。所以即使你不在我的范围之内,我同样对你的问题可以做到,能够说得清,管的住,用的好,这个是SAAS业务。

那还有一个IAAS业务,我们会把我们很多的计算,我们应用的服务放到公有云上去,有可能是混合云,它还要连回来,还有各种各样的情况,那我们现在不能够获知的是说,这些应用在云上面运行时,他们之间访问关系的好坏,我这周刚从一个用户现场回来,他们在业务上云以后,在云内的两个子网之间的访问就出现丢包,甚至造成业务的失败。这个其实带来一个非常大的冲击,我们如何管理云上的业务,那这些问题原来在我们的数据中心里面,都是很容易解决的,但是到云上面我们怎么去定位,定位之后我们怎么跟云供应商去协商去解决,这都是带来挑战。

那在这个环境下我们也有APM、NPM解决方案,我们可以在云里面的主机上面加装Agent方式来进行管理它的应用性能,也可以在云里面部署我们的NPM,把网络流量送过去进行分析。现在我们也有APM、NPM不同形式的解决方案,在公有云上可以落地了。所以基本上对于IaaS、对于SaaS,我们现在在我们的端到端的领域之内,还是能够有我们自己很好的覆盖。

选型宝:谈谈AI,AI怎么去帮助我们提高运维效率?

杨立军:这是特别好的问题,其实这也是很多用户在跟我们讨论的时候会谈到的。举个简单例子,一个防火墙可能在一个小时之内产生的log可能达到几个G,人去分析这几个G的数据可能要两周以上,但是我真的花两周时间去分析完数据之后,这个事情早已经过去了。

其实到我们的性能管理领域也是这样的问题,刚才讲了,我们全域的管理,不管是从用户端网络,还是到APM还是我们的基础设施。这几个层面都会在数据测量监控过程中,产生大量的原始数据,同时产生大量的分析数据,这些分析数据是海量的。原来的情况下,这些工具分析的数据还可以给我们的管理员自己去分析去看,现在数据送过来以后,其实已经远远超出我们人能处理的能力了。

从这过程当中需要我们有一定的自我分析能力,那这可能就是,您提的AI作用,那AI在整个性能管理领域,其实也提到一个非常高的高度上来了,像Gartner在定义整个行业的技术领域的时候,谈到AIOPS,其实大方向上来说,我们就是要实现AIOPS。我们要对这些数据,不但能够准确及时的测量产生送出来,存储下来,我们还有一个实时的,包括回溯的这种分析能力,我理解是对AI的这样一个定位。

那整个性能管理领域。其实AI最近几年才开始这么讲。在前几年,其实Riverbed的这样的厂商,已经在做类似的工作了,最早的方式是说基线,基线这块,其实是一个很大的工作量,即使我们手工定义的话工作量也非常大。如果再去跟踪它,又是一个长期的工作,所以是一个非常消耗人力资源的这么一个领域。我们刚才谈到几个领域的指标数据,其实在几年以前我们就已经开始做这种机器学习,当时我们定位叫行为学习,就是形成一个动态基线。

这是动态的对同样一个指标,它可能只在周一的早晨是那个值,周二的早晨,可是另外一个值。一般机器学习要我们通常需要一段时间,至少两周,学习整个运维的规律。

所以机器学习阈值其实作用是非常大的,它能够很大程度的解放我们的生产力,解放我们人力在这上面的一些投入。这还只是一个开始,后面还会有指标的关联分析,现在我们也在做这样的探索,我们的产品已经有这样的形态了,当某项指标异常的时候,我只是单机一键关联分析,它会把这个指标相关联的、分布相近的所有其他指标列出来,这样对于你的问题定位就有很好的帮助,我们也是朝着这个深度的智能学习的方向在发展和探索。

我们用户现在也有一些愿景,和我们在一起交流的时候,他们希望未来这个系统真的是自己在运行,让系统自己通知人,我今天系统运行的怎么样?哪些地方有问题,如果发生什么的话,会影响哪些业务或者哪些节点,当然这是一个愿景,但是既然我们能想到,只要我们技术手段慢慢的去发展,相信有一天它就能够实现。

选型宝:那刚才我们谈了很多,端到端的集成可视化、细颗粒度的每一笔用户每一个应用的监测,从对云的支持、AIOPS,然后如果请您系统总结一下SteelCentral这个产品的特点的话,您会用几个特点来去概括它呢?

杨立军:好的,我就说最重要的三点,其实它的特点可能还很多。

第一点就是它的集成化,我们可以把APM、NPM、EUEM终端用户管理以及到基础设施管理,多个领域能够集中在一起,我可以放在一个视图里面,按照我们希望的方式来展现,也可以把他们的事件进行集中统一编排也好,主动的分析关联。

那第二点就是它贴近业务,因为我们现在可以定义各种各样的视图,然后让他能够更多的贴近我们的业务,体现我们业务。就是我们整个端到端的系统的一个核心,就是保证我们的这个业务。

第三点当然其实我觉得这三点是一回事,就是正因为我们是一个全业务全领域的覆盖,所以我会产生大量的丰富的测量数据出来,各种KPI数据出来,其实这些数据通过所谓机器学习再通过关联分析,它能够产生出大量有价值的分析结果。

这个我个人觉得比较重要的三点。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值