首页评论正文

系列专访:新IT时代的技术路线怎么走?

作者:商灏

来源:华夏时报

发布时间:2018-09-14 18:23:36

摘要:这个所谓DT时代或新IT时代与过去的IT时代有何不一样?如何帮助用户沿着合理的技术路线实现既定的工作目标?这看上去真是一种充满未知因素的旅程。

系列专访:新IT时代的技术路线怎么走?

商灏

从信息技术(Information Technology)到数据处理技术(Data Technology),技术变革的浪潮不可阻挡,并早已开始渗透到生活的细微之处,恰如马云所云,“人类正从IT时代走向DT时代”,亦如官方所言,“我们正在进入新IT时代”。

这个所谓DT时代或新IT时代与过去的IT时代有何不一样?如何帮助用户沿着合理的技术路线实现既定的工作目标?这看上去真是一种充满未知因素的旅程。

就产品与技术、产业与市场的发展趋势而言,过去二三十年间,中国政府各部委、各大金融机构、各大央企所建立起来的当时最先进的安全稳定运行的IT系统,其效率现在多大程度上落后于实际的需要?其先进性、安全性、稳定性,当然已经受到新技术、新产品的挑战,面对算法技术的变革,上述系统既迫切想革新,又担忧革新带来安全稳定运行的风险。因此,这样一个庞大的市场,对于产业界而言,毫无疑问既有无限诱惑,也有重重阻碍。尤其对于IT厂商而言,所必须面对的最大问题是什么?是消除用户疑虑,并尽一切可能保证用户不掉进坑里?工业界和学术界如何密切合作实现应用技术的突破?——一家人工智能公司和一家大数据公司以及一家研究人工智能运维的学术机构的负责人,新近就上述问题向本报发表了看法。

1.天云大数据CEO雷涛:现在新技术概念的方向特别多,避免误入歧途的关键在于对系统架构有清晰认知

一个令人瞩目的现象是,当前在通用人工智能市场,投资快速增长。许多很活跃的企业不断受到投资者追捧。天云大数据公司CEO雷涛说,这个市场现在都是百亿以上的体量,短期内两三百亿量级都很轻松。从融资的角度看,或从企业服务角度看,雷涛认为,现在泡沫吹得很大的就是人工智能。但在市场上,人工智能的真正价值并未凸显出来,仍然都是早期的一些应用级的AI项目,像人脸识别、无人驾驶、聊天机器人这些应用级别的人机交互,它们是更容易被人理解的AI。从产业内部的角度看,由于现在需要有更高阶的技术处理能力,需要有更高阶的科技力量,这对产业内部的维度是一次彻底的颠覆和革命。传统的数据库,有存储,有服务器,但现在,存储和服务器合并在一起了,以后不会再有单独存储的概念,这些在分布式计算领域带来太多对原有IT世界的革新,和对IT阵营的洗牌。

于是笔者问他,从IT到DT,产品和技术飞速发展的趋势,产业和市场急剧爆发的趋势,该怎么看?它带给业界、带给用户什么样的不安和启示?

作为很早就参与了北京市祥云工程的资深IT技术专家,雷涛认为,从历史来看,每一项新技术都需要一些早期采纳者,而这个早期采纳者,通常就是银行。它们貌似保守,但它们技术的成熟度较高,对一些新技术较快达成共识,先行采纳。这使得人工智能、分布式的计算等核心技术较快在银行落地,就像Gartner(高德纳公司,全球最具权威的IT研究与顾问咨询公司)技术成熟度曲线一样,确实因为有一些早期采用者能够很快对这种新需求和新技术产生碰撞后的共识,天云大数据公司才有了后来的各种Fintech(金融科技)的称号。

从行业角度看,雷涛的观点是,IT和DT的变化来自于原有的流程驱动面向数据驱动,这意味着商业流程再造。以JAVA数据库为核心的技术推动了整个IT二十年的发展。但现在我们越来越多的发现,数据科学的驱动,一些基础的算法改变了我们原来基于经验和流程设计的那些商业构建。IT向DT转换的过程,就是信息化数据科技带来流程驱动转向数据驱动,数据变成真实有效的生产资料。

焦虑的CIO需要选择如何面向新需求

这一技术发展新浪潮中最主流的东西到底是什么,将会如何影响用户的选择?雷涛说,按照现在市场上一般的看法,三架马车并驾齐驱,数据、算法和算力,三个缺一不可,它是一个螺旋上升的过程。首先没有算力支撑不起现在的大规模数据,有了数据才需要更多的算力,拿这个算力才可能驱动现在新的算法。所以,如果从核心技术看,数据、算法和算力三个都非常关键。光强调算法,没有一个持续有效的数据供给,不是一个好的生意,没有实现的闭环,数据不能够重新去训练算法。如果拿算法去解决一个one off一次性工具的话,这个效果不好。所以这一次的技术革命实际上是一个融合性的创新,而不是某一个单项技术的革命,它是融合的产业创新。就像瓦特发明蒸汽机,最后真正对产业结构发生根本性变化的是轮船业,它最后改变了航运的效率和规模。

面对技术巨变的趋势,部委、大企业的技术主管们,现在有什么样的焦虑?

雷涛表示,CIO的焦虑肯定是存在的,因为他感受到了新技术断崖式的变化,这场断崖式的变化就是分布式计算真是一次大洗牌,全方位的洗牌,把整个原来的信息化结构改变了。这也就意味着原来沉淀下来的壁垒最高,最能保护自己的那套知识体系现在有些崩塌了。而在需求驱动层面,原来的IT部门更多是一个支撑部门、成本中心,其需求来自业务方。业务方提要求,IT部门解决成本效率的自动化问题,这是IT系统带来的便利。但在人工智能这里,业务方开始直接跳过IT部门,通过算法主导了这一次的变化。我们看到很多项目都是这样。所以CIO们开始面临着不仅仅是自己技能短板的焦虑,现在越来越多的数据服务不是产生于IT部门内部,而是直接从一线的数据员,一线的业务端采纳了一些新的方法以后,跨越式的跳过了IT支撑的环节。拿海关来说,现在缉私,或追查逃税的人群,其实都是用算法来实现的,而不再用代码一行一行的写出一条一条规则,把经验沉淀下来再抓那些逃税的人。所以,CIO的焦虑,是客观存在的。

笔者问雷涛,进一步看,现在部委、大企业的IT系统,曾经用了当时最先进的设备,即便仍然继续稳定运行,但效率是否已经远远落后于实际需要?由此产生的焦虑是否客观存在?是否还有另一种焦虑:想用新技术,又怕随之可能造成系统不稳,安全出问题。这是否是最大的焦虑?

雷涛认为,这还是需求导向驱动,如果是对原有信息化系统的一个替代,这个顾虑是客观存在的。他说,现在我们发现,新系统并不是对原有系统的替代,而更多是在一些新的零消费市场里新的出现。以风电行业为例,这个行业原来更关注的是整个生产流程自动化,ERP系统的数据用传统的IOE结构支撑是没有问题的。往往动到新的大数据,为什么是运营商先动,金融先动,是因为他们开始关注到了在传统的后端运营管理系统之外大量用户的行为数据,传感器物联网那些机器的数据,这些数据无论从规模还是其产生的持续密度和连续性还有频度上,远远大于其商业交易的数据,传统IOE这时候做不到了。这个时候CIO面对的选择就是面向新的需求,其风电什么时候该换,什么时候该去做运维,怎么去智能的预测什么时候该换齿轮还是换螺丝了,这些关键部件失效的预测来自于大量的物联网数据。而原来信息化系统没有这个数据反馈,我们将这个市场叫做零消费市场。

DT的本质有三个核心支撑:算法、算力、数据的商业化

所有的国外创新都是零消费市场才会出现,很多创新都来自于新的需求不断的挖掘,因为数据资源出现了。因此对于CIO而言,最关键的是他需要开始把目光从流程转向数据。雷涛认为,哪些数据资源是可被实现和挖掘的,那些数据还没在系统,已经沉淀在磁盘上的数据往往价值有限。更多大规模的数据没有被关注和采集。比如银行大量的行为数据是客户之间的,不是存钱取钱这种交易数据,而是用户大量的非金融类的相关行为数据。

所以首先必须把关注点放在数据上,而不是在流程上;第二是要关注数据科技人才的培养,因为这是支撑流程再造的根本。必须能够组织新型的人才支撑技术应用的变化;第三是能够找到一些试点的项目,在组织边缘做一些创新、试点项目,这样的话能够了解新技术,锻炼新团队,能够适应DT的过程。

怎么认识DT的应用范围和深度?雷涛认为,对DT应从两个维度去理解:第一是data,以前很多人认为从数据本身的数据集描述的时候它有几个V:Volume(体量大)、Velocity(速度快)、Variety(多样性,种类多)、Value(价值高)。但我理解的DT如果局限在数据集的描述,这是IBM厂商的思路。因为当你讲完了这四个V,就基本就能够知道能不能对号入座买昂贵的IBM设备了,这是一种市场策略。其实我看DT的本质,它有三个核心的支撑,第一个是算法,第二个是算力,第三个是数据的商业化,怎么去定价、交易、流通。所以这三个核心事实上是商业、IT和科研三者融合。所以全是DT的核心。

DT革新的速度和周期有多快?雷涛说,从算法的迭代上可以看出,以前的算法迭代15年一个周期,现在算法迭代三、五年一个周期,论文的更新三五个月一个重大的发现。IT迭代的速度最快的核心定律就是摩尔定律,就是以芯片更新的速度来支撑IT的变化。DT在算法和数据上的爆发,却是几何基数的。现在新的万物互联,5G、LVT带来的门锁,越来越多低端设备的智能化,它是数据规模的增长,是一个爆发的过程。

就算法本身而言,算法现在的演绎和推理已经不是在白纸上公式推演的过程了,现在很多算法迭代的过程,比如说怎么用机器解读视频,给视频自动写字幕,对抗神经网络(对抗神经网络是机器博弈出来的结果),也就是说算法模型是机器在自我演绎中创建出来的,人已经从这个制造过程脱离,让机器和机器自己推演,所以这个创建的过程是一个更大基数的过程。

笔者问,“AI的方向是规模化发展”这个判断是怎么得出的?它的意义是什么?答曰,这个判断是在今天这个特定历史时期,在这个时点提出来的,我们已经过了算法精巧化时代。其实在上世纪90年代,谷歌等一批新的互联网公司,就把算法真正投入了生产,验证了很多精巧极致的算法,怎么做语音识别,神经网络怎么做图象识别,但那个时代已经过去了,我们理解这是上一个十年AI的内容。现在,我们要把创造的价值从局部应用的点扩展到更为广泛的商业流程的重塑,这是DT时代的本质,任何一个流程都需要算法替代,这个过程开始需要昂贵的科学家人才才能实现。

用户面对这个趋势应该有自己独特的要求?对,最早应该是在2015年,硅谷提一个概念叫AI的Democracy,然后在技术上也有很多相应的词、概念,比如数据科学的工程化一系列的支撑,都是在相应的不同角度来演绎同一个概念,每一个重大事件出现都是各个因素组合在一起,都是需求、技术的准备就绪这些因素的组合。[]

市场需要提供普遍通用、试错的平台

很多人都知道什么叫人工智能,可以用它来做什么,却不知究竟该怎么做,以及如何在做的过程中不掉进坑里,就是说实现技术目标的路径和经验,到底有多么重要?雷涛觉得,经验固然很重要,但我们现在也面临着一个有太多未知的零消费市场,这个时候,就需要提供给市场一个普遍通用、试错的平台,可以很低的试错成本去总结出行业里独特的经验。这种试错,代价如果很低的话,就会让相应的规模化生产在任何一个角落发生。所以,更重要的是把经验固化成一种工具化的平台能力,这可以让很多人用喝杯咖啡的功夫就越过原来踩的坑或走过的弯路,实现既定的技术目标。

从这个角度看,业内目前有哪些最著名的公司,有哪些产品、技术受到市场追捧?雷涛说,其实这要看谁在追捧。资本市场追捧的是AI应用类,就是垂直端,比如像一些人脸、芯片,要么就是特别底层,我们也看不懂,觉得它未来高爆发性可预期,就是做AI芯片的。要么就是在最表端的,就是能够做到AI应用的,现在人脸识别已经过了那个风口。现在是应用端和芯片端两头被资本追捧。在市场价值上比较受认可的,是那些变现能力比较强的企业,那些能够针对用户流程里的需求做改造,用算法替代以前后端系统流程上一些环节的,比较落地的、工程化的实操能力。

讲到“坑”,那究竟是什么?怎样造成的?怎么样才能非常有效果的避免掉坑里去?笔者最后向雷涛抛出了自己最关心的核心问题。雷涛说他理解的“坑”有几方面表现:第一,是选择方向上的坑。以前结构化市场,有存储有数据库有服务器,现在新技术概念的方向特别多,尤其是在分布式计算里,面向一个多层的计算空间,不是只有一个Oracle,而是有流数据、内存计算、跑P的,MPI的,图的,各种各样的场景计算。这意味着,既然有很多方向,每个方向可能就是一个坑。所以,这个时候,首先就要看有经验的架构师,能否把各种场景对到每个方向上来。比如说现在新的HTAP,混合交易和分析场景的数据库,分析挖掘和在线服务一体化了,这个时候架构师的能力将起到决定作用,否则就要把一个一个的场景都试一遍,那代价就很大。第二,是开元带来的坑。很多坑是被开元挖出来的。开元说,能不能做一个流数据场景?人们突然发现流数据里头有Spark、Stream,有早期的Stone、Flink,也有用Kafka去做的,这么多的计算框架更适合于什么?一方面可以选择某个有优势的场景,另一方面每个有优势的场景都有它的缺陷,需要很牛的人来帮助趟过这些坑。所以,开元进入门槛低,走出来却很难。

对技术本质的透彻认识,和对发展远景的深刻洞察,使得雷涛这样的技术精英可以带给自己的团队比较清晰的思想路径和技术演绎路线与目标,但在当下AI规模化的大好时机,在新旧技术更替的趋势面前,越来越多的厂商已经认识到不能再像IT时代那样单打独斗,而是需要联合有不同功能、不同产品技术、不同服务特征的厂商去打赢市场。雷涛认为,在新的结构形成的时候,联合肯定是最有效的方法,今天随着技术迭代,我们面对的是怎么去跟旧世界的势力PK问题,这个时候必须联合出一个端到端的方案。

2.刘睿民:用户更多的是要选择适合自己的技术,只有通过试错的过程,才会有最佳实践

十年前,SAO是面向服务的架构。在DT时代,一切都发生了改变。面对海量的即时的数据,要进行实时的分析,人工已经远远不能够做到,必须通过机器学习,通过深度学习,通过建模,形成一气呵成的链条,这就是IT到DT的时代大转换。在这个时代,如何保证新技术能够大幅提高系统的效率,新技术能够在哪个层次保障系统安全稳定运行?DT的应用如何少走弯路?在技术发展的新浪潮中,最主流的东西是什么?它将如何影响未来?

老的IT系统依然有路径依赖

柏睿数据公司的董事长刘睿民回答笔者上述问题时表示,DT就是数据科学,数据科学更多是让机器自主的发现规律,它融合了数据库技术、人工智能技术、机器学习技术等,包括云计算的很多创新技术,其实也都为数据科学准备的。刘睿民是从美国回国创业的颇有成就的大数据技术专家,他还是中国主导制定的2018年流数据库国际标准的执笔人、人民大学特聘教授、柏睿数据首席架构师。笔者问他,这个领域哪些厂商处于统治地位?刘睿民认为,这是一个战国时代,没有谁可以一统天下。以前IBM很火,惠普也很火,现在他们都已经掉队了,包括“沃森医生”最近也发生了很多问题。所以这些老的厂商用它老的技术,希望能够继续站在前沿,已经是很难的事情了。但在某一个领域里,比如全内存的分布式技术,这在数据库领域,属于一种前沿技术,从方向上看,谷歌、亚马逊等一些比较领先的厂商,都是以这个全内存的方式实现对新的数据库布局。

国内大量老的IT系统,是否依然有路径依赖,依然有对传统厂商技术的依赖,这会否使得他们面对新技术踌躇不前?刘睿民觉得,某种程度上,很多IT人士对中国自己的技术仍然缺乏信心。尽管中国现在已经能够制定数据库的国际标准,已经可以冲击甲骨文公司的传统市场,但如果技术上仍然没有自信,这将是一个很大的问题。

一些大的金融企业往往更信任传统的国际著名厂商的技术和产品,以保证自己系统安全稳定、有效运行,然而在当前面临着系统效率和安全性进、稳定性进一步提升的迫切需求的时候,对于选择什么样厂商的产品和技术这个问题,他们是否有选择性困难,并因此可能给自己的系统带来危害?

刘睿民称,这种危害其实是显而易见的。比如一些很小的金融机构,他们也许身处北京某个SOHO的办公室里,但它可以做金融科技的变革,通过新技术跟互联网和移动互联网的结合,去颠覆某一金融领域原来传统的非常死板的流程。而选择那些老牌的国际大公司,他们的技术已经落后了,看上去比较安全,却只能导致使用者自己更落后。很多情况下,采用新技术,可能会带来不稳定,但不稳定的同时,其实更多的感知到了市场的机会,而抓住了机会就能抓住更多用户,让他们体验到更好的服务,这是从整个变革当中应该去认清的很现实的问题。所以,动力就来自于变革才能带来进步,才能不断在市场赢得成功。

新技术应用范围和深度非常令人惊奇

DT技术变革的魅力到底在哪儿?其实从生活中人们已经有很多感知。刘睿民举例支付宝,认为其通过数据挖掘客户需求,知道哪些客户需要类似于像这种按天来计的基金形式。他还说到,人们使用京东的时候,在什么时间它会推送给你一些消费信贷,这些也都是基于数据科技才能达成的目标,类似这些东西在我们生活当中都已经开始出现。“我今年在贵阳参加数博会的时候,就看到已经有非常多的技术改变的应用展示。比如通过摄像头识别罪犯的人脸识别技术应用。我们最近也在跟人脸识别的公司紧密的合作,人脸识别也需要数据库,数据库的速度要跟上,很多人脸识别的公司底层还要买SQL这样的数据库,首先我们不谈它的安全性,光从性能上面其实是不能支撑大规模的人脸识别的应用场景的。

新技术应用的范围和深度非常令人感到惊奇,对于技术创新公司而言,技术创新的热情来自于哪里?刘说,技术创新的热情驱动很简单,既有市场会重新洗牌,创新者可以得到既有市场的一些份额。而在非既有市场、增量市场,很明显,那是新技术首先要抢夺的份额,每一次技术变革都发生同样的故事。同样,旧的技术都喜欢停留在那里,觉得它能够熬过去,但最后都没熬过去,都是新技术把它们颠覆掉,一点点的蚕食,老的技术也因此不得不做变革,否则就会被淘汰掉。

在技术更新的速度方面,刘睿民认为变化的周期比以前更快了,基本上两年左右。我们看到,从大数据到人工智能,再到区块链,每两到三年左右就有一波新的东西出来。而云的出现很大程度上是因为有移动互联网,很多中小商户可以通过移动APP直接接触到客户,但他们又没有维护这些小程序背后的能力,所以就出现类似于公有云,大家都可以租用它的空间,租用它的计算能力,租用它的带宽,然后通过移动APP来提供服务,而且是稳定的服务。因为最早的移动APP不是一个稳定的服务,它是通过各厂家的服务器给大家提供服务。APP出来以后就催生了大数据,因为每个APP就相当于一个传感器,它要感知某个人之前发生了一些什么事情,他对每一个栏目里面不同商品或文章的感知,他的各种动作都在这里体现,而这些数据被收集下来以后(这些数据比原来大的多,几乎是原来的基本上百万倍的规模),如何保存?因为数据只有保存下来才能做分析——所以这就是几步演变的过程。

刘睿民认为,在分析这些数据的过程中,有可能发现很多是重复的数据,根据这些重复的数据怎么样能够在重复的过程当中推理出一定的规律,这个推理的过程最后就使用到了机器学习的算法和深度学习的算法。继而催生了像GPU的大量使用,因为原来GPU的使用是处理图片的,尤其是在游戏里面处理图片,它恰好被用来处理网络上大家拍的大量的照片。

为什么会产生区块链?区块链最主要的作用是保护用户的数字资产,用户的数字资产怎么样能够被保护到不被别人篡改,不被别人盗用,整个过程其实都一环套一环。所以,你看,整个技术变革的浪潮,就这样一波一波,并且现在周期明显加快。

新业务用老技术往往是掉到坑里的前奏

在使用大数据基础软件支撑人工智能的运用,以及在应用最先进的区块链的过程当中,技术目标或技术路线的确定,如何能够让用户少走弯路,或不掉进坑里?

刘的观点是,老的技术可能对原有业务还有支撑能力,但对新业务的支撑就可能有点勉为其难。老的技术,更多的因为它相对比较稳定,老的业务系统相对来说也比较稳定,但对于一些新业务,要敢于用新技术,因为新业务再用老技术,往往就是掉到坑里的前奏。想要用旧瓶子装新酒,这在技术领域经常会犯错。

面对新技术新产品,用户怎么样不被厂商绕进去,不走弯路?刘表示这个问题确实还比较难解决,因为每一用户都可能有自己的长处,毕竟没有一个技术是完备的,它可能会有自己的一些不是特别擅长的地方。这个过程当中,用户更多的是要选择适合自己的技术,用户自己要有一个评估体系,在这个评估体系之上,可以选择一些不同的技术做搭配,这在某种程度上可以理解成一种最佳实践,而只有通过试错的过程,才会有最佳实践。

对CIO来说,能够做的事情更多的是能够识别哪些是适合自己的技术,而不是追求哪些技术是最新的,只有最适合自己的技术才对业务最有帮助。

目前竞争中受到用户追捧的,或者有可能成为用户追捧对象的这类公司有哪些?刘睿民称,在数据库领域,比较明显的有SAP,HARNEL;还有像亚马逊,“我们最近在写标准的时候才发现亚马逊的AWS里面的流数据库的分析数据是从硅谷的一家小公司OEM过来的,这说明技术不是有你没我,其本身是一种合法的商业的处理方法。所以这某种程度上其实这也是比较新奇的从侧面证明了我们流数据库的方向是正确的,同时我也可以很自豪地告诉大家,我们的性能要比这家硅谷小公司的性能好,功能比它还要全。”

刘说,我们还看到几家比较重要的公司,包括像AMIT,就是麻省理工的一家公司,他们也是往这个方向转,原来他们是做全内存的交易型的数据库,现在也在开始转去全内存的类似于像分析型的数据库。这都是业界的趋势,包括那些比较领先一些的厂商。

3.清华大学智能运维学者裴丹:智能运维算法需要工业界和学术界密切合作实现技术突破,需要在实践中更好的落地

清华大学计算机系副教授裴丹博士,曾在美国AT&T研究院学习和工作,AT&T研究院前身是贝尔实验室的一部分,大概有200个博士,有C++发明者、防火墙之父,裴教授在此发表了23项运维相关的专利。之后他回到清华继续从事运维科研。

裴教授所在的清华大学NetMan实验室,做的科研基本上都是跟运维相关。他认为,工业界、学术界应该在运维领域里面能够密切合作,各取所需。工业界有很多实际问题,有很多经验,也有实际的数据,学术界有时间,有算法,有学生,大家一起结合,这样就会产生很好的效果。

作为一位运维专家,裴教授曾在美国一个30万人的大公司里面主要通过大数据分析的方法做运维,是基于大数据技术管理网络和应用的性能,各种网络协议、IPTV、Video等等;回到清华做科研后,开设的也是网络性能管理/应用性能管理相关的课程,所有的科研都是跟运维相关的,在国内工业界的合作伙伴包括百度、阿里、腾讯、滴滴、搜狗、微众银行、华为 等。

智能运维现在已呈现一个很清晰的趋势:从基于规则的智能运维自动化逐渐转为基于机器学习。那么,智能运维在中国落地和发展所必须面对的挑战是什么?思路是什么?要解决哪些关键问题?

智能运维今后几年将有长足发展

裴丹说,智能运维是指在互联网中的大型分布式系统不断处理海量用户体验、性能、稳定性、安全事件,从而达到如下效果:

能够准确的复现并诊断过去发生的事件;

能够及时准确的检测、诊断当前正在发生的事件,并确定最适合的应对方案;

能够相对准确地规划和预测将来可能发生的事件。

由此可以看出,智能运维是人工智能(机器学习)、互联网运维领域知识、工程开发的交叉领域,三者缺一不可。

裴丹介绍:智能运维常用到的机器学习技术包括相关性分析、回归、关联分析、聚类、决策树、随机森林、支持向量机、隐氏马尔科夫、卷积神经网络、LSTM(Long Short Term Memory) 等等。这些算法在各种(开源或闭源的)工具集中都有现成的代码实现。智能运维的一个主要挑战是根据具体需求评判应用哪些机器学习算法,并适配或改造。

基于如上机器学习技术的具体智能运维技术包括:

1.面向历史事件的: 批量根因分析、瓶颈分析、热点分析等;

2.面向实时事件的: KPI异常检测、日志异常监测、事件关联关系挖掘、报警聚合、快速止损、故障根因分析、止损建议分析;

3.面向未来的:配置管理、容量预测、趋势预测、故障预测、热点预测等。

智能运维呈现怎样的的发展趋势?其与APM(应用性能监控),操作系统性能监控,数据库监控,网络监控等技术是怎样的关系?裴丹称,智能运维正在经历由“基于人为指定规则”到“基于机器学习”的转变,我们将来会看到越来越多的科研成果和实际系统采用机器学习算法做为基础工具。目前机器学习在一个领域取得广泛成功有几个要素:可用的开源机器学习系统、实际应用场景、大量数据、大量标注,而智能运维恰好具备这几类要素。所以,他觉得基于机器学习的智能运维在今后几年会取得长足的进展。他强调,这些基于机器学习的智能运维技术是APM(应用性能监控),操作系统性能监控,数据库监控,网络监控等技术的底层基础技术,因此智能运维的发展会大大促使上述领域的发展。

自2016年以来运维行业蓬勃发展,新技术大规模推广,如容器与微服务,配置管理工具,DevOps,SRE这样的概念和思想的落地,还有很多运维方向的公司都拿到了大手笔的融资,怎样看当前运维行业的发展?

裴丹说:首先,上述新概念和思想的落地是运维行业的大好事儿,这标志着运维行业已经逐渐脱离了人工和经验(dark arts),而转向一个真正基于技术的行业。容器和微服务的不断落地,会使得一些过去可行的技术(比如基于人工置顶规则的根因分析)遇到瓶颈,需要新的智能运维技术来适应容器和微服务等底层技术的更新。同时,不少运维方向的公司都拿到大额融资,把大公司的运维系统及技术提供给中小企业使用,这也是一件大好事。更多的企业在应用运维技术的生产实践中,会不断的产生新的挑战,相应地会有新的技术和解决方案提出来,会对整个智能运维行业的发展产生强烈的促进作用。

他认为,用发展的眼光看,未来SRE这一职位除了目前强调的互联网运维领域知识、工程开发的结合以外,也会逐渐强调机器学习技术的应用。

裴丹还向笔者介绍了智能运维中,运维工作人员与机器的分工。他说,机器将成为运维人员的高效可靠助手,逐渐替代人力完成基础性和重复性的基层运维工作。对于较为复杂的运维问题,通过不断向运维专家学习,从而向运维人员自动提供决策建议。

他认为,将来的智能运维人员可能主要有三种:经验丰富的运维专家;熟悉运维场景的机器学习专家;智能运维系统开发者。

运维专家有三项职责:人工处理那些机器还不能处理好的运维难题,基于经验根据机器给出的决策建议作出最终决策,不断训练机器。算法专家不断应用最新的机器学习技术设计智能运维算法。 系统开发者不断实现和集成 算法、数据采集和自动化执行脚本。

裴丹曾在在美国做过很长时间的运维工作,对于中美运维行业发展的差别,他的看法是,总体来说,美国运维行业在运维理念和智能运维技术的创新比国内要多一些。

首先,美国的运维行业工作历史悠久,AT&T电信网络的运维在几十年前就开始了,并且依赖AT&T的科学家们,发明了很多智能运维算法,发表在计算机网络领域的顶级会议(如ACM SIGCOMM)和期刊(如IEEE/ACM Transactions on Networking)中,并引发了学术界的深度参与,这些算法的核心思想有不少在现代互联网中仍然适用。

互联网兴起后,大型互联网公司在生产实践中不断深挖运维问题的根源,提出或深入实践了微服务、容器、DevOps 等先进理念。国内运维业总体上来说还处于应用已有先进技术的阶段,但是在一些局部的技术点上(比如普适异常检测技术)也走在了世界的前列。

他表示相信国内的运维行业在国内互联网行业不断高速发展的促进下,在不断增多的国际交流的帮助下,一定能够逐渐自主提出并实践原创的理念和技术。

工业界和学术界应密切合作实现技术突破

展望未来几年的运维领域的技术发展,裴丹认为:在国际范围内,越来越多的先进机器学习技术会被应用到运维领域。一些智能运维的关键技术,会逐渐通过工业界和学术界的密切合作被突破,比如异常检测、异常定位、异常事件关联等。更多的预测型的智能运维技术会被提出并实际应用,比如故障预测、热点预测、容量预测等。

对国内的运维人员的发展,裴丹提出了几点建议:除了提升代码开发能力,希望国内运维人员有意识的提升应用机器学习技术的能力,并不断实践。国际上“基于机器学习的智能运维”的实践也只是刚刚兴起,因此,就像中国的人工智能被认为有可能实现对美国人工智能的弯道超车一样,裴丹说他相信国内的运维行业只要足够重视并不断尝试实践,完全有可能在“基于机器学习的智能运维领域”实现对美国运维业的弯道超车。

关于智能运维技术如何落地的问题,裴丹说,在目前这个阶段,智能运维科研想要继续往前推进并取得更好的成果,需要把智能运维里的一些关键算法定义好、分解好。这是智能运维落地的一个关键步骤和手段。

他表示,现在智能运维很热门、很火爆,大家都感兴趣。但智能运维落地的核心挑战是:从工业界的角度,我们有数据、有应用,但是缺乏一些算法和经验;从学术界的角度,我们有不少理论算法,但是缺乏实际的数据以支持科学研究,也不熟悉运维的场景。“尽管我已经工业界和学术界的合作方面有了很多实践,但我切身感受到,相对来说,这种一对一的交流效率比较低,且见效慢,特别不符合当前的开源开放的趋势。”

因此,裴丹提出的解决思路是,以科研问题为导向,将我们在智能运维领域需要解决的一系列挑战性的问题,定义成切实可行的科研问题。这样,就有明确的输入和输出。在这种情况下,如果我们的企业能够拥抱开源开放的趋势,把数据开源出来,就能让学术界更多的研究人员参与到研究智能运维有关的算法中来。

从智能运维发展历程看,最早出现的是手工运维;在大量的自动化脚本产生后,就有了自动化的运维;后来又出现了DevOps和智能运维。在运维的过程中,涉及到的步骤可以概括为:产生海量的监测日志,进行分析决策,并通过自动化的脚本进行控制。运维的发展过程,主要是分析决策步骤发生了变化:起初,由人工决策分析;后来,在采集数据的基础上,使用自动化的脚本进行决策分析;最后,用机器学习方法做决策分析。

根据Gartner Report(加特纳报告),智能运维相关的技术产业处于上升期。2016年,AIOps(基于算法的IT运维)的部署率低于5%,Gartner预计2019年AIOps的全球部署率可以达到25%。所以,AIOps的前景一片光明。

如果AIOps普遍部署之后会是什么样的?

裴丹分析说,从机器的角度来看,基础性、重复性的运维工作现在都交给计算机来做了;同时,机器通过机器学习算法为复杂的问题提供决策的建议,然后向运维专家学习解决复杂问题的思路。从运维专家的角度看,运维专家主要处理运维过程中的难题,同时基于机器建议给出决策和训练机器徒弟。运维工程师将逐渐转型为大数据工程师,主要负责开发数据采集程序以及自动化执行脚本,负责搭建大数据基础架构,同时高效实现基于机器学习的算法。机器学习科学家主要负责AI的落地应用。智能运维领域相对于其它AI应用领域的优势在于,我们不仅有大量的应用数据,而且有实际的应用场景和部署环境。因此,人工智能在计算机视觉、自然语言理解、语音识别之外,又多了一个落地应用——这是一座尚未开采的金矿。

裴丹说,智能运维科研门槛高。

从工业界的角度看,因为智能运维需要三方面的知识:

第一,要熟悉应用的行业,比如说互联网、电信或者相对传统的行业,如金融、电力等等。

第二,要熟悉运维相关的场景,包括异常检测、故障预测、瓶颈分析、容量预测等。

第三,虽然工业界熟悉运维行业和场景,熟悉生产实践中的挑战,也有数据。但是,工业界并不熟悉整个智能运维中最重要的部分——如何把实际问题转化为算法问题(后面会讲到如何把实践中的难题分解成多个算法并逐个解决)。同时,工业界也不太熟悉查阅科研文献,特别是跨行业的文献。因此,智能运维是一个需要三方面领域知识结合的高门槛领域。

所以,裴教授和他的团队正通过自己的一些努力,来降低工业界部署智能运维的门槛。比如,清华的实验室运营了一个微信公众号,叫做“智能运维前沿”。基本上两三周推出一篇公众号文章,介绍世界范围内智能运维的前沿进展。

智能运维算法需要在实践中更好的落地

在学术界中,很少有人做智能运维方向。这是因为,对于学术界来说,进入到智能运维这一科研领域具有很强的挑战性。为什么?

虽然学术界研究人员的算法能力相对较强,但是他们往往不熟悉行业和运维领域的相关知识。而智能运维处于三个领域的交叉部分。这就导致智能运维的门槛比较高,需要花大量的时间和精力才能进入智能运维领域。

在推动降低工业界进入智能运维的门槛的同时,裴丹的团队也在努力推动降低学术界进入智能运维领域的门槛。他还曾应邀在《中国计算机学会通讯》上发表文章,向学术界的同行介绍智能运维中的科研问题。 但仅仅宣传是远远不够的,还要实践。裴丹在第一届APMCon会议(由听云、极客邦科技与InfoQ联合主办的全球高水准APM技术盛会上)发表学术演讲,阐述了当时和百度合作的三个案例,包括异常检测、瓶颈分析以及智能熔断。这种公开的宣传带来了很多新的合作。除了与百度的合作,清华实验室相继与滴滴、搜狗、阿里巴巴、腾讯签署了正式的合作协议。他认为这验证他的一个观点:工业界可以获得算法层面的深度支持,学术界可以获得现实世界的前沿问题和数据,有利于发表论文和申请国家项目。

谈到工业界与学术界在智能运维方面的合作,裴丹表示,现在工业界跟学术界的合作方式,还处于1.0阶段,即一对一的交流。在这个过程中,遇到了诸多挑战:

1、交流合作效率低,见效慢。比如说我是这个教授,我跟A公司讨论一下,再跟B公司讨论一下。很多情况下,不同公司遇到的问题都是类似的,比如异常检测。但是,我需要跟每个公司梳理一遍这些问题。C公司可能不知道我,就找另外一位教授,他依然需要梳理这些问题。这就大大降低了交流合作的效率。而科研最难的部分,就是把一个实践中的问题定义好。当定义好问题之后,只要数据准备好,其他问题都可以迎刃而解。

2、智能运维算法不幸成了特权。因为很少有教授愿意去做这种一对一交流,而愿意或有渠道和学校科研人员沟通交流的公司也不多。这就导致,在国外,只有少数大公司和教授才能合作。比如,目前只有Google、 Microsoft、Linkedin、Facebook、雅虎等大公司发表过智能运维有关的论文。

3、涉及知识产权,不符合开源大趋势。因为一对一的合作需要签署涉及知识产权的协议,不符合开源的大趋势。

1对1交流效率低,那具体应该怎么做?裴丹说,我们希望拥抱开源开放的文化,形成工业界与学术界合作的2.0。

在他看来,开源开放的大趋势已经对工业界和学术界产生了巨大的影响。大家耳熟能详的Hadoop、Ecosystem、TensorFlow等,都是开源开放的产物。在算法层面,当前有arXiv共享算法(论文)平台,和Github代码共享;在数据层面,ImageNet等数据共享平台对机器学习算法的研究起到了巨大的推动作用;在计算能力层面,各大公司都建立了AI云;在人才层面,我们也可以看到,学术界和工业界的人才流动比原来顺畅多了。

所以,裴丹说,他的基本思路是,希望能够建立智能运维的问题库。“我们尝试把运维的常见问题梳理出来,并存储到一个问题库里。这样的话,对于缺乏智能运维背景知识的科研人员,在问题的输入、输出、数据集齐全的前提下,可以很容易地着手解决问题库中的科研问题。对于做运维实践的工业界的同学们,当遇到实际的问题时,可以查询问题库中的解决方案。”

裴丹的这一思路受到了斯坦福教授李飞飞的影响。李飞飞最近在宣传普世化AI的思路——让所有人都可以使用AI,在她建立的 ImageNet上面有1000多万张图片的分类标注数据。在2012年Hinton教授提出了一种基于CNN的图片分类算法,取得比以往最好结果高好几个百分点的结果, 引起了深度学习的复兴。现在,她同时兼任Google机器学习部门的负责人。她在宣传普世化AI思路时,提到普世化有四个基本点:计算能力、数据、算法、人才。这四个基本点跟裴丹他们要落地智能运维所遇到的挑战是一样的。 因为他们也需要用到机器学习和AI的技术来解决智能运维中的挑战性问题。

除了问题库,学术界还需要数据集。此外,工业界最好能提供云计算资源,让学术界提供的算法在云端跑。裴丹认为,数据公开后,学术界可以公布训练好的算法,工业界就可以直接使用这些算法。在人才方面,工业界可以与学术界合作。同时,那些参与我们的智能运维算法大赛且排名靠前的学生,也可以成为工业界的人才储备。“最终,我们希望所有的公司都能用上最好的智能运维算法。”

裴丹说,智能运维本身前景非常光明,因为它具备丰富的数据和应用场景,将极大提高智能运维领域的生产力,也是AI领域尚未充分开采的金库。智能运维需要工业界和学术界的密切合作,但是目前仍只限于一对一相对低效的合作,少数公司和少数教授的特权不符合我们大的开源开放的趋势。我们的解决思路就是以科研问题为导向, 从日常工作中找到相关的问题,然后把这些问题分解定义成切实可行的科研问题, 并汇总成智能运维的科研问题库。同时, 工业界能够提供一些脱敏数据作为评测数据集,这样学术界就可以下载数据,并贡献算法。裴丹的实验室NetMan已经在运营一个“智能运维算法竞赛”的网站,汇总智能运维的科研问题库,提供数据下载,并成功举办了首届 AIOps挑战赛。该届挑战赛由美国eBay公司、搜狗、腾讯、阿里、百度等公司提供了脱敏的运维数据, 吸引了几十只队伍正式参赛,并取得了不错的成绩。

在智能运维的领域,裴教授的团队从去年就开始推动智能运维算法在实践中的落地,他相信只要有更多的学术界和工业界的人士参与进来,一定能推动智能运维算法在实践中更好的落地。(主编商灏 编辑严葭淇)


查看更多华夏时报文章,参与华夏时报微信互动(微信搜索「华夏时报」或「chinatimes」)