人工智能的魔术

                                                                                                                                      作者:Informatica产品管理副总裁Einat Haftel

每个魔术都由三个部分组成:第一部分被称作“以虚代实”。魔术师向你展示一些普通的东西。第二部分称作“偷天换日”,魔术师拿那些普通的东西,把它变成一些特别的东西。但是,你不会为之鼓掌,让某些东西消失还远远不够,你还得再把它们变回来。所以,魔术都有第三个步骤,最难的部分,我们称之为“化腐朽为神奇”。

这是我最喜欢的克里斯托弗·诺兰的电影——《致命魔术》的开场白。这段话与我的逻辑人格相互契合,提供了一剂简单但准确的处方。由于它表达了我们在观赏魔术时应有的那种感觉,我想,我也能把它用在人工智能上。

 

以虚代实

这是一个网络日志文件,一个典型的网络日志文件。它由浏览器生成,并包含一个特定网站上的用户活动信息。它理解起来很复杂,需要通过手工操作和开发人员的技能,将它转变为能够为商业带来真正价值的格式。

 

偷天换日

依靠机器学习技术,业务用户或分析人员可以将这种不可读的格式转变为简单、易懂和熟悉的表格。

化腐朽为神奇

但是,我们知道不会只有一个文件,通常它们也不会有完全相同的格式。用数据管理的术语,我们将其称之为“数据偏移”,该术语通常用来描述在新数据类型中的格式、速度和数据内容的波动情况。很多变量会影响数据的内容:机器、操作系统版本、日期、地理位置、使用的浏览器以及其他更多因素,这给那些设法采集和理解新数据的企业带来了很大的挑战。根据2016年所做的一项调查,25%的受访者表示:由于无法大规模处理采集到的数据,他们会放弃那些用于洞察力分析的数据。而来自Informatica的CLAIRETM引擎所提供的人工智能可以动态地将文件自动转换为相近的表格形式。

 

数学不是魔术

与从电影《致命魔术》中引用的情节不同,CLAIRE使用的是数学算法,而不是魔术(这是人所共知的),并以此化腐朽为神奇。

这种方法很简单。如果数据是由机器产生的文件,机器就应该能“学习”它,并识别出文件中的重复模式。为了这个目的,CLAIRE使用一种被称为“遗传编程”的数学方法。这些算法采用“演化”的概念。机器设法根据一个文件中的重复模式发现文件中的结构。这种重复模式使机器可以针对这种文件格式构建一个结构。接下来会基于几种因素对这个结构进行打分,例如输入范围和派生域。然后输入一个“突变”相位,将几种变化应用到该结构中。例如:将子结构进行合并,以判断分值是否提高了。这是演化阶段,当该阶段确定了与数据匹配的结构适合度之后,它也就决定了相应的流程。该流程既无需用户输入以定义文件结构,也并不特殊针对某套行业文件格式。

没有更多推荐了,返回首页

私密
私密原因:
请选择设置私密原因
  • 广告
  • 抄袭
  • 版权
  • 政治
  • 色情
  • 无意义
  • 其他
其他原因:
120
出错啦
系统繁忙,请稍后再试