有多需要人工智能，就有多需要数据

最新推荐文章于 2023-07-09 16:23:52 发布

Informatica-小殷

最新推荐文章于 2023-07-09 16:23:52 发布

阅读量270

点赞数

分类专栏：人工智能数据管理

本文链接：https://blog.csdn.net/weixin_43696133/article/details/100882083

版权

数据管理同时被 2 个专栏收录

92 篇文章 1 订阅

订阅专栏

人工智能

36 篇文章 0 订阅

订阅专栏

本文精选自Tony Baer在ZDNet“大数据专栏”的文章

技术界有一个“老生常谈”，甚至说是永不过时的观点：“进来的是垃圾，出去的也是垃圾”。步入“数据3.0”时代后，企业的数据资产暴增，常常会超出固有的业务边界，还将物联网数据、社交媒体数据、消息应用、日志文件以及其他数据源的数据也纳入其中，导致数据量越来越大，数据质量参差不齐，数据输出结果就很难准确。随着人工智能算法不断创新，机器学习进步很快，深度学习算法则更需要数据来进行“训练”，Informatica表示：人工智能或许是企业能够将数据质量保持在可控状态下的唯一途径。

如果认真分析Informatica的想法，那就是：“数据需要人工智能，人工智能也需要数据”。

回想第一次邂逅Informatica，得要追溯到20世纪90年代中期的一次数据库展览会。当时Informatica在酒店房间里演示图形化ETL（数据抽取、转换和加载）工具PowerMart。彼时Informatica还只是一家初创公司，规模很小，那时的ETL还需要编写大量的手工脚本。而Informatica改变了固有模式，开发出一种元数据引擎，可用于存储前端GUI（图形用户接口）所需的数据转换方法，不需要编码技能，只要有图示方面的知识即可。

如今，在2019年5月Informatica全球用户大会上，我们看到它的持续创新，发布许多新产品，其中一项就是针对数据沿袭关系分析推出的能够解析Python的新功能。这对于数据科学家来说，数据转换的编码方式仍旧保持了原有的形式。

多年来，Informatica不断扩展业务足迹，从ETL工具扩展到数据集成、数据质量、数据治理与合规、主数据管理、大数据管理、数据安全和云数据管理。正如Forrester研究公司的分析师Michelle Goetz所示：“这些数据管理工作之前从未有一家公司能够真正打通、实现。”期间出现了很多单点功能的工具，包括一些开源工具，但市场上没有出现任何一家与Informatica 规模相当且对其形成冲击的厂商。

Amalgam Insights的分析师Lynne Baer在近期的一篇博文中有一段很好的综述，他阐述了Informatica底层的CLAIRE机器学习引擎是如何推动Informatica产品战略的。CLAIRE自身不是一个产品或工具，但它是机器学习各项功能的综合体，由Informatica CLAIRE引擎驱动，可跨越企业的业务和IT部门，在无服务器架构、多云和混合云环境下实现企业范围内的协同。这样的实例还包括：自动解析、转换、对易变的结构化数据进行联结；给数据加标签，使数据可以被分类标识；数据治理、标识隐私数据；标记潜在的数据质量问题或数据去重的位置；扫描数据集以生成数据质量规则；为数据打分，使数据可以在业务术语表中被加上标签；为发现数据提供机器协助。

我在一份简报上看到Informatica阐明其数据质量和数据集成功能为什么如此强大。这篇简报在开头部分描绘了数据的喷涌问题和数据的本质。一旦你打开社交媒体或物联网的数据阀门，你就会一次性摄取T级的数据。作为多种结构的数据，模式还要复杂得多。

迄今为止，还没有这样的实例：对于普通的CSV客户文件或产品订单文件，即使模式不一致，也可以简单、直接地识别姓名和数值型字段，例如：订单号、库存单位（SKU）、部件号、电话号码、税号或社会保险号。为此，数据准备工具应运而生，它使用一种适度水平的机器学习技术进行模式匹配，从而识别出各列，并确定如何对不同数据集的列进行移项或合并。这种方式面临的挑战在于，要对数据结构更为复杂和多变的文件进行关键性的处理，如果没有机器的协助，单凭人工根本无法解析这些文件。

▼▼▼

那么，Informatica如何将人工智能应用到它的产品系列中呢？从Informatica全球用户大会上发布的一系列产品来看，Informatica在托管式云服务中，为从数据源到目标的映射字段添加了更智能的匹配建议功能；在大数据中添加了“模式漂移”探测功能；支持自动创建“情境式”的客户360视图，基于客户行为和过往偏好给出关系推断和建议；为数据治理规则的生成提供人工智能协助；并将机器学习功能纳入数据目录服务，从而帮助用户完成数据发现和标注。

Informatica阐明了这样一个问题：由于数据量在不断增长，数据类型也越来越多，对企业而言，人工智能变得必不可少，它可以避免企业陷入垃圾数据之中。而另一方面：随着企业开始实施自己的人工智能或机器学习项目，这些项目在很多地方都存在着脱轨的风险。这些项目的出发点源于一个事实，即人工智能模型对数据有着强烈的渴望。尽管我们在一些孤立的个案中发现，人工智能或许并不总是需要海量的数据，但在大多数情况下，模型需要依靠数据来训练。

相比于在静态数据科学模型中使用被损坏的数据，在机器学习或深度学习模型中，使用错误的数据或规模不够大的数据列队来训练和运行这些模型，所造成的负面影响无疑要大得多。所以说，我们绕了一圈，最终又回到了原点。人工智能模型需要大量的数据。没有数据，就没有强大的人工智能。强大的数据管理能力是企业人工智能项目成功的关键。在拥有大量数据之后，企业需要利用人工智能将有用的数据分离出来。

Informatica-小殷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
有多需要人工智能，就有多需要数据

本文精选自Tony Baer在ZDNet“大数据专栏”的文章技术界有一个“老生常谈”，甚至说是永不过时的观点：“进来的是垃圾，出去的也是垃圾”。步入“数据3.0”时代后，企业的数据资产暴增，常常会超出固有的业务边界，还将物联网数据、社交媒体数据、消息应用、日志文件以及其他数据源的数据也纳入其中，导致数据量越来越大，数据质量参差不齐，数据输出结果就很难准确。随着人工智能算法不断创新，机...
复制链接

扫一扫