「最有用」的特殊大数据:一文看懂文本信息系统的概念框架及功能

文本数据是大数据中的一种特殊形式,广泛存在于网络、新闻、社交媒体等中。文本数据因其丰富的语义和人类知识的编码方式,成为理解和挖掘人类意见、偏好的重要资源。文本信息系统通过文本检索和文本挖掘,帮助人们快速找到相关信息并发现隐藏的知识。信息检索是获取相关文本数据的关键,而文本挖掘则用于提取和分析文本中的模式,提供决策支持。文本信息系统包括信息获取、知识获取和文本组织等功能,支持用户有效地管理和利用文本数据。
摘要由CSDN通过智能技术生成

640?wx_fmt=gif

导读:作为一种特殊的大数据,文本数据泛指各种以自然语言形式存在的数据。


目前,我们正处在一个以大数据与人工智能技术为核心的新的工业革命时代,其主要特征是大量各种可利用的数据可以视为一种特殊的生产资料,经过高效的智能数据分析与挖掘以及机器学习等人工智能技术处理后,这些数据可以产生巨大价值,创造智能。


作者:翟成祥

如需转载请联系大数据(ID:hzdashuju)


640?wx_fmt=jpeg



01 一种特殊的大数据


大数据可以用两种方式创造智能


  • 其一,大量的数据可以作为训练数据,让监督式机器学习方法特别是深度学习,发挥巨大潜力,从大量数据中学得智能,从而使智能机器能够大量代替人力来完成各种任务(此类智能系统可称为自主型智能系统)。

    例如,大量的可用于训练无人驾驶车的数据可以很自然地从人的驾驶过程中通过传感器获得,使机器可以自动驾驶车辆;又如,大量的客户服务记录数据,可以用来训练客户服务机器人,自动回答客户的问题。

  • 其二,大量的数据可以作为对我们生活的世界的感知和观察的结果的描述,用数据挖掘或非监督式机器学习方法对数据加以处理,获得关于被观察系统的各种有用知识,从而拓展人类的感知能力,增强人的智能(此类系统自身往往智能程度不高,可以称为助理型智能系统)。

    例如,大量电子病历数据可以用来构造一个医生或病人的辅助诊疗的智能助手系统;又如,大量金融数据、社交媒体数据以及新闻数据可以用来构造金融方面的决策支持系统。


比较两类基于大数据的智能系统,自主型智能系统能完成的任务不能太复杂(因机器需独立完成任务),且对数据的要求较高,需要有标注的数据,而获取极大量的高质量的标注数据在很多问题领域并不现实,所以这类应用目前只能在少量的特定应用领域起作用。


而且,由于机器的智能主要来自于人工标注的数据,机器的智能不容易超越人的智能。


相反,助理型智能系统由于不需要有标注的数据,任何数据都可以利用,所以在任何领域都可以起作用,有着非常广泛的应用。而且,有趣的是,尽管助理型智能系统本身的智能不高,甚至没有太多智能,但这样的系统一旦与人结合,人与系统相加以后的综合智能往往能大大超越人的智能。


这种情形下,助理型智能系统的功能有与显微镜及望远镜的功能相似之处,即它们都可以拓展人对世界的感知能力,从而增强人的智能,特别是有助于在复杂应用领域优化决策。


作为一种特殊的大数据,文本数据泛指各种以自然语言形式存在的数据,包括万维网页、新闻报道、社交媒体、产品评论、科学文献、政府文件等;语音和视频数据,经语音识别后也能产生文本数据。文本数据有着极其广泛的应用。


  • 第一,文本数据可被视为人,作为一个富有智能的主观“传感器”所产生的数据,它可以与所有其它非文本数据相结合,共同支持助理型智能系统;又因为任何应用领域都会涉及相关的人群,人们会以各种形式产生可用的文本数据,所以文本数据在任何领域都会有应用价值。

  • 第二,由于人的主观性,文本数据富含关于人的观点、偏好以及需求等信息,所以特别有助于挖掘关于人的各种属性,使智能系统可以更好地理解用户,从而可以对每一个特定的用户进行优化服务(即个性化服务)。

  • 第三,由于文本数据是人们用自然语言交流和通信的产物,它的语义很丰富,相比非文本数据来说,文本数据更加直接地表达知识。从数据挖掘的角度看,更容易让计算机自动获取知识。然而,由于自然语言是为人类通信而设计的,需要有大量的常识及推理能力,才能准确理解,所以尽管自然语言理解研究已取得很大进展,计算机目前还不能全面理解不受限的自然语言的结构和语义,所以在所有文本数据的应用中,必须充分利用人的自然语言理解能力,让计算机成为一个智能助理。


640?wx_fmt=jpeg



02 从文本中挖掘数据


在过去的20年里,我们经历了在线信息的爆炸性增长。根据加利福尼亚大学伯克利分校2003年的一项研究[Lyman等2003]


……世界每年产生1~2EB(exabyte,艾字节)的不同信息,这对于地球上的男人、女人和孩子来说,每人大约250MB(megabyte,兆字节)。各类印刷文档仅占总量的0.03%。


大量的在线信息是文本信息(即自然语言文本)。例如,根据上面引用的伯克利的研究:


报纸每年发表25TB(terabyte,太字节或称兆兆字节)内容,杂志发表10TB内容……办公文档包含195TB内容。据估计,每年发送的电子邮件总数达到6100亿封,包含11000TB信息。


当然,还有博客文章、论坛帖子、推文、科技文献以及政府文件等。Roe[2012]将电子邮件数量从2003年的6100亿封更新为2010年的107万亿封。根据IDC最近的一份报告[Gantz和Reinsel 2012],2005~2020年,数字宇宙将增长300倍,规模达130EB~40000EB。


一般来说,各种类型的在线信息都是有用的,但由于以下原因,文本信息起着特别重要的作用,可以说是最有用的一种信息。


  • 文本(自然语言)是人类知识最自然的编码方式。因此,大多数人类的知识都是以文本数据的形式编码的。例如,科学知识几乎都整理在科学文献中,而技术手册包含如何操作设备的详细说明。

  • 文本是人们遇到的最常见的信息类型。事实上,一个人每天产生和消费的大部分信息都是文本形式的。

  • 文本是最具表达能力的信息形式。它可以用来描述其他媒体,如视频或图像,甚至图像搜索引擎(如Google和Bing支持的图像搜索引擎)也经常依靠匹配图像周围的文本来检索“匹配”用户关键字查询的图像。


网络文本信息的爆炸式增长强烈需要能够提供以下两种相关服务的智能化软件工具,帮助人们管理和利用文本大数据。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值