【热点抢先看】智能文本生成:进展与挑战

智能文本生成:进展与挑战

万小军

北京大学王选计算机研究所

摘要智能文本生成是人工智能与自然语言处理领域的前沿研究方向,也是AI生成内容(AIGC)的关键技术支撑,近些年受到学术界和产业界的高度关注,在媒体出版、电子商务等多个行业与场景下均已实现应用,能够大幅提升文本内容的生产效率。本文对智能文本生成的应用现状与主要方式进行了系统性概述,并重点介绍了基于深度学习的智能文本生成技术,同时指出现有技术所面临的挑战。

关键词智能文本生成;自然语言生成;机器写作;自然语言处理

29cf52ecc3538add0ca030caeffe6ab7.jpeg

论文引用格式:

万小军. 智能文本生成:进展与挑战[J]. 大数据, doi: 10.11959/j.issn.2096-0271.2023014.

WAN X J. Intelligent text generation: recent advances and challenges [J]. Big Data Research, doi: 10.11959/j.issn.2096-0271.2023014.

c4a53d70bdbde729421b9b819e0b7e2e.jpeg

0 引言

近些年随着深度学习技术的发展和应用,AI自动生成内容(AIGC)的能力得到显著的提升。文本、图像、视频、音频等内容的自动生成已成为人工智能领域的热门研究方向,同时也备受产业界的关注,在各行各业均具有极其重要的应用价值。

语言文字是人类最重要的交流工具和思想文化载体,实现语言智能是人工智能走向成熟的重要标志,智能文本生成则是语言智能的关键支撑技术。智能文本生成又称自然语言生成或机器写作,其目的是根据给定的输入数据(例如报表数据、视觉信息、意义表示、文本素材等)自动生成高质量的不同类型自然语言语句或篇章(例如标题、摘要、新闻、故事、诗歌、评论、广告等)。对于自动生成的文本,一般要求可读性好,同时内容准确可靠。需要指出的是,由于语言表达的多样性,文本生成的结果通常不是唯一的,特别是对于开放式文本生成任务(例如文本复述、故事生成等)而言,针对同一输入的答案输出可以有成百上千种可能。举例来说,对于文本复述任务而言,针对输入语句“梅西是足坛的GOAT”,我们可以将该语句改写为“梅西是足坛历史最佳”,或者“足坛历史第一人是梅西”,或者“梅西的成就超越了足坛所有其他球员”,等等。

文本生成的困难之处主要有两点:一是搜索空间巨大。文本自动生成可看作是一个搜索问题,对于长度为L的文本(即文本包含L个词),假设词表大小为W(即共有W个词语),考虑到文本的每个位置上都可以从W个词语中任选一个词语进行填充,那么总共有WL种可能的组合。由于W通常很大(一般几万到几十万的规模),因此这个搜索空间巨大,对文本生成算法带来了严重挑战。二是文本质量难以客观评价。尽管我们能够主观判断一个语句或一篇文章的优劣,但是很难找到一个自动评价指标对文本质量进行客观、准确的评估。目前业界使用的基于N元词重叠程度的评价指标(例如BLEU、ROUGE等)与模型驱动的评价指标(如BERTScore、BARTScore等)均难以可靠地评价文本质量(特别是开放式文本生成任务以及长文本生成任务),导致文本生成任务的优化目标难以准确定义和形式化,现有的基于最大似然的优化目标与文本生成的总体质量目标之间存在相当大的差异,这也是现有文本生成模型的一个不可忽视的缺陷。

本文后续章节将对智能文本生成的应用现状、主要方式进行概述,并重点介绍基于深度学习的智能文本生成技术,同时指出智能文本生成技术所面临的挑战,最后进行总结与展望。

1 智能文本生成的应用现状

近几年智能文本生成技术有了突破性发展,各类智能写作需求广泛崛起,智能文本生成应用呈现出行业广、场景多、需求大等特点。智能文本生成已经在媒体出版、电子商务、人机交互、电子政务、智慧教育、智慧医疗、智慧司法等多个行业和领域进行了落地应用。国内外数十家单位和企业(如OpenAI、ARRIA、Automated Insights、Narrative Science、Google、Microsoft、阿里、百度、腾讯、京东等)均将文本生成能力作为核心竞争力之一,已推出各类文本内容生成工具与服务,能够自动化生产或辅助人工生产各类文本内容(包括新闻、财报、天气预报、文摘、会议纪要、综述、公文、产品说明、广告文案、对话回复、评论等),大幅提升了内容生产效率和覆盖率。特别是在OpenAI推出ChatGPT之后,业界对文本生成模型的强大能力有了更深刻的认识,因而对智能写作技术的应用有了更大的想象空间,例如辅助写论文、发言稿、小说等。下面以媒体出版和电子商务两个典型领域为例具体介绍智能文本生成技术的应用情况。

媒体出版是智能文本生成的最重要和最典型的应用领域。首先,许多传统媒体单位(如报社)逐步采用智能文本生成技术进行新闻稿件的自动或辅助创作,主要面向结构和表达相对简单的天气预报、赛事简讯、财经简讯等新闻类型,同时为新闻自动生成标题、摘要等,方便读者快速浏览新闻内容。例如,美联社自 2014 年 7 月开始采用新闻写作软件自动撰写新闻稿件来报道公司业绩,这大大减少了记者的工作量。2019年,我们与“科学网”进行了面向科技新闻类型的全新尝试和合作,研制推出了小柯写作机器人。小柯是一个跨语言科技新闻生成系统,能够基于机器翻译和文本摘要技术自动根据英文学术论文生成简短的中文科技新闻。目前小柯机器人已覆盖物理科学、地球科学、生命科学、化学科学四个学科,撰写科技新闻1万多篇,总阅读量超过千万。考虑到科学网的专业性和严肃性,所有自动生成的稿件在发布前均需要编辑人工审核。其次,互联网上出

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值