1 摘 要
随着AI生成的文本不断发展,将其与人类创作的内容区分开来变得越来越困难。这项研究考察了非专业读者是否能够可靠地区分AI生成的诗歌和知名人类诗人的诗歌。我们对非专业诗歌读者进行了两次实验,发现参与者在识别AI生成的诗歌方面的准确率低于随机水平(χ²(2, N=16,340)=247.04, p<0.0001)。值得注意的是,参与者更有可能将AI生成的诗歌判断为人类创作的诗歌,而不是实际的人类创作的诗歌(χ²(2,N=16,340)=247.04, p<0.0001)。我们发现,AI生成的诗歌在节奏和美感等品质上得到了更大的好评,这导致了它们被误认为是人类创作的。我们的研究结果表明,参与者采用了共享但有缺陷的启发式方法来区分AI与人类诗歌:AI生成的诗歌的简单性可能更容易被非专家理解,导致他们更喜欢AI生成的诗歌,并将人类诗歌的复杂性误解为AI生成的混乱。
2 诗歌的感知与偏好:对AI生成诗歌的偏见
这一部分主要探讨了人们对AI生成诗歌与人类创作诗歌的感知和偏好,并讨论了其中的偏见。
2.1 AI生成作品的感知
研究表明,AI生成的图像、画作和幽默内容在某些情况下被误认为是人类创作的,并且这种趋势也出现在诗歌领域。AI生成的作品在没有人类干预的情况下,其“人类性”甚至超过了真正的人类作品。
2.2 对AI作品的偏见
尽管AI生成的作品在某些情况下被评为与人类作品相似,但研究也发现,当人们被告知某件作品是由AI生成时,他们往往会对这件作品的质量评价更低。
2.3 语言生成算法的进步
大型语言模型(LLMs)如OpenAI的GPT-3和Meta的Llama 2等,经过数百万标记的训练,能够生成与人类文本极为相似的文本。在某些类型的文本中,AI生成的文本已经无法与人类创作的文本区分开来。
2.4 诗歌的创造性和意义
有人认为,即使AI在其他文本形式上达到人类水平,也无法生成高质量的诗歌,因为诗歌依赖于创造力和意义,而AI生成的文本被认为是缺乏创造力和意义的。然而,计算创造力领域在诗歌生成方面取得了巨大成功,一些专门的AI模型能够产生高质量的诗歌。
2.5 非专家的辨别能力
非专家可能使用不同的线索来评估诗歌,并且可能对诗歌的结构要求不够熟悉。以前的研究结果对于非专家能否区分AI生成诗歌和人类诗歌的能力是混合的。
2.6 “比人类更人类”的现象
研究扩展了先前的工作,表明AI生成的诗歌在非专家评估中达到了与AI生成图像相同的水平:非专家参与者无法区分人类创作的诗歌和AI生成的诗歌。与AI生成的画作和面孔一样,AI生成的诗歌现在被认为“比人类更人类”。
2.7 偏好AI生成诗歌的原因
研究者提出,非专家诗歌读者更喜欢更容易理解的AI生成诗歌,这种诗歌以更直接和易懂的语言传达情感、思想和主题,但他们期望AI生成的诗歌会更差;因此,他们错误地将自己的诗歌偏好解释为是人类创作的证据。综上所述,这一部分讨论了人们如何感知和偏好AI生成的诗歌,以及这种感知和偏好背后的偏见,特别是当涉及到诗歌的创造性、意义和结构时。研究结果表明,人们对AI生成诗歌的偏好可能部分解释了他们为何错误地将这些诗歌识别为人类作品。我们利用这些发现为“比人类更人性化”的现象提供了部分解释:非专业诗歌读者更喜欢更容易理解的AI生成的诗歌,这些诗歌以更直接和易于理解的语言交流情感、思想和主题,但预计AI生成的诗歌会更糟糕;因此,他们错误地将自己对一首诗的偏好解释为它是人类创作的证据。
总而言之,我们着手确定
(1)人们是否可以区分AI生成的诗歌和专业的人类创作的诗歌,
(2)人们用来做出这些判断的诗歌特征,
(3)对AI生成的诗歌的看法是否会影响对诗歌的定性评估
(4)诗歌的实际作者是否会影响对诗歌的定性评估。
为了调查这些问题,我们进行了两个实验。在第一个实验中,1634名参与者被随机分配到10位诗人中的一位,并以随机顺序呈现10首诗:5首诗由该诗人创作,5首诗由AI以该诗人的“风格”生成。对于每首诗,参与者被问及他们认为这首诗是由AI生成的还是由人类诗人创作的。
为了调查参与者如何感知和评估AI生成的诗歌,我们进行了第二个实验:定性评估任务。招募了696名参与者。我们从最初的100首诗中随机选择了一个子集(总共10首诗,每个诗人一首,5首真实的,5首AI生成的),并要求参与者从14个定性维度评估每首诗。参与者被随机分配到三种框架条件中的一种:“被告知人类”,在这种情况下,参与者被告知所有诗歌都是由专业的人类诗人写的,而不管实际作者是谁;“告诉AI”,参与者被告知所有诗歌都是由AI创作的,而不管实际作者是谁;另一组是“什么都不告诉”,参与者不知道这首诗的作者。在评估完每首诗后,“什么都不告诉”的参与者被问到,他们认为这首诗是由人类诗人写的还是由AI生成的.
3实验结果
3.1实验一:区分AI生成的诗歌和人类写的诗歌
参与者识别AI诗歌的准确率仅为46.6%,低于随机水平(50%),表明他们无法可靠地区分AI和人类创作的诗歌。实验设计。在研究1中,1634名参与者被随机分配到10位诗人中的一位,并以随机顺序呈现10首诗:5首诗由该诗人创作,5首诗由AI以该诗人的“风格”生成。对于每首诗,参与者都要回答一个强制选择提示,询问他们认为这首诗是由人类写的还是由AI程序生成的。然后,参与者对自己的答案在0-100之间打分,如果他们愿意,他们会被提示解释他们的答案。在歧视任务之后,参与者提供了人口统计信息,并表明了他们对诗歌的熟悉程度和兴趣。
3.2实验二:评估AI和人类创作的诗歌
参与者对AI生成诗歌的评价在多个维度上高于人类创作的诗歌,尤其是节奏方面。具体如图1。我们选择了10位英语诗人:杰弗里·乔叟、威廉·莎士比亚、塞缪尔·巴特勒、拜伦勋爵、沃尔特·惠特曼、艾米丽·狄金森、T.S.艾略特、艾伦·金斯堡、西尔维娅·普拉斯和多萝西娅·拉斯基。我们的目标是涵盖广泛的类型、风格和时期。我们总共收集了50首诗:我们的10位诗人每人5首诗。这些诗歌是从在线诗歌数据库mypoeticside.com上收集的。每位诗人的诗歌按受欢迎程度排序;我们选择了该诗人最受欢迎的10首诗之外的诗歌,以及合理长度(少于30行)的诗歌。然后,我们使用ChatGPT 3.5生成了总共50首诗。模型得到了一个简单的提示:“以<诗人>的风格写一首短诗”。由该提示生成的前5首诗被选中。选择定性特征。在我们的评估研究(研究2)中,我们选择了15个定性特征让参与者从20确定的特征中进行评分:整体质量,意象,节奏,声音,美丽,鼓舞人心,抒情,有意义,感人,原创,深刻,诙谐,传达特定主题,传达特定情绪或情感,以及押韵。我们只选择那些毫无疑问是好的品质,所以李克特量表上的高分很容易被解释为更积极。我们选择了我们希望能够涵盖参与者对诗歌的广泛定性体验的品质:一首诗的结构质量(节奏,押韵),它的情感内容(感人,传达一种特定的情绪或情感),它的创造力(原创,诙谐),它的美学特征(美丽,抒情),以及它传达意义的程度(有意义,深刻,传达一个特定的主题)
图1
4 数据分析
4.1实验一:区分 AI生成的诗歌和人类创作的诗歌
混合效应逻辑回归模型:研究人员使用混合效应逻辑回归模型来预测参与者对诗歌作者身份的判断(“人类创作”或“AI生成”)。模型包含以下固定效应:诗歌作者身份(人类或AI)
诗人身份;诗歌作者身份和诗人身份的交互作用
随机效应: 模型最初包含三个随机效应:参与者的随机截距(由于每个参与者对 10首诗歌进行了重复测量);诗歌的随机截距每首诗歌的诗人身份的随机斜率
模型简化:通过主成分分析 (PCA)检查模型是否过度参数化,发现模型确实过度参数化了。因此,研究人员简化了模型,只包含诗歌的随机截距作为唯一的随机效应。
结果: 模型的解释力较低,但诗歌作者身份对参与者判断的影响显著。人类创作的诗歌被误认为是 AI生成的可能性更大。
探索性分析: 研究人员将诗歌的结构特征(例如,字数、行数、是否押韵、是否为四行诗、是否为第一人称)添加到模型中,以检验参与者是否根据诗歌的结构特征来判断作者身份。结果表明,行数和是否押韵对参与者判断有显著影响,但与预期相反,AI生成的诗歌更倾向于押韵。
实验二:评估 AI生成的诗歌和人类创作的诗歌
线性混合效应模型: 研究人员使用线性混合效应模型来预测参与者对诗歌 14个定性维度的评分。模型包含以下固定效应:诗歌作者身份(人类或AI);框架条件(被告知是人类创作的、被告知是 AI生成的、不知道作者);诗歌作者身份和框架条件的交互作用。
随机效应: 模型最初包含四个随机效应:参与者的随机截距;参与者对诗歌作者身份的随机斜率;诗歌的随机截距;每首诗歌的框架条件的随机斜率。
模型简化:通过 PCA检查模型是否过度参数化,发现模型确实过度参数化了。因此,研究人员简化了模型,去掉框架条件的随机斜率。结果: 模型的解释力较高,诗歌作者身份和框架条件对参与者评分的影响显著。AI生成的诗歌在大多数定性维度上的评分都高于人类创作的诗歌。当参与者被告知诗歌是人类创作的时候,他们对诗歌的评分都会更高。
因素分析:研究人员对所有 14个定性维度进行了因素分析,提取出四个因素:情感质量、形式质量、氛围和创造力。
使用定性评分预测区分: 研究人员使用混合效应逻辑回归模型来预测参与者对诗歌作者身份的判断(“人类创作”或“AI生成”),模型包含诗歌作者身份、诗歌的结构特征(行数、是否押韵、是否为第一人称)和参与者对诗歌四个因素的评分作为固定效应,以及参与者的随机截距作为随机效应。结果表明,氛围因素对参与者判断有显著影响,氛围评分越高,参与者越倾向于认为诗歌是人类创作的。
总结: 研究人员使用混合效应逻辑回归模型和线性混合效应模型分析了实验数据,以评估诗歌作者身份、框架条件和诗歌结构特征对参与者判断和评估的影响。结果表明,非专业读者无法可靠地区分 AI生成的诗歌和人类创作的诗歌,并且更喜欢AI生成的诗歌。这种偏好部分解释了“更胜人类”的现象,即人们将他们对AI的期望与现实之间的差距误解为他们自己的偏好。
5 研究结论
我们的研究表明,与之前的研究相比,人们现在无法将AI生成的诗歌与知名人类诗人的诗歌区分开来,更有可能将AI生成的诗歌判断为人类创作的诗歌并在几个美学维度上对AI生成的诗歌给予更高的评价。我们通过迎合人们对AI所能做的事情的错误期望以及他们自己的审美偏好来解释这一点。在此之前,诗歌是生成式AI语言模型尚未达到这种不可区分程度的最后几个文本领域之一;我们的研究结果表明,尽管ChatGPT等生成语言模型的使用越来越普遍,但生成式AI模型的能力已经超出了人们对AI的预期。
原文链接:https://www.nature.com/articles/s41598-024-76900-1
(ps:以上来自于我的公众号,感兴趣的uu可以关注一波)