目录
一. 什么是文本可读性
二. 可读性自动分析的近期进展
一. 什么是文本可读性?
定义?:是什么导致了文本之间的难度差距?影响文本难度的核心特征是什么?文本难度是否可以进行度量?是否可以借助计算机对文本难度进行自动分析?学者们从不同角度对文本难度问题进行了探讨,这些研究后来被统称为可读性研究。文本可读性其实就是对于读者而言文本的阅读难度。
任务:文本可读性问题最初由教育学家提出,初衷是辅助教师为语言学习者推荐适合其阅读水平的文本。可读性任务是指给定一篇文本,通过对文本进行分析,给出该文本的难度值或判断该文本适合哪一水平的读者。
分类:
◦
按
语义
可分为:平行语义可读性分析,非平行语义可读性分析
◦
按文本粒度可分为:汉字,词汇,句子,语段,篇章可读性分析
◦
按语言种类可分为:英语可读性分析,汉语可读性分析等
二、可读性自动分析的近期进展
1.Enriching Word Embeddings with Domain Knowledge for Readability Assessment
Zhiwei Jiang,2018
该模型有三个阶段,具体如下:
1.领域知识抽取
阅读难度
=
习得难度
+
使用难度
+
结构难度
习得难度:用习得年龄
(
AoA
)
衡量习得难度
•
三种资源:教材、课外教材、水平考试教材
•
使用难度:用两种方式衡量词汇的使用难度
•
文本语料库中的词频
•
词汇在不同难度等级句子中的分布
•
结构难度:用音节数(中文为笔画数)和字符数描述结构难度
𝐾
𝑤
𝑆
K
_
w
^
S
2.构造知识图
构造无向图G=(V, E),V为顶点集合,每个顶点表示一个词,E为边集合,每条边表示两个词在难度上的相似度
Sim_edge:相连的两个顶点代表的词具有相似的难度,边的权重为正
Dissim_edge:相连的两个顶点代表的词具有不同的难度,边的权重为负
保留前
k
个最相似(不相似)的邻居
3.基于知识图的词向量表示(𝐾𝐸𝑊𝐸𝑘〖KEWE〗_k)
从知识图中提取
难度上下文
并训练基于阅读难度的词向量
词w的难度上下文:与w在难度上相关的词的集合
定义两种难度上下文:positive context和negative context,对应两种边
(
Sim_edge,Dissim_edge
)
对于positive
context,使用node2vec
中的随机游走策略。在采样得到的路径上应用大小为s的滑动窗口,得到positive context的中心词-上下文词对集合
{(
𝑤
𝑡
,
𝑤
𝑐
)}{(w_t,w_c)}
相似性是可以传递的,不相似性是不可传递的,因此,对于negative
context不能使用随机游走策略。使用最近邻策略得到negative
context列表
𝐶
𝑛
(
𝑤
𝑡
)C_n (w_t)
通过Skip-Gram模型和下采样训练词向量
2.Text as Environment: A Deep Reinforcement Learning Text Readability Assessment Model-Hamid Mohammadi,2019
提出了一个深度强化学习可读性模型
Motivation
:现有的可读性模型严重依赖于语言,且在长文本上表现不佳
什么是深度强化学习:使用深度学习神经网络来完成强化学习过程
强化学习:智能体是强化学习的第一个重要概念,是主角,但强化学习作为一台好戏,自然不能光有主角,还得有舞台,这就是强化学习的第二个重要概念,环境(
Environment
)。强化学习的学习过程,就是作为主角的智能体和作为舞台的环境不断交互的过程。这个过程又包括三个重要概念,分别是观察(
Observation
)、动作(
Action
)和奖励(
Reward
)。强化学习的主线是智能体与环境的各种交互,那现在当智能体做出某个动作后,环境当然也得有所表示,得有个反馈信息,这就是奖励。
n
该模型与部分可观察文本环境的交互给予了两组奖励。
n
1.
对窗口位置的变化所给予的负奖励,使模型采取最小的步数。
n
2.
选择预期文本的可读性水平,可以观察到积极或消极的奖励。奖励的积极性或消极性取决于所决定的可读性类别的正确性(正奖励)或不正确性(负奖励)。
n
模型有效使用文本的最小部分来评估可读性。
3.Measuring text readability with machine comprehension: a pilot study-Marc Benzahra,2019
n
提出了一个假设:一个文本越简单,它就越容易被机器所理解
n
使用语言模型在不同难度(
WikiText-2
、
WikiText-103
、
Wiki-Simple
)的语料中进行训练,在两个可读性数据集上进行了
Cloze
测试(为了验证假设,按照不同文本等级评估该等级下填空的完成率)
n
结果:
符合预期:WikiText-2上训练的模型结果比在其他两个上面训练的差,GPT2模型的效果最好
不符合预期:Wiki-Simple上训练的模型,在简单文本上的填空表现优于另外两个模型
在OSE数据集上,确实有文本等级越难,填空完成率越高的情况,但不显著
在Weebit数据集上,3级的文本填空完成率最高,高于1、2级,低于4、5级, 事实上,所有模型在1、2级文本的表现上都不佳
n
结论:
Cloze
测试的表现不能用来衡量可读性,理解能力和可读性相关性很小
4.A Neural Pairwise Ranking Model for Readability Assessment-Justin Lee,2022
n
提出了一个神经成对排序模型
n
利用
bert
预训练语言模型训练了一个可读性成对排序模型