文本可读性近期论文综述

最新推荐文章于 2023-05-09 16:03:31 发布

生煎蛋dd

最新推荐文章于 2023-05-09 16:03:31 发布

阅读量934

点赞数 1

分类专栏：论文阅读

本文链接：https://blog.csdn.net/weixin_43837972/article/details/127848040

版权

文本可读性深度学习强化学习词向量可读性评估

关键词由CSDN通过智能技术生成

论文阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一. 什么是文本可读性

二. 可读性自动分析的近期进展

一. 什么是文本可读性？

定义？：是什么导致了文本之间的难度差距？影响文本难度的核心特征是什么？文本难度是否可以进行度量？是否可以借助计算机对文本难度进行自动分析？学者们从不同角度对文本难度问题进行了探讨，这些研究后来被统称为可读性研究。文本可读性其实就是对于读者而言文本的阅读难度。

任务：文本可读性问题最初由教育学家提出，初衷是辅助教师为语言学习者推荐适合其阅读水平的文本。可读性任务是指给定一篇文本，通过对文本进行分析，给出该文本的难度值或判断该文本适合哪一水平的读者。

分类：

◦ 按语义可分为：平行语义可读性分析，非平行语义可读性分析

◦ 按文本粒度可分为：汉字，词汇，句子，语段，篇章可读性分析

◦ 按语言种类可分为：英语可读性分析，汉语可读性分析等

二、可读性自动分析的近期进展

1.Enriching Word Embeddings with Domain Knowledge for Readability Assessment

Zhiwei Jiang，2018

该模型有三个阶段，具体如下：

1.领域知识抽取

阅读难度 = 习得难度 + 使用难度 + 结构难度

习得难度：用习得年龄 ( AoA ) 衡量习得难度

• 三种资源：教材、课外教材、水平考试教材

• 使用难度：用两种方式衡量词汇的使用难度

• 文本语料库中的词频

• 词汇在不同难度等级句子中的分布

• 结构难度：用音节数（中文为笔画数）和字符数描述结构难度 𝐾 𝑤 𝑆 K _ w ^ S

2.构造知识图

构造无向图G=(V, E)，V为顶点集合，每个顶点表示一个词，E为边集合，每条边表示两个词在难度上的相似度

Sim_edge：相连的两个顶点代表的词具有相似的难度，边的权重为正

Dissim_edge：相连的两个顶点代表的词具有不同的难度，边的权重为负

保留前 k 个最相似（不相似）的邻居

3.基于知识图的词向量表示(𝐾𝐸𝑊𝐸𝑘〖KEWE〗_k)

从知识图中提取难度上下文并训练基于阅读难度的词向量

词w的难度上下文：与w在难度上相关的词的集合

定义两种难度上下文：positive context和negative context，对应两种边 ( Sim_edge，Dissim_edge )

对于positive context，使用node2vec 中的随机游走策略。在采样得到的路径上应用大小为s的滑动窗口，得到positive context的中心词-上下文词对集合 {( 𝑤 𝑡 , 𝑤 𝑐 )}{(w_t,w_c)}

相似性是可以传递的，不相似性是不可传递的，因此，对于negative context不能使用随机游走策略。使用最近邻策略得到negative context列表 𝐶 𝑛 ( 𝑤 𝑡 )C_n (w_t)

通过Skip-Gram模型和下采样训练词向量

2.Text as Environment: A Deep Reinforcement Learning Text Readability Assessment Model-Hamid Mohammadi，2019

提出了一个深度强化学习可读性模型

Motivation ：现有的可读性模型严重依赖于语言，且在长文本上表现不佳

什么是深度强化学习：使用深度学习神经网络来完成强化学习过程

强化学习：智能体是强化学习的第一个重要概念，是主角，但强化学习作为一台好戏，自然不能光有主角，还得有舞台，这就是强化学习的第二个重要概念，环境（ Environment ）。强化学习的学习过程，就是作为主角的智能体和作为舞台的环境不断交互的过程。这个过程又包括三个重要概念，分别是观察（ Observation ）、动作（ Action ）和奖励（ Reward ）。强化学习的主线是智能体与环境的各种交互，那现在当智能体做出某个动作后，环境当然也得有所表示，得有个反馈信息，这就是奖励。