《文本数据挖掘》读书笔记(二)——文本表示

最新推荐文章于 2024-10-18 00:00:00 发布

星宇星静

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量68

点赞数 1

文章标签： nlp 论文笔记数据挖掘 python 人工智能

本文链接：https://blog.csdn.net/weixin_54703767/article/details/134417516

版权

文本是由文字和标点组成的字符串。字或字符组成词、词组或短语，进而形成句子,段落和篇章。要使计算机能够高效处理真实文本，就必须找到一种理想的形式化表示方法。这种表示一方面要能够真实地反映文本的内容，包括文本的主题、领域、结构和语义等，另一方面又要对不同文本有较好的区分能力，而且便于计算或处理。

文本的本质是由字符构成的字符串。字符串是无结构化的数据，但是字符串具有语法，通过语法组织起来的字符串背后隐藏着丰富的含义，这些含义无法被机器学习模型直接使用，因此首先需要将真实的文本转化为机器学习算法易于处理的表示形式。机器学习方法首先将输入的文本进行形式化，将其表示为向量或者其他形式，并基于形式化表示进行机器学习模型的训练和决策。这种将文本进行形式化的过程称为文本表示(text representation)。

文本表示方法基本上是伴随着自然语言处理和文本数据挖掘的范式迁移得到不断发展的。在文本数据挖掘技术刚刚兴起的阶段，规则方法是主流。例如，针对文本的关键词挖掘，通常采用一些字符串直接匹配的方法，这一阶段的文本表示方法以独立的字符串表示为主。基于统计机器学习方法的文本数据挖掘技术兴起以后，以向量空间模型为核心的文本表示方法成为主流，无论是词语、句子还是文档，都将其表示为词表规模的向量，从而方便了文本之间的计算。例如，在文本聚类任务中，以向量空间模型表示每个文本，利用向量之间的距离计算方法度量文本之间的相似度，从而完成相似文本的聚类。近年来，深度学习技术逐渐主导了文本数据挖掘领域，文本表示方法也从基于离散符号的高维向量空间模型过渡到基于低维连续实数向量空间的分布式表示。而且，与基于离散符号统计的向量空间模型不同，分布式文本表示往往需要与深度学习模型联合学习,才能获得高质量的文本表示。

本文首先介绍向量空间模型，然后重点介绍词语的分布式表示方法，相信了解完词语的表示之后短语、句子、文档的表示方法都会很容易看懂！