《文本数据挖掘》读书笔记(二)——文本表示

文本是由文字和标点组成的字符串。字或字符组成词、词组或短语,进而形成句子,段落和篇章。要使计算机能够高效处理真实文本,就必须找到一种理想的形式化表示方法。这种表示一方面要能够真实地反映文本的内容,包括文本的主题、领域、结构和语义等,另一方面又要对不同文本有较好的区分能力,而且便于计算或处理。


文本的本质是由字符构成的字符串。字符串是无结构化的数据,但是字符串具有语法,通过语法组织起来的字符串背后隐藏着丰富的含义,这些含义无法被机器学习模型直接使用,因此首先需要将真实的文本转化为机器学习算法易于处理的表示形式。机器学习方法首先将输入的文本进行形式化,将其表示为向量或者其他形式,并基于形式化表示进行机器学习模型的训练和决策。这种将文本进行形式化的过程称为文本表示(text representation)。


文本表示方法基本上是伴随着自然语言处理和文本数据挖掘的范式迁移得到不断发展的。在文本数据挖掘技术刚刚兴起的阶段,规则方法是主流。例如,针对文本的关键词挖掘,通常采用一些字符串直接匹配的方法,这一阶段的文本表示方法以独立的字符串表示为主。基于统计机器学习方法的文本数据挖掘技术兴起以后,以向量空间模型为核心的文本表示方法成为主流,无论是词语、句子还是文档,都将其表示为词表规模的向量,从而方便了文本之间的计算。例如,在文本聚类任务中,以向量空间模型表示每个文本,利用向量之间的距离计算方法度量文本之间的相似度,从而完成相似文本的聚类。近年来,深度学习技术逐渐主导了文本数据挖掘领域,文本表示方法也从基于离散符号的高维向量空间模型过渡到基于低维连续实数向量空间的分布式表示。而且,与基于离散符号统计的向量空间模型不同,分布式文本表示往往需要与深度学习模型联合学习,才能获得高质量的文本表示。


本文首先介绍向量空间模型,然后重点介绍词语的分布式表示方法,相信了解完词语的表示之后短语、句子、文档的表示方法都会很容易看懂!

8c949173471b4364940ee9ff66c02309.jpg

 eab4d259e7434213b814c0c64c45d44e.jpg

e0d76b0d99d84d2a83a473cfcf3614a6.jpg

796eb28e85e649ecbc8c5fad42d082a6.jpg

b7790865d042487498ffdbb73badd8ea.jpg

474d2ae86a0c4712b208747d65a04bce.jpg

1f9b4dba74e841e3ad050f1e54ef822a.jpg

a2f3b56b83ed4e12b09ab15481ab310b.jpg

43ba7e6478a3456c90f202793675b973.jpg

b90552c027e4407fb33e2c50943e4fcd.jpg

69fe0f6c00bf43868caf6a0824c94357.jpg

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

星宇星静

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值