把自然语言文本转换为向量 | NLP基础

本文介绍了如何将自然语言文本转换为向量,重点讲解了向量空间模型(VSM)的构建,包括基于n-gram的文本特征提取和计算TF-IDF,以及如何通过熵来筛选Term,缩减VSM。
摘要由CSDN通过智能技术生成

NLP基础系列

    1. 浅论语言与认知的关系

    2. 为什么要处理自然语言

    3. 计算机是如何理解自然语言的

    4. 文本标注十要点



把自然语言文本转换为向量

文本分析

 

文本分析指从文本中抽取出的特征来量化来表示文本信息,并在此基础上对其进行基于数学模型的处理。它是文本挖掘、信息检索的一个基本问题。

在“大数据”盛行的今天,对于非结构化信息的处理已经成了许多工作的必选项,而自然语言书写的文本,就是最典型的一种非结构化信息。

 

文本分析已经从学院派象牙塔中的研究课题逐步渗入到各个应用领域。对于正在做或者有志于做数据分析的人,掌握基本的文本分析知识和技法,已经成为必要。

 

向量空间模型

 

针对文本的具体操作很多,最典型的就是分类和聚类。引入机器学习的办法,让程序自己“学会”如何去区分不同类型的文本,是当前业界通行的办法。

 

而如此做的前提,是要把一个个自然语言文档(Document),转换为一个个可以用来进行数学运算的向量(Vector)。

 

当你用某种机器学习算法对某些文本进行分析的时候,你首先需要一个训练集(Training Set)。

 

假设这个训练集中包含N个文档,你要把这N个文档转换成N个与之一一对应的向量。再假设每个向量包含M维。

 

那么最终,当全部转换完之后,你把所有N个M维向量放在一起,就构成了一个NxM的矩阵(Matrix)。

 

这个矩阵就是你的训练集所构建的向量空间模型(Vector Space Model,VSM)。

 

之后的算法,就是运行在这个NxM的矩阵之上的。

向量空间模型的构建方式大致可以分为两类:

  1. 非深度学习的手工特征工程方法,由特征提取的人员手工设置一些转换规则,将文本转换为向量;

  2. 基于深度学习的文本数据表征方法,简答说就是专门训练一个深度学习模型,对应的输入是自然语言文本,而输出是一个表示该文本的向量。

今天我们要讲的是第一种方式。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叶锦鲤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值