零基础入门NLP之新闻文本分类挑战赛——基于机器学习的文本分类

最新推荐文章于 2022-04-22 12:56:26 发布

melody_44154393

最新推荐文章于 2022-04-22 12:56:26 发布

阅读量4.8k

点赞数

文章标签：算法 python 机器学习 nlp

本文链接：https://blog.csdn.net/weixin_44154393/article/details/107584991

版权

本文介绍了自然语言处理中的文本表示方法，包括Embedding、One-Hot编码、Bag of words、N-gram模型和TF-IDF，并探讨了它们在机器学习中的应用。通过这些方法，可以将不定长的文本转换为机器学习模型可用的输入，以进行文本分类。此外，还提到了基于机器学习的文本分类模型，如RidgeClassifier和随机森林。

摘要由CSDN通过智能技术生成

接下来介绍一下基于机器学习的文本分类方法。

一、文本表示方法

在机器学习算法的训练过程中，假设给定 $N$ 个样本，每个样本有 $M$ 个特征，这样组成了 $N \times M$ 的样本矩阵，然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征，每张图片看作hight×width×3的特征图，一个三维的矩阵来进入计算机进行计算。

但是在自然语言领域，上述方法却不可行：文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入（Word Embedding）方法。词嵌入将不定长的文本转换到定长的空间内，是文本分类的第一步。

1、什么是Embedding？

Embedding在数学上表示一个映射关系，F: X -> Y，也就是一个Function，其中该函数是injective（就是我们所说的单射函数，每个Y只有唯一的X对应，反之亦然）和structure-preserving (结构保存，比如在X所属的空间上X1 < X2,那么映射后在Y所属空间上同理 Y1 < Y2)。那么对于word embedding，就是将单词word映射到另外一个空间，其中这个映射具有injective和structure-preserving的特点。

深度学习中，Embedding 特指用一个低维度向量表示一个实体，实体可以是一个词(Word2Vec)，可以是一个物品(Item2Vec)，亦或者网络关系中的节点(Graph Embedding)。

举个栗子：
使用Word2Vec将单词映射到新的向量空间，获得单词的新的表达。从图中可以得出：
Embedding(Moscow) - Embedding(Russia) ≈ Embedding(Tokyo) - Embedding(Japan)，即 Embedding 之后向量可以进行计算。并且，距离相近的向量对应的实体有相近的含义。
在这里插入图片描述

2、One-Hot

独热编码(One-Hot)编码，又称

最低0.47元/天解锁文章

melody_44154393

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
零基础入门NLP之新闻文本分类挑战赛——基于机器学习的文本分类

接下来介绍一下基于机器学习的文本分类方法。一、文本表示方法在机器学习算法的训练过程中，假设给定NNN个样本，每个样本有MMM个特征，这样组成了N×MN×MN×M的样本矩阵，然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征，每张图片看作hight×width×3的特征图，一个三维的矩阵来进入计算机进行计算。但是在自然语言领域，上述方法却不可行：文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入（Word Embedding）方法。词嵌入将不定长的文本转换到定
复制链接

扫一扫