零基础入门NLP之新闻文本分类挑战赛——基于机器学习的文本分类

本文介绍了自然语言处理中的文本表示方法,包括Embedding、One-Hot编码、Bag of words、N-gram模型和TF-IDF,并探讨了它们在机器学习中的应用。通过这些方法,可以将不定长的文本转换为机器学习模型可用的输入,以进行文本分类。此外,还提到了基于机器学习的文本分类模型,如RidgeClassifier和随机森林。
摘要由CSDN通过智能技术生成

接下来介绍一下基于机器学习的文本分类方法。

一、文本表示方法

在机器学习算法的训练过程中,假设给定 N N N个样本,每个样本有 M M M个特征,这样组成了 N × M N×M N×M的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,一个三维的矩阵来进入计算机进行计算。

但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。

1、什么是Embedding?

Embedding在数学上表示一个映射关系,F: X -> Y, 也就是一个Function,其中该函数是injective(就是我们所说的单射函数,每个Y只有唯一的X对应,反之亦然)和structure-preserving (结构保存,比如在X所属的空间上X1 < X2,那么映射后在Y所属空间上同理 Y1 < Y2)。那么对于word embedding,就是将单词word映射到另外一个空间,其中这个映射具有injective和structure-preserving的特点。

深度学习中,Embedding 特指用一个低维度向量表示一个实体,实体可以是一个词(Word2Vec),可以是一个物品(Item2Vec),亦或者网络关系中的节点(Graph Embedding)。

举个栗子:
使用Word2Vec将单词映射到新的向量空间,获得单词的新的表达。从图中可以得出:
Embedding(Moscow) - Embedding(Russia) ≈ Embedding(Tokyo) - Embedding(Japan),即 Embedding 之后向量可以进行计算。并且,距离相近的向量对应的实体有相近的含义。
在这里插入图片描述

2、One-Hot

独热编码(One-Hot)编码,又称

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值