【机器学习入门】文本分析基础概念与方法

小浪要学习

已于 2023-05-03 23:56:42 修改

阅读量2.2k

点赞数 4

分类专栏：机器学习入门文章标签：机器学习 python 人工智能

于 2023-04-24 12:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62958065/article/details/130298822

版权

机器学习入门专栏收录该内容

10 篇文章 3 订阅

订阅专栏

目录

一、文本分析

文本的分析方法

文本分析的应用

对于中文文本

对于英文文本：

二、常见的文本特征表示方法

TF-IDF的值由tf×idf计算获得，即tf和idf的数值乘积。

方法阐述：

基本概念：

4.卡方统计量

基本概念：

公式方法：

一、文本分析

又称文本挖掘，是指通过对文本内部特征提取，获取隐含的语义信息或概括性主题，从而产生高质量的结构化信息，合理的文本分析技术能够获取作者的真实意图。

文本的分析方法

典型的文本挖掘方法：

文本分类
文本聚类
实体挖掘
观点分析
文档摘要
实体关系提取

等等。

文本分析的应用

论文查重
垃圾邮件过滤
情感分析
智能机器和信息抽取

等方面。

对于中文文本

由于中文的词并不像英文单词之间存在固定的间隔符号，因此需要分词处理。

目前中文分词有基于词典、基于统计和基于规则等方法，上述方法已经有较多成熟可用的实现算法。

对于英文文本：

由于英文单词之间都是用空格间隔，因此只需要词形归一化，即词干化，也称为取词根，例如，将复数的birds词干化为bird。

二、常见的文本特征表示方法

常见的文本特征选择方法有信息增益、互信息、卡方统计、TF-IDF等。

1.TF-IDF

基本概念

TF-IDF（Term Frequency– Inverse Document Frequency）是一种文本统计方法。

erm Frequency指词频，即某一个给定的词语在该文件中出现的频率。

nverse Document Frequency指逆文档频率。

基本思想

字词的重要性与它在当前文档中出现的次数（词频）成正比，与它在整个语料库中出现的频率成反比。

假设词频为tf(w，d)，w为该词语，d为既定文档，

则tf(w，d)=count(w，d)/size(d)

其中count(w，d)表示词w在文档d中出现的词数

size(d)为该文档的总词数。

逆向文件频率（Inverse Document Frequency）：idf=log[n/docs(w，D)]。

其中D表示语料库中的文件集。

TF-IDF的值由tf×idf计算获得，即tf和idf的数值乘积。

某一特定文件内的较高词语频次，以及该词语在整个文件集合中的较低频次，可以产生较高的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

2.信息增益

基本概念

表示了某一个特征项的存在与否对类别预测的影响，定义为考虑某一特征项在文本中出现前后的信息熵之差。

重要性的衡量标准就是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越突出。

方法阐述：

信息熵是信息论中对信息量多少的衡量指标，是对随机变量不确定性的度量，假如有变量x，它可能的取值有n种，分别是x1，x2，…，xi，…，xn，每一种取到的概率分别是p1，p2，…，pi，…，pn，那么x的熵就定义为：

从中可见，一个变量可能的取值越多，它携带的信息量就越大，即熵与值的种类多少以及发生概率有关。

3.互信息

基本概念：

互信息（MI）表示两个变量x与y是否有关系，以及关系的强弱，可用于文本分类。

MI值的计算公式如下：

其中，p(t)表示特征t在文本训练集中出现的概率，p(t，Ci)表示类别Ci中包括特征t的样本数量占总样本数的比例，p(Ci)表示文本类别Ci的出现概率，即类别Ci的样本数占总样本数的比例。

从互信息的定义可见，某个特征词在某个类别Ci出现频率高，但在其他类别出现频率比较低，则它与该类Ci的互信息就会比较大。

互信息越大，表示 X 和 Y 之间的关系越密切。

当 X 和 Y 完全独立时，它们的互信息为零。

而当 X 和 Y 之间存在高度相关性时，它们的互信息会很大。

4.卡方统计量

基本概念：

卡方统计量(Chi-squared test)是一种用于检验数据分布是否符合某种假设的统计方法。

它可以用于分析两个分类变量之间的关联程度，即判断一个观察值与期望值之间是否存在显著性差异。

公式方法：

其中E表示理论值，xi表示实际值，在文本特征选择阶段，一般使用“特征词t与类别c不相关”来作为原假设。

计算出的卡方值越大，说明对原假设的偏离越大，就认为原假设的反面是正确的，即特征词t与类别c是相关的。

卡方选择特征的依据是基于显著性统计，它关心的是文档中是否出现某一词，却不管这一词在该文档中出现的次数，这明显有利于低频词。

5.词嵌入

基本概念

词嵌入(word embedding)是指将单词或词语映射到一个低维向量空间中的技术。

使用低维、稠密、实值的词向量来表示每一个词，从而使计算词语相关度成为可能。两个词具有语义相关或相似，则它们所对应的词向量之间距离相近。

度量向量之间的距离可以使用经典的欧拉距离和余弦相似度等。

近年来，随着深度学习技术的快速发展，基于神经网络的词嵌入方法已经成为主流。

其中最著名的是Word2Vec模型，它通过将单词转换为连续的向量来表示它们的语义和语法关系。Word2Vec模型有两种变体：CBOW(Continuous Bag-of-Words)和Skip-gram。

CBOW模型利用上下文单词来预测当前单词，而Skip-gram模型则利用当前单词来预测上下文单词。这两种模型都能够生成高质量的词向量，并且已经被广泛应用于各种自然语言处理任务中。

参考书籍《机器学习》赵卫东董亮

机器学习 -吴恩达

小浪要学习

关注

4
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
【机器学习入门】文本分析基础概念与方法

为文本挖掘。通过对文本内部特征提取，获取隐含的语义信息或概括性主题，从而产生高质量的结构化信息，合理的文本分析技术能够获取作者的真实意图。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。