【机器学习入门】文本分析基础概念与方法

目录

一、文本分析

文本的分析方法

文本分析的应用

对于中文文本

对于英文文本:

二、常见的文本特征表示方法

1.TF-IDF

基本概念

基本思想

TF-IDF的值由tf×idf计算获得,即tf和idf的数值乘积。

2.信息增益

基本概念

方法阐述:

3.互信息

基本概念:

4.卡方统计量

基本概念:

公式方法:

5.词嵌入

基本概念


一、文本分析

又称文本挖掘,是指通过对文本内部特征提取,获取隐含的语义信息或概括性主题,从而产生高质量的结构化信息,合理的文本分析技术能够获取作者的真实意图。

文本的分析方法

典型的文本挖掘方法:

  • 文本分类
  • 文本聚类
  • 实体挖掘
  • 观点分析
  • 文档摘要
  • 实体关系提取

等等。

文本分析的应用

  • 论文查重
  • 垃圾邮件过滤
  • 情感分析
  • 智能机器和信息抽取

等方面。

对于中文文本

由于中文的词并不像英文单词之间存在固定的间隔符号,因此需要分词处理。

目前中文分词有基于词典、基于统计和基于规则等方法,上述方法已经有较多成熟可用的实现算法。

对于英文文本:

由于英文单词之间都是用空格间隔,因此只需要词形归一化,即词干化,也称为取词根,例如,将复数的birds词干化为bird。

二、常见的文本特征表示方法

常见的文本特征选择方法有信息增益、互信息、卡方统计、TF-IDF等。

1.TF-IDF

基本概念

TF-IDF(Term Frequency– Inverse Document Frequency)是一种文本统计方法。

erm Frequency指词频,即某一个给定的词语在该文件中出现的频率。

nverse Document Frequency指逆文档频率。

基本思想

字词的重要性与它在当前文档中出现的次数(词频)成正比,与它在整个语料库中出现的频率成反比

假设词频为tf(w,d),w为该词语,d为既定文档,

则tf(w,d)=count(w,d)/size(d)

其中count(w,d)表示词w在文档d中出现的词数

size(d)为该文档的总词数。

逆向文件频率(Inverse Document Frequency):idf=log[n/docs(w,D)]。

其中D表示语料库中的文件集。

TF-IDF的值由tf×idf计算获得,即tf和idf的数值乘积。

某一特定文件内的较高词语频次,以及该词语在整个文件集合中的较低频次,可以产生较高的TF-IDF。 因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语

2.信息增益

基本概念

表示了某一个特征项的存在与否对类别预测的影响,定义为考虑某一特征项在文本中出现前后的信息熵之差。

重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越突出

方法阐述:

信息熵是信息论中对信息量多少的衡量指标,是对随机变量不确定性的度量,假如有变量x,它可能的取值有n种,分别是x1,x2,…,xi,…,xn,每一种取到的概率分别是p1,p2,…,pi,…,pn,那么x的熵就定义为:

从中可见,一个变量可能的取值越多,它携带的信息量就越大,即熵与值的种类多少以及发生概率有关。

3.互信息

基本概念:

互信息(MI)表示两个变量x与y是否有关系,以及关系的强弱,可用于文本分类。

MI值的计算公式如下: 

其中,p(t)表示特征t在文本训练集中出现的概率,p(t,Ci)表示类别Ci中包括特征t的样本数量占总样本数的比例,p(Ci)表示文本类别Ci的出现概率,即类别Ci的样本数占总样本数的比例。

从互信息的定义可见,某个特征词在某个类别Ci出现频率高,但在其他类别出现频率比较低,则它与该类Ci的互信息就会比较大

互信息越大,表示 X 和 Y 之间的关系越密切。

当 X 和 Y 完全独立时,它们的互信息为零。

而当 X 和 Y 之间存在高度相关性时,它们的互信息会很大。

4.卡方统计量

基本概念:

卡方统计量(Chi-squared test)是一种用于检验数据分布是否符合某种假设的统计方法。

它可以用于分析两个分类变量之间的关联程度,即判断一个观察值与期望值之间是否存在显著性差异。

公式方法:

其中E表示理论值,xi表示实际值,在文本特征选择阶段,一般使用“特征词t与类别c不相关”来作为原假设。

计算出的卡方值越大,说明对原假设的偏离越大,就认为原假设的反面是正确的,即特征词t与类别c是相关的。

卡方选择特征的依据是基于显著性统计,它关心的是文档中是否出现某一词,却不管这一词在该文档中出现的次数,这明显有利于低频词。

5.词嵌入

基本概念

词嵌入(word embedding)是指将单词或词语映射到一个低维向量空间中的技术。

使用低维、稠密、实值的词向量来表示每一个词,从而使计算词语相关度成为可能。两个词具有语义相关或相似,则它们所对应的词向量之间距离相近。

度量向量之间的距离可以使用经典的欧拉距离和余弦相似度等。

近年来,随着深度学习技术的快速发展,基于神经网络的词嵌入方法已经成为主流。

其中最著名的是Word2Vec模型,它通过将单词转换为连续的向量来表示它们的语义和语法关系。Word2Vec模型有两种变体:CBOW(Continuous Bag-of-Words)和Skip-gram。

CBOW模型利用上下文单词来预测当前单词,而Skip-gram模型则利用当前单词来预测上下文单词。这两种模型都能够生成高质量的词向量,并且已经被广泛应用于各种自然语言处理任务中。


参考书籍《机器学习》赵卫东 董亮

机器学习 -吴恩达 

  • 4
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
天池大赛是国内知名的数据科学竞赛平台,零基础入门NLP - 新闻文本分类是其中的一项比赛任务。这个任务的目标是利用机器学习和自然语言处理的方法,对给定的新闻文本进行分类,即根据新闻内容判断其所属的类别。这个任务对于初学者来说是一个很好的入门项目。 在解决这个问题的过程中,我们需要首先对提供的训练数据进行探索性数据分析,了解数据的分布,词频以及类别的平衡情况。然后,我们可以进行文本预处理,包括分词、去除停用词、词干化等。接下来,可以构建特征表示,可以使用TF-IDF、Word2Vec或者其他词嵌入模型来提取文本的向量表示。在构建特征表示后,可以选择合适的机器学习算法,如朴素贝叶斯、支持向量机、深度学习等,来训练分类模型。 在进行模型训练之前,可以将数据集分为训练集和验证集,用于模型的评估和调优。我们可以使用交叉验证,调整模型的超参数,选择表现最好的模型。在模型训练完成后,可以使用测试集对模型进行评估,计算准确率、召回率和F1值等指标。最后,我们可以利用模型对给定的未知新闻文本进行分类预测。 在解决这个问题的过程中,还可以进行一些方法的优化和改进。比如,可以使用集成学习的方法,如随机森林、XGBoost或者LightGBM等,结合多个分类器的结果来提高整体的分类准确率。此外,可以尝试使用预训练的模型,如BERT等,来获得更好的特征表示。此外,还可以尝试使用深度学习网络,如卷积神经网络或者循环神经网络,来提取文本的高级语义特征。 总之,零基础入门NLP - 新闻文本分类是一个很好的机会,可以学习和应用自然语言处理的知识和技术。通过解决这个问题,我们可以深入了解文本分类的基本概念方法,提升自己在数据科学领域的能力和竞争力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值