自然语言处理——词中的数学

自然语言处理——词中的数学

将自然语言的文本转换成数值,可以对他们进行处理并计算;主要介绍如何将文字转化为计算机可以理解的数值; 介绍这些数值的作用和用途。


前言

词是指文章中的词, 什么样的词可以在文章中占有重要地位? 现在以数学方法解决词类问题,所以提出了用数学表示词的想法。

频繁出现的词:
归一化的词项频率:某个词出现频率除以文档中的词项总数


一、词这种原材料如何获取?

使用数学来表达文本材料中出现的词,如何在文本中获取这种原材料(词)呢?
使用分词工具:中英文不同。
分词的结果可以装进词袋中。
这种词袋装满了意义和信息,可以帮助实现垃圾邮件检测、情感计算、讽刺检测等。

二、计算机如何认识词袋?

从纯文本数据中获取得到词袋后,可以通过以下两种方法让计算机记住他们:
1-数量:统计不同词的出现频率(TF【term frequency】:词项频率)。
2-向量:将归一化词项频率后将所有向量都转换到标准长度或维度上(在欧几里得空间中)。

用数量表示时:重复出现次数多的词可能为文章的主题词。
用向量表示时:可以展现不同词间的关系,也可以在空间中展示不同的词
向量空间的维数指的是语料库中出现不同词的数量。

为什么用向量表示词?

因为向量相对于onehot表示词时使矩阵更加稠密吧,解决矩阵稀疏的问题。

那么为什么要解决矩阵稀疏的问题?

矩阵里包括好多0(自行想象),这样称之为稀疏矩阵。
稀疏矩阵在运算时掺杂很多无用计算,为了提高效率所以要消灭稀疏矩阵,进而消灭(替换)onehot 表示词的方法。

三、词向量可以用来做什么?

可以通过计算两向量的余弦推测文档相似度(两个向量指向同一方向的程度)。

四、为何提出TF-IDF?

TF只表示一篇文档中某个主题词的重要程度,but当文档较多时,某个主题词是否还算重要呢?
为解决这一问题,提出了IDF(inverse document frequency)这一概念:文档集合中的文档总数除以某个词出现的文档总数。
TF-IDF 为该词在给定文档中的重要度赋予了一个数值。

五、词向量与TF-IDF如何联系?【总结】

首先,在单个文档中利用TF-IDF计算出重要主题词,也可以视为简单搜索引擎的简陋的基础。
然后,计算不同文档的主题词的词向量来衡量文本间是否相似(文档相似度)。

鄙人才疏学浅,希望获得大家的反馈意见。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值