自然语言处理——词中的数学

最新推荐文章于 2022-10-09 19:57:34 发布

will_jay1995

最新推荐文章于 2022-10-09 19:57:34 发布

阅读量519

点赞数

分类专栏：自然语言处理文章标签：自然语言处理 tf-idf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/will_jay1995/article/details/114733344

版权

自然语言处理专栏收录该内容

7 篇文章 1 订阅

订阅专栏

自然语言处理——词中的数学

将自然语言的文本转换成数值，可以对他们进行处理并计算；主要介绍如何将文字转化为计算机可以理解的数值; 介绍这些数值的作用和用途。

文章目录

自然语言处理——词中的数学
前言
一、词这种原材料如何获取？
二、计算机如何认识词袋？
- ==**为什么用向量表示词？**==
- ==**那么为什么要解决矩阵稀疏的问题？**==
三、词向量可以用来做什么？
四、为何提出TF-IDF？
五、词向量与TF-IDF如何联系？【总结】

前言

词是指文章中的词，什么样的词可以在文章中占有重要地位？现在以数学方法解决词类问题，所以提出了用数学表示词的想法。

频繁出现的词：
归一化的词项频率：某个词出现频率除以文档中的词项总数

一、词这种原材料如何获取？

使用数学来表达文本材料中出现的词，如何在文本中获取这种原材料（词）呢？
使用分词工具：中英文不同。
分词的结果可以装进词袋中。
这种词袋装满了意义和信息，可以帮助实现垃圾邮件检测、情感计算、讽刺检测等。

二、计算机如何认识词袋？

从纯文本数据中获取得到词袋后，可以通过以下两种方法让计算机记住他们：
1-数量：统计不同词的出现频率（TF【term frequency】：词项频率）。
2-向量：将归一化词项频率后将所有向量都转换到标准长度或维度上（在欧几里得空间中）。

用数量表示时：重复出现次数多的词可能为文章的主题词。
用向量表示时：可以展现不同词间的关系，也可以在空间中展示不同的词
向量空间的维数指的是语料库中出现不同词的数量。

为什么用向量表示词？

因为向量相对于onehot表示词时使矩阵更加稠密吧，解决矩阵稀疏的问题。

那么为什么要解决矩阵稀疏的问题？

矩阵里包括好多0（自行想象），这样称之为稀疏矩阵。
稀疏矩阵在运算时掺杂很多无用计算，为了提高效率所以要消灭稀疏矩阵，进而消灭（替换）onehot 表示词的方法。

三、词向量可以用来做什么？

可以通过计算两向量的余弦推测文档相似度（两个向量指向同一方向的程度）。

四、为何提出TF-IDF？

TF只表示一篇文档中某个主题词的重要程度，but当文档较多时，某个主题词是否还算重要呢？
为解决这一问题，提出了IDF（inverse document frequency）这一概念：文档集合中的文档总数除以某个词出现的文档总数。
TF-IDF 为该词在给定文档中的重要度赋予了一个数值。

五、词向量与TF-IDF如何联系？【总结】

首先，在单个文档中利用TF-IDF计算出重要主题词，也可以视为简单搜索引擎的简陋的基础。
然后，计算不同文档的主题词的词向量来衡量文本间是否相似（文档相似度）。

鄙人才疏学浅，希望获得大家的反馈意见。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理——词中的数学

自然语言处理——词中的数学将自然语言的文本转换成数值，可以对他们进行处理并计算；主要介绍如何将文字转化为计算机可以理解的数值; 介绍这些数值的作用和用途。文章目录自然语言处理——词中的数学前言一、词这种原材料如何获取？二、计算机如何认识词袋？==**为什么用向量表示词？**====**那么为什么要解决矩阵稀疏的问题？**==三、词向量可以用来做什么？四、为何提出TF-IDF？五、词向量与TF-IDF如何联系？【总结】前言词是指文章中的词，什么样的词可以在文章中占有重要地位？现在以数学方
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。