Python之机器学习日记02——朴素贝叶斯02

最新推荐文章于 2022-12-29 23:26:15 发布

暮雨安红

最新推荐文章于 2022-12-29 23:26:15 发布

阅读量353

点赞数

文章标签：机器学习 python 算法自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44403119/article/details/105847479

版权

机器学习日记02——朴素贝叶斯02

自然语言处理与词向量

（参考资料：liukn教授机器学习教程，网络课程）

1. 自然语言处理的几个常见应用：

1、机器翻译
2、打击文本类垃圾，如微信、邮件
3、信息提取
4、文本情感分析
5、自动问答
6、个性化推荐

自然语言处理的目标是弥补人类交流（自然语言）与计算机理解（机器学习）之间的差距，最终实现计算机在理解自然语言上像人类一样智能。未来，自然语言处理的发展将使人工智能可以逐渐面对更加复杂的情况、解决更多问题，也将为我们带来一个更加智能化的时代。

在这里插入图片描述

在这里插入图片描述

2. 什么是词向量？

词向量技术是将词转化成为稠密向量，并且对于相似的词，其对应的词向量也相近。

• 它一般是一个布尔类型的集合，该集合中每个元素都表示其对应的单词是否在文档中出现。这种模型通常称为词集模型，

在这里插入图片描述

• 词的表示

• 在自然语言处理任务中，首先需要考虑词如何在计算机中表示。通常，有两种表示方式：

• 离散表示（one-hot representation）

• 传统的基于规则或基于统计的自然语义处理方法将单词看作一个原子符号被称作one-hot representation。one-hot representation把每个词表示为一个长向量。这个向量的维度是词表大小，向量中只有一个维度的值为1，其余维度为0，这个维度就代表了当前的词。

• 分布式表示（distribution representation）

• word embedding指的是将词转化成一种分布式表示，又称词向量。分布式表示将词表示成一个定长的连续的稠密向量。

读入写出然后应用？

共现矩阵

（1）通过统计一个事先指定大小的窗口内的word共现次数，以word周边的共现词的次数做为当前word的vector。具体来说，我们通过从大量的语料文本中构建一个共现矩阵来定义word representation。

（2）有语料如下：I like deep learning. I like NLP. I enjoy flying.

在这里插入图片描述
矩阵定义的词向量在一定程度上缓解了one-hot向量相似度为0的问题，但没有解决数据稀疏性和维度灾难的问题。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python之机器学习日记02——朴素贝叶斯02

机器学习日记02——朴素贝叶斯02自然语言处理与词向量（参考资料：liukn教授机器学习教程，网络课程）1. 自然语言处理的几个常见应用：1、机器翻译2、打击文本类垃圾，如微信、邮件3、信息提取4、文本情感分析5、自动问答6、个性化推荐自然语言处理的目标是弥补人类交流（自然语言）与计算机理解（机器学习）之间的差距，最终实现计算机在理解自然语言上像人类一样智能。未来，自然语言处理...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。