干货分享 | 自然语言处理及词向量模型介绍(附PPT)

云脑科技机器学习训练营第二期,对自然语言处理及词向量模型进行了详细介绍,量子位作为合作媒体为大家带来本期干货分享~

本期讲师简介

樊向军

云脑科技核心算法工程师,清华大学学士,日本东京大学与美国华盛顿州立大学双硕士

第33届亚洲、国际物理奥赛双料金牌得主,在美国硅谷高通等公司有着多年超高性能计算仿真软件设计开发经验,获得高通Qualstar Diamond杰出贡献奖,目前作为云脑科技算法团队的主要成员进行金融、通信、能源大数据领域的核心人工智能算法研发与系统设计工作。

分享内容实录

自然语言处理Natural Language Processing是一个非常大的topic,在本节课程中,我们仅做非常概要性的介绍。下面这张图可以给你一个感觉,NLP技术能够做些什么。

NLP应用在自然语言处理中主要分为以下几类:第一是Classifying Words ,即需要去研究一下词是什么意思。第二是Classifying Documents,即整个文章有一些什么操作,怎么去分类。第三个比较难也比较热门的是Understand Documents,即理解文章是在讲什么。这些是NLP比较热门的几个方面。前半段我们讲介绍比较传统的NLP方法,后面会讲NLP和Deep Learning 的结合。

Classifying Words

也就是把每个词分类,词分为哪几类或者是能不能把它group起来?比如说维基百科上很多信息放在一起,或者你拿到一本字典、百科全书,再或者许多文章放在一起,怎么去分类这些字?NLP产生了许多分支去研究各种各样的里面的问题,比如: Stemming,找到一个词的词根,根据词根把相同的词尽量的放在一起。

另外一个是Splitting Words分词,根据里面的字母把词分成许多块,做字母级别的k-grams或者n-grams,再做分类。这两种方法比较偏重拉丁文、英文语系的文章,对词根或者字母进行分解,但是对中文不是很合适。

Classifying Documents

分类文本本身,词我们可以找词根或者分词,文本分类又提高了一个难度。它有一些应用,比如说我们想知道读一篇文章需要多久,最简单的办法是规定某一个人每分钟读多少词,统计一下这篇文章有多少词,做一下除法,就得到了时间。

这可能是最直截了当的方法,但是精度可能很差,因为每个人读的速度不一样,文章本身的难度也不一样等各种各样的

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值