NLP一些知识点

1.word2vec(两种模式的优劣)

a.在skip-gram里面,每个词在作为中心词的时候,实际上是 1个学生 VS K个老师,K个老师(周围词)都会对学生(中心词)进行“专业”的训练,这样学生(中心词)的“能力”(向量结果)相对就会扎实(准确)一些,但是这样肯定会使用更长的时间;

b.cbow是 1个老师 VS K个学生,K个学生(周围词)都会从老师(中心词)那里学习知识,但是老师(中心词)是一视同仁的,教给大家的一样的知识。至于你学到了多少,还要看下一轮(假如还在窗口内),或者以后的某一轮,你还有机会加入老师的课堂当中(再次出现作为周围词),跟着大家一起学习,然后进步一点。因此相对skip-gram,你的业务能力肯定没有人家强,但是对于整个训练营(训练过程)来说,这样肯定效率高,速度更快。

2.doc2vec(词向量):

词向量的原理也是跟word2vec类似,在库gensim里有相关的模型函数,可以将句子转换为向量模式,数字化以后,就可以用分类模型去做一些情感分析,判断其的情感倾向。例子:可以用概率模型lr回归去做个二分类,出来的概率值,可以作为正负向的情感倾向。

3.hanlp(很好用的一款nlp库):

hanlp有提供python接口,可以用来处理一些关于自然语言方面的知识点,在分词上,感觉比jieba好一点。除了分词,还提供其他的nlp功能,项目地址:https://github.com/hankcs/pyhanlp

synonyms,是一款开源的中文近义词工具,其实就是离线版本的word2vec,作者将其封装了。

项目地址:https://github.com/huyingxi/Synonyms

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值