NLP---- python实践案例(word2vec求语义相似度,LDA,词性标注)

NLP应用的第一步是自动分词,然后在分词之后构建词向量,然后再对词向量进行训练,最后输出任务结果。

案例:中文处理预料库《倚天屠龙记》,为例子。引用博文:

https://blog.csdn.net/sinat_29694963/article/details/79177832

https://zhuanlan.zhihu.com/p/23225934

word2vec是构建多层的神经网络模型,然后给定输入和输出求出相应的相似度。word2vec基础算法是N-gram,所以n元模型中如果在不改变词语在上下文中的顺序前提下,距离相近的词语关系越近。距离较远的关联度越远,当距离足够远时,词语之间则没有关联度。

在做NLP训练模型时,时需要训练集和测试集的。

常用的NLP的python模块有gensim ,NLTK等

1、训练前语料处理

 第一步   分词:分词工具有中科院分词,哈工大的LTP分词, j ieba分词,分词效果中科院的分词效果不错,我们分别使用jieba直接进行分词和使用自定义词典作为词库来分词,来保证分词的准确度。还有相应的盘古分词、Yaha分词,但是效果是差不多的。停用词

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Word2vecLDA是两种用于自然语言处理的技术,它们可以结合使用来进行文本分析和语义建模。 Word2vec是一种用于学习单词向量表示的算法,它基于上下文的共现关系来学习单词的分布式表示。通过分析单词在上下文中的出现情况,Word2vec可以将每个单词表示为一个向量,使得相似的单词在向量空间中距离较近。这样的表示方式使得我们可以进行词义推断、语义相似计算等任务。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Word2vec是如何工作的?它和LDA有什么区别和联系?](https://blog.csdn.net/qq_29678299/article/details/88727380)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [word2vec参数调整 及lda调参](https://blog.csdn.net/weixin_34238642/article/details/94631965)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [《学术小白的实战之路》01 LDA-Word2Vec-TF-IDF组合特征的机器学习情感分类模型研究](https://blog.csdn.net/qq_44951759/article/details/120682246)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值