![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
XB_please
谢谢
展开
-
小米自然语言处理平台(MiNLP)
https://github.com/XiaoMi/MiNLP小米自然语言处理平台(MiNLP)具备词法、句法、语义分析等数十个功能模块,已经在公司业务中得到了广泛应用。MiNLP-Tokenizer中文分词工具经过不断优化和实战打磨,已于2020年11月正式对外开源。我们计划在2021年Q2完成所有词法工具(词性标注和命名实体识别)的开源,从2021年Q3开始,我们将逐步开源句法分析和部分语义分析工具,和开发者一起打造功能强大、效果领先的NLP平台。...原创 2020-11-18 10:55:08 · 724 阅读 · 1 评论 -
《网络搜素原理》推荐
该课程来自北邮大佬:微博:爱可可-爱生活。https://www.bilibili.com/video/BV1zp4y1e7iN?t=72简介:北邮陈光老师的《网络搜索原理》公开课(2020),延续《Python编程与实践》的讲课风格,主打编程驱动、问题驱动的学习体验,用进化视角看技术更迭,培养搜索思维,开阔解决问题的思路。GitHub:https://github.com/fly51fly/Principle_of_Web_Search_2020...原创 2020-10-07 17:26:59 · 147 阅读 · 0 评论 -
【Python3】nlp之nltk扩展包下载慢解决办法
本文是针对于py3来讲,分享的nltk_data包最新的,亲测兼容python3。nltk安装很简单,就是pip install nltk。下面重点介绍nltk扩展包的安装。官网常规方法:之后会出现一个NLTK Downloader对话框,如图然后点击下载,你会发现下载很慢,而且很容易出错。解决办法:地址是:https://github.com/nltk/nltk_data, 里...原创 2019-05-27 16:15:50 · 2341 阅读 · 5 评论 -
手撕 BiLSTM-CRF
文章转载自:虎哥:https://zhuanlan.zhihu.com/p/97676647如有侵权,联系删除目录网上关于BiLSTM-CRF的资料可谓汗牛充栋;但是扎扎实实给出每一步推导(不跳跃),并结合每一行代码(包括每处张量运算的注释)的文章,至今未见所以,关于【BiLSTM-CRF的推导和代码部分】你看到的可能是迄今为止最扎实的一个版本注:我假设你已经熟悉了BiLSTM和CR...转载 2020-01-11 11:16:39 · 459 阅读 · 0 评论 -
BiLSTM-CRF模型中CRF层的解读
转自:https://createmomo.github.io/BiLSTM-CRF模型中CRF层的解读:文章链接:标题:CRF Layer on the Top of BiLSTM - 1 链接:https://createmomo.github.io/2017/09/12/CRF_Layer_on_the_Top_of_BiLSTM_1/标题:CRF Layer on the Top of BiLSTM - 2 链接:https://createmomo.github.io/2017/09转载 2020-06-07 11:09:22 · 252 阅读 · 0 评论 -
NLP数据增强综述
1.词汇替换1.基于词典的替换;从句子中随即取出一个单词,并使用同义词词典将其替换为同义词。2.基于词向量的替换采用预先训练好的单词嵌入,使用嵌入空间中最近的单词替换句子中的某些单词。3.基于TF-IDF的词替换TF-IDF分数较低的单词不能提供信息,因此可以在不影响句子的ground-truth的情况下替换它们。2.反向翻译反向翻译过程如下:把一些句子(如英语)翻译成另一种语言,如法语将法语句子翻译回英语句子。检查新句子是否与原来的句子不同。如果是,那么我们使用这个新句子作为原原创 2020-05-20 09:08:25 · 706 阅读 · 0 评论 -
多领域中文分词工具:pkuseg
pkuseg 是基于论文[PKUSEG: A Toolkit for Multi-Domain Chinese Word Segmentation]的工具包。其简单易用,支持细分领域分词,有效提升了分词准确度。特点pkuseg具有如下几个特点:多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不...原创 2019-12-23 15:10:07 · 973 阅读 · 1 评论 -
RNN的梯度消失与梯度爆炸问题
关于梯度消失和梯度爆炸问题,有几篇文章写得挺好的,1.RNN 的梯度消失问题:老宋的茶书会:RNN 的梯度消失问题2.RNN梯度消失和爆炸的原因:沉默中的思索:RNN梯度消失和爆炸的原因...原创 2019-12-20 14:28:10 · 403 阅读 · 0 评论 -
GloVe学习:Global Vectors for Word Representation
GloVe: Global Vectors for Word Representation什么是GloVe?正如GloVe: Global Vectors for Word Representation论文而言,GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall stati...原创 2019-12-18 20:36:53 · 2971 阅读 · 1 评论 -
正则表达式一篇就学会
NLP 通常所需要处理的语料包含了非结构化文本、半结构化文本以及结构化文本 。 正则表达式的作用之一是将这些文档内容从非结构化转为结构化以便后续的文本挖掘 。正则表达式是一种定义了搜索模式的特征序列,主要是用于字符串的模式匹配,或是字符的匹配。另一个作用就是去除"噪声" 。 即去除文本中与最终输出无关的片段。一、匹配字符串通过使用 re.search ( regex , string) 这个...原创 2019-08-11 11:51:07 · 285 阅读 · 0 评论 -
word2Vec学习
Word2Vec模型是Google公司在2013年开源的一种将词语转化为向量表示的模型。word2vec作为神经概率语言模型的输入,其本身其实是神经概率模型的副产品,是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说,“某个语言模型”指的是“CBOW”和“Skip-gram”。具体学习过程会用到两个降低复杂度的近似方法——Hierarchical Softmax或Negative Sa...原创 2019-12-17 12:53:29 · 540 阅读 · 0 评论