自然语言处理
bineleanor
这个作者很懒,什么都没留下…
展开
-
tensorflow--VocabularyProcessor
tensorflow--VocabularyProcessorfrom tensorflow.contrib import learnimport numpy as npmax_document_length = 4x_text =[ 'This is an apple', 'No,it is a banana', 'it is an orange']vo原创 2018-01-31 16:56:09 · 732 阅读 · 0 评论 -
Label Smoothing --- 防止过拟合
Label Smoothing 是一种正则化的方法,对标签平滑化处理以防止过拟合在分类模型当中,经常对标签使用one-hot的形式,然后去预测样本属于每一个标签的概率,如果不考虑多标签的情况下,选择概率最大的作为我们的预测标签。然而在实际过程中,这样对标签编码可能存在两个问题:(1)可能导致过拟合;(2)模型对于预测过于自信,以至于忽略到可能的小样本标签。交叉熵损失函数的实际是在最小化预...原创 2019-08-11 19:38:44 · 4350 阅读 · 0 评论 -
浅析交叉熵损失函数
浅析交叉熵损失函数首先抛出交叉熵损失函数分别用于二分类和多分类的损失函数表达式子:二分类交叉熵损失函数L=−[ylogp+(1−y)log(1−p)]L = -[ylogp +(1-y)log(1-p)]L=−[ylogp+(1−y)log(1−p)]其中yyy表示样本标签,ppp表示对应样本标签预测为正的概率如: 当y=0时y=0时y=0时,L=−logpL=-logpL=−logp,...原创 2019-08-11 18:22:02 · 832 阅读 · 0 评论 -
浅析Transformer模型
浅析Transformer模型Transformer模型起初被提出于谷歌《Attention Is All you Need》这篇论文。其完全抛弃了CNN,RNN等结构模式,仅仅通过注意力机制(self-attention)和前向神经网络(Feed Forward Neural Network),不需要使用序列对齐的循环架构就实现了较好的performance 。(1)摒弃了RNN的网络结构...原创 2019-08-11 17:56:30 · 1857 阅读 · 0 评论 -
初识机器阅读理解(Machine Reading Comprehension)
机器阅读理解任务理解与文献查阅参考博客:https://www.jiqizhixin.com/articles/2018-11-26-10https://hanxiao.github.io/2018/04/21/Teach-Machine-to-Comprehend-Text-and-Answer-Question-with-Tensorflow/https://hanxiao.gith...原创 2019-07-21 22:49:41 · 8144 阅读 · 0 评论 -
文本数据增强方法
文本数据增强方法-百度翻译API的使用文本数据增强不同于图像领域的数据增强,因为文本是离散的,而图像是属于连续空间的. 例如针对两张图片,可以通过线性插值,旋转或者SMOTE等方法构造出出另外一张图片;然而对于文本数据而言,假设x1,x2x_1, x_2x1,x2分别表示一句话,通过线性插值出来的句子可能根本就不存在,再或者假设构造出来的句子存在性满足,然而也可能因为一个较小的扰动影响整...原创 2019-07-29 22:49:00 · 7358 阅读 · 1 评论 -
常见的pooling策略
常见的pooling策略参考资料:https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/86215037https://blog.csdn.net/wangyangzhizhou/article/details/76034219https://www.cnblogs.com/ying-chease/p/8658351.htmlp...原创 2019-03-28 10:35:11 · 3254 阅读 · 0 评论 -
2017-2018 学习总结
2017.09-2018.02初步了解自然语言处理:1.学习周志华的《机器学习》西瓜书和宗成庆的《统计自然语言处理》2.了解机器学习理论知识,由于概率统计等知识点都不太理解,耗费一部分时间补充概率论的相关知识3.了解CNN,RNN及其一些变体的相关原理,以及一些反向传播的数学公式推导。4.部分实践《python 自然语言处理》书中的代码5.学习李宏毅的机器学习视频,部分实现...原创 2018-12-19 10:29:36 · 1072 阅读 · 2 评论 -
安装tensorflow遇到的问题
安装tensorflow遇到的问题1.Exception:Traceback (mostrecent call last): ……PermissionError:[Errno 13] Permission denied:'D:\\software\\Anaconda\\Lib\\site-packages\\numpy\\core\\multiarray.cp36-win_am原创 2018-01-20 20:02:49 · 2609 阅读 · 0 评论 -
gensim--word2vec
gensim--word2vec1. 安装gensim包,gensim的安装只需要使用:pip install gensim命令,耐心等待几分钟即可;2. Word2vec的训练,下载语料库:中文维基语料: https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2英文维基语料: ht原创 2018-01-20 17:00:47 · 733 阅读 · 0 评论 -
tensorflow实现word2vec及相关注释
tensorflow实现word2vec以及相关注释 参考1:https://www.jianshu.com/p/556d735a7f97参考2:http://blog.csdn.net/wangyangzhizhou/article/details/77530479参考3:http://blog.csdn.net/NNNNNNNNNNNNY/article/details/701...原创 2018-01-27 10:41:21 · 382 阅读 · 6 评论 -
样本不均衡的处理方法
样本不均衡样本不均衡指的是给定数据集中有的类别数据多,有的数据类别少,且数据占比较多的数据类别样本与占比较小的数据类别样本两者之间达到较大的比例。常见解决办法数据层面:采样,数据增强,数据合成等;算法层面:修改损失函数值,难例挖掘等。1. 数据层面数据层面主要包括对数据的采样与合成操作,采样指的是以一定的概率对数据进行选择,合成指的是重新生成与数据集样本数据类似的样本将其添加到原始...原创 2019-08-11 21:12:43 · 4256 阅读 · 1 评论