笔记
文章平均质量分 65
闰土不用叉
这个作者很懒,什么都没留下…
展开
-
《统计学习方法》-感知机模型学习笔记
《统计学习方法》-感知机模型学习笔记 用简单的方法学习 ——北北感知机模型描述这一部分主要介绍感知机是什么? 假设输入空间(输入空间即为特征空间,由实例的各种特征组成)是χ⊆R*,输出空间是Y={-1,+1}。当输入x∈χ表示实例的特征向量,对应于输入空间(特征向量)的点,输原创 2017-09-16 09:46:00 · 374 阅读 · 0 评论 -
【论文笔记04】TriviaQA_A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension
1 论文主要内容本文是一篇资源论文,主要发布了用于检索式问答或阅读理解的数据集Trivia QA;对该数据集的质量和数量进行了分析,并创建了baseline,用于具体评估数据集的质量。2 Trivia QA数据集的特点问题比较复杂在问题和相应的答案句子中有大量的句法或词汇变化需要更多的跨句推理来得到答案3 本文的主要贡献发布了一个阅读理解数据集提出了分析量化数据集...原创 2018-10-22 15:47:35 · 2963 阅读 · 0 评论 -
【论文笔记05】WORDS OR CHARACTERS? FINE-GRAINED GATING FOR READING COMPREHENSION
1 问题和数据集1.1 问题这是一篇以阅读理解为任务的文章,但在具体处理这个任务时,主要解决数据特征等的表示问题。在提取文本特征时,通常只对单词做词嵌入,而忽略了字符级的特征。1.2 数据集CBTWDWSQuAD2 目前已有方法2.1 单词级表示(1)from a lookup table(2)每个单词用一个向量表示(3) 擅长表示单词的语义2.2 字符级表...原创 2018-10-22 20:03:33 · 440 阅读 · 0 评论 -
【论文笔记09】Teaching Machines to Read and Comprehend
本文主要做出了两个大的贡献:给出了阅读理解数据集的构造方法,并开源了两个阅读理解数据集;提出了三种神经网络模型作为baseline,以方便后面的研究者进行相关的研究。1 数据构造主要是从新闻网站中抓取新闻作为文章,新闻的摘要去掉一个实体词成为query,被去掉的单词作为答案。为了防止模型对训练数据的过度依赖,于是将文章和问题中的实体进行匿名化和随机替换。具体见官方教程2 三种神经网络...原创 2018-11-19 20:10:27 · 456 阅读 · 0 评论 -
【论文笔记07】End-To-End Memory Networks
1 背景(1)在记忆网络中,主要由4个模块组成:I、G、O、R,前面也提到I和G模块其实并没有进行多复杂的操作,只是将原始文本进行向量表示后直接存储在记忆槽中。而主要工作集中在O和R模块,O用来选择与问题相关的记忆,R用来回答,而这两部分都需要监督,也就是需要知道O模块中选择的记忆是否正确,R生成的答案是否正确,这种模型多处需要监督,而且不太容易使用常见的BP算法进行训练,这就限制了模型的推广。...原创 2018-11-17 20:30:59 · 385 阅读 · 0 评论 -
【论文笔记08】Dynamic Entity Representation with Max-pooling Improves Machine Reading
本文模型之前的模型都是用一个静态的向量来表示一个entity,与上下文没有关系。而本文最大的贡献在于提出了一种动态表示entity的模型,根据不同的上下文对同样的entity有不同的表示。模型还是采用双向LSTM来构建,这时实体表示由四部分构成,包括两个方向上的隐层状态,,以及该实体所在句子的最后隐层状态,也就是该实体所在的上下文表示。如图所示。问题向量的计算与动态实体计算过程类似,这里需要填...原创 2018-11-17 21:25:44 · 390 阅读 · 0 评论 -
pytorch中LSTM输出问题
给出结论便于查询,具体分析过程见聊一聊PyTorch中LSTM的输出格式output保存了最后一层,每个time step的输出h,如果是双向LSTM,每个time step的输出h = [h正向, h逆向](同一个time step的正向和逆向的h连接起来)。h_n保存了每一层,最后一个time step的输出h,如果是双向LSTM,单独保存前向和后向的最后一个time step的输出h...原创 2019-03-18 19:20:10 · 4766 阅读 · 0 评论 -
【论文笔记12】Iterative Alternating Neural Attention for Machine Reading
1 《Iterative Alternating Neural Attention for Machine Reading》(1)论文创新点这个模型的文章和问题在真正使用时,都是根据前一时刻的隐层状态,动态的表示成一个向量;在更新状态时,使用了gated机制(虽然看起来有点复杂)。(2)论文模型模型的整体结构图如下所示:接下来将对该模型上的组成部分做简单的介绍。bidirect...原创 2019-03-30 21:42:48 · 489 阅读 · 0 评论 -
【论文笔记13】Attention-over-Attention Neural Networks for Reading Comprehension
本文主要介绍AoA reader 的模型结构,由论文《Attention-over-Attention Neural Networks for Reading Comprehension》提出,论文直通车1 论文概述该论文针对机器阅读理解任务,提出了AoA reader模型,在CNN/Daily Mail 和CBT数据集上取得了不错的效果。2 模型细节模型的结构图如上图所示,主要包含了以...原创 2019-04-02 15:56:56 · 578 阅读 · 0 评论 -
tensorflow中sequence_loss_by_example()函数的计算过程(结合TF的ptb构建语言模型例子)
1 softmax2 交叉熵原创 2018-10-15 20:18:30 · 7762 阅读 · 6 评论 -
深度学习中的注意力机制
最近读到论文《Attention Is All You Need》,在网上也查了很多资料,然后又对这篇论文重新理解了下,收获颇多。在这过程中,发现一篇很好的文章,来自张俊林博士的深度学习中的注意力机制(2017版)。强烈推荐,难得的好文。如果要想理解注意力机制的思想,看这篇文章绝对够了。原链接:https://blog.csdn.net/malefactor/article/details/78...转载 2018-10-18 19:21:59 · 664 阅读 · 0 评论 -
一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉
本文转自:https://blog.csdn.net/tsyccnh/article/details/79163834 原作者:史丹利复合田 关于交叉熵在loss函数中使用的理解交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。以前做一些分类问题的时候,没有过多的注意,直接调用现成的库,用起来也比较方便...转载 2018-10-14 15:56:24 · 326 阅读 · 0 评论 -
【NLTK基础教程】01-1 三种获取网页中有效文本的方法
本篇是《NLTK基础教程》第一章的第三节,向NLTK迈进中的一个例子,获取网页中的文本的三种方法。 1 抓取网页这里主要是用了urllib库中的函数来抓取指定网页,代码如下:import urllib.requestresponse=urllib.request.urlopen('http://python.org')html=response.read()print(原创 2018-01-21 19:40:14 · 1058 阅读 · 1 评论 -
【NLTK基础教程】01-02 利用nltk统计词频
在上篇中,简单的介绍了三种获取有效文本的方法,那么接下来就利用nltk来统计这些文本中出现的次数。 我们首先来看下传统统计词频的方法:import operatorfreq_dis={}for tok in tokens: if tok in freq_dis: freq_dis[tok]+=1 else: freq_dis[tok原创 2018-01-21 20:36:19 · 4439 阅读 · 1 评论 -
【NLTK基础教程】02 何为文本歧义
文本歧义,书中的定义式从原生数据中获取一段机器可读的已经格式化文本之前所要做的所有预处理工作,以及所有繁复的任务。该过程涉及到数据再加工,文本清理,特定项处理,标识化处理,词干提取或词型还原以及停用词移除等操作。 好吧,书中将文本歧义定义为数据预处理这一些列工作,难到文本歧义不应该是一个文本,多个意思,从而有歧义这个意思吗?没搞懂(问号脸.jpg).如果是把文本歧义理解成通过一系列数据预处理原创 2018-01-22 21:08:20 · 359 阅读 · 0 评论 -
梯度下降(Gradient Descent)小结
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。 转自https://www.cnblogs.com/pinard/p/5970503.html 1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求...转载 2018-07-01 16:43:31 · 290 阅读 · 0 评论 -
DataFrame的索引选项
经常用到DataFrame的索引切片,而且容易搞混,所以将《利用python进行数据分析》中的相关总结贴出来原创 2018-08-30 16:44:21 · 1550 阅读 · 0 评论 -
一种最原始的混沌神经元构造过程
title: 一种最原始的混沌神经元构造过程date: 2018年9月25日13:55:30thumbnail: https://raw.githubusercontent.com/xiongzongyang/hexo_photo/master/ch.jpgtags:- 笔记- 混沌神经网络categories: [NOTES,Chaotic]一 混沌神经元的构造(1)一种混沌...原创 2018-09-25 13:56:21 · 660 阅读 · 0 评论 -
【论文笔记02】Text Understanding with the Attention Sum Reader Network
1 问题及数据集1.1 问题给定较长一段话的context和一个较短的问题,以及一些candidate answers,训练出可以准确预测正确答案的模型,本模型主要针对命名实体和常用名词这两种词性的单词进行填空。1.2数据集(1)CNN&Daily Mail(2)CBT2 已有方法(1)Attentive and Impatient Readers(2)Attentive...原创 2018-10-13 09:37:05 · 724 阅读 · 2 评论 -
【论文笔记03】ReasoNet: Learning to Stop Reading in Machine Comprehension
1 问题及数据集1.1 问题本论文主要解决一种面向Cloze-style(填空式)的阅读理解(问答)问题1.2 数据集(1)CNN&Daily Mail(2)SQuAD(3)Graph Reachability datase2 已有方法2.1 单轮推理(1)特点单轮推理模型主要利用注意力机制来强调文档中与问题相关的那些部分,计算问题和文档子单元的相应加权表示之...原创 2018-10-13 20:27:03 · 1233 阅读 · 2 评论 -
【论文笔记14】Gated-Attention Readers for Text Comprehension
本文主要介绍GA reader模型的基本思想,由论文《Gated-Attention Readers for Text Comprehension》提出,论文直通车1 论文概述本篇论文的思想其实是很简单的,可以把其看成是AS reader模型的扩展,尽管模型简单,但是也取得了不错的成绩,也证明了乘法操作机制带来的效果显著。值得一提的是,论文中的相关工作部分,对之前的模型进行了分门别类的概述,这...原创 2019-04-03 14:27:56 · 503 阅读 · 2 评论