自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Pointer-generator network和Coverage mechanism机制详解

针对本文的翻译和解释有很多,具体的内容不在此处细说。我们这里主要讨论论文中的两个技术,分别是Pointer-generator network和Coverage mechanism。大多数博客对这两个技术进行了描述,但是为什么该技术可以解决论文中提出的问题,并没人进行过说明。我们详细的研究讨论了这...

2019-11-13 14:55:06

阅读数 57

评论数 0

转载 Attention 机制 -- Transformer

Attention 机制 – Transformer 推荐先看 The Illustrated Transformer 代码: The Annotated Transformer 此外,代码十分推荐看 Bert-pytorch 里面的实现,代码比上述的要更加清晰,可以看完上述代码与 bert 之...

2019-11-06 18:59:46

阅读数 7

评论数 0

转载 Attention 机制 -- 基础篇

Attention 机制 – 基础篇 Hard vs Soft [1] Attention首先分为两大类:Hard Attention 与 Soft Attention, 两者的区别在于 Hard Attention 关注一个很小的区域,而soft Attention 关注的相对要发散。 举个机器...

2019-11-06 18:58:18

阅读数 14

评论数 0

转载 正则化

正则化 1. L1 正则化 - 稀疏正则化 1-范数: 表示向量元素的绝对值之和。 ∣∣x∣∣=∑i=1N∣xi∣ ||x|| =\sum_{i=1}^N |x_i| ∣∣x∣∣=i=1∑N​∣xi​∣ 正则化项:Ω(θ)=∣∣w∣∣1=∑i∣wi∣目标函数:J~(w;X,y)=α∣∣w∣∣1+...

2019-11-06 11:39:02

阅读数 4

评论数 0

转载 Normalization

Normalization tags: 深度学习 0 . 归一化 1. 归一化手段 **Min-max 归一化:**当有新数据加入时, 可能导致max和min的变化, 需要重新定义。 x∗=x−minmax−min x^* = \frac{x -min } {max - ...

2019-11-06 11:13:36

阅读数 4

评论数 0

原创 Introduction to XGB

XGBoost代表“Extreme Gradient Boosting”,其中“梯度增强”一词源于弗里德曼的论文《Greedy Function Approximation: A Gradient Boosting Machine》。这是一个关于梯度增强树的教程,大部分内容都是基于这些幻灯片,作者...

2019-11-05 16:29:00

阅读数 13

评论数 0

原创 word2vec详解

没时间,先把论文附在这,有需要的可以看下,看完后是一个很大的提升。后期有空补上 https://arxiv.org/pdf/1411.2738.pdf https://arxiv.org/pdf/1402.3722.pdf word2vec Parameter Learning Explai...

2019-07-08 18:31:03

阅读数 48

评论数 0

原创 pytorch实现连续切片,类似于tf.strided_slice()

1.背景: 一直使用torch进行开发,torch的友好为开发调试提供了很多方便,但是torch中有些函数没有内置,造成使用的时候必须自己实现,最近就遇到了一个连续切片的问题,问题可以想象我们往Bert中输入的是一个句子对,但是我们还需要第一个句子的表示,因此必须从句子对的表示中取出第一个或者第...

2019-06-20 11:02:28

阅读数 229

评论数 0

原创 论文:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

一、译文: ABSTRACT 自然语言是分层结构的:较小的单元(例如短语)嵌套在较大的单元(例如子句)中。当较大的组件结束时,嵌套在其中的所有较小的组件也必须结束。虽然标准的LSTM体系结构允许不同的神经元在不同的时间尺度上跟踪信息,但它并没有明确地偏向于对成分层次结构建模。本文提出通过对神经...

2019-06-19 14:25:13

阅读数 425

评论数 1

转载 指数移动平均(EMA)的原理及PyTorch实现

在深度学习中,经常会使用EMA(指数移动平均)这个方法对模型的参数做平均,以求提高测试指标并增加模型鲁棒。 EMA的定义 指数移动平均(Exponential Moving Average)也叫权重移动平均(Weighted Moving Average),是一种给予近期数据更高权重的平均方法...

2019-06-12 20:04:39

阅读数 1516

评论数 2

原创 Convolutional Spatial Attention Model for Reading Comprehension with Multiple-Choice Questions

译文: Abstract 问题具有多个候选项的机器阅读理解(MRC)要求机器阅读给定的文章,并从几个候选项中选择正确答案。在本文中,我们提出了一种新的方法,称为卷积空间注意(CSA)模型,它可以更好地处理带有多个候选项的MRC。该模型能够充分提取文章、问题和候选项之间的相互信息,形成丰富的表征...

2019-05-29 16:55:58

阅读数 120

评论数 0

原创 论文:Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism

译文: Abstract 句子中的关系事实往往是复杂的。不同的关系三元组在一个句子中可能有重叠。根据三元组重叠程度,我们将句子分为三种类型:普通、实体对重叠和单实体重叠。现有的方法主要集中在普通类上,不能准确提取关系三元组。在本文中,我们提出了一种基于复制机制的序列到序列学习的端到端模型,该模...

2019-05-06 11:31:55

阅读数 417

评论数 1

原创 决策树

决策树的目标是从一组样本数据中,根据不同的特征和属性,建立一颗树形的分类结构。对于一个特定的问题,决策树的选择可能有很多种,从中选择最优的决策树是一个NP问题,在实际中我们通常会采用启发式学习的方法去构建一颗满足启发式条件的决策树。 常用的决策树算法有ID3、C4.5、CART,下面对这三种算法...

2019-04-22 15:38:31

阅读数 32

评论数 0

原创 深度学习过拟合解决方案(pytorch相关方案实现)

描述 最近做项目出现过拟合的情况,具体表现为,使用简单模型的时候需要迭代十几个epoch之后才能达到一个理想的结果,并且之后loss趋于稳定,f1也趋于稳定;后来使用复杂的模型后,两三个epoch后能达到更好的结果但是之后随着loss下降f1值反而下降了。这是一个比较明显的的过拟合现象。 解决...

2019-04-16 19:52:27

阅读数 1099

评论数 2

转载 深度学习新手易犯错误总结

1. 忘了数据规范化 What? 在使用神经网络的过程中,非常重要的一点是要考虑好怎样规范化(normalize)你的数据。这一步不能马虎,不正确、仔细完成规范化的话,你的网络将会不能正常工作。因为规范化数据这个重要的步骤在深度学习圈中早已被大家熟知,所以论文中很少提到,因此常会成为初学者的阻...

2019-04-11 10:10:20

阅读数 63

评论数 0

转载 矩阵求导术

矩阵求导的技术,在统计学、控制论、机器学习等领域有广泛的应用。本文来做个科普,分作两篇,上篇讲标量对矩阵的求导术,下篇讲矩阵对矩阵的求导术。本文使用小写字母xxx表示标量,粗体小写字母x\boldsymbol{x}x表示(列)向量,大写字母XXX表示矩阵。 首先来琢磨一下定义,标量fff对矩阵X...

2019-03-26 20:24:56

阅读数 56

评论数 0

原创 MACHINE COMPREHENSION USING MATCH-LSTM AND ANSWER POINTER(MATCH-LSTM)

原文链接:https://arxiv.org/pdf/1608.07905.pdf 原文代码:https://github.com/shuohangwang/SeqMatchSeq ABSTRACT: 机器理解是自然语言处理中的一个重要问题。最近发布的数据集Stanford Question...

2019-03-11 11:42:15

阅读数 141

评论数 0

原创 Snowball: Extracting Relations from Large Plain-Text Collections

机器学习和深度学习都基于大量的标注数据,对于NLP任务也不例外,由于文本的特殊性,导致很多任务没有好的标注数据集给我们使用,对于某些场景下的任务也不能使用通用标注数据集训练,否则效果也不会很好。实体关系提取是NLP的基础任务,也是许多上层任务的基础。这里介绍一种很久之前就提出的,但是在我们项目中使...

2019-03-06 14:34:45

阅读数 370

评论数 0

原创 文本匹配模型-BiMPM

在上一篇博客中介绍了ESIM模型(https://blog.csdn.net/zhang2010hao/article/details/87913910),这里介绍一个新的文本匹配模型BiMPM,其在某些任务中的效果超过ESIM模型。 论文链接:http://tongtianta.site/pa...

2019-02-27 09:27:17

阅读数 1967

评论数 0

原创 短文本匹配模型-ESIM

论文来源:TACL 2017 论文链接:http://tongtianta.site/paper/11096 文本匹配是智能问答(社区问答)中的关键环节,用于判断两个句子的语义是否相似。机器智能问答FAQ中,输入新文本(语音转文本)后,和对话库内已有句子进行匹配,匹配完成后输出对应问题答案。而...

2019-02-25 13:52:00

阅读数 2837

评论数 9

原创 word2vec理解及pytorch实现

word2vec理解及pytorch实现欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必...

2019-01-29 16:03:24

阅读数 1395

评论数 0

原创 cw2vec解析及代码实现

序言 cw2vec来自于蚂蚁金服的论文:《cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information》,本文主要对论文中的一些关键点进行解析,并讲解pytorch版本实现。 一、相关知识 词向量算法是自然语言...

2019-01-14 20:19:06

阅读数 377

评论数 0

转载 Transformer:The base of BERT

本文转载自《机器学习算和自然语言处理》 Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基...

2019-01-14 19:27:05

阅读数 54

评论数 0

原创 cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information

Abstract 我们提出了一种新的汉字嵌入学习方法cw2vec。根据我们的观察,笔划层次的信息对于提高汉字单词嵌入的学习是至关重要的。具体来说,我们设计了一种极简主义的方法来利用这些特征,通过使用笔画n-gram来捕捉汉字单词的语义和构词层面的信息。通过定性分析,我们证明了我们的模型能够提取现...

2019-01-09 09:15:31

阅读数 478

评论数 0

转载 字符串相似度计算算法

本文参考:https://zhuanlan.zhihu.com/p/36892462,https://zhuanlan.zhihu.com/p/33567268 1. 字符串子串查找算法KMP 给定一个主串(以 S 代替)和模式串(以 P 代替),要求找出 P 在 S 中出现的位置,此即串的模...

2019-01-06 10:33:40

阅读数 927

评论数 0

转载 BiLSTM-CRF-3

2.3 CRF损失函数 CRF损失函数中包含了真实标签序列得分和所有可能标签序列的总得分,正常情况下,真实标签序列得分在所有可能标签序列得分中是最高的。 比如,假设数据集中的标签如下所示: Label Index B-Person 0 I-Person 1 B-Organi...

2018-12-28 09:54:41

阅读数 326

评论数 0

转载 BILSTM-CRF-4

BILSTM-CRF2.6 推断新句子的标签参考 声明:本系列转载自createmomo大神的博客https://createmomo.github.io,并在其中加入一些新的内容,如有侵权请及时联系。 2.6 推断新句子的标签 在前面的部分中,我们学习了BiLSTM-CRF模型的结构和CR...

2018-12-27 20:07:33

阅读数 201

评论数 0

转载 BILSTM-CRF-2

BILSTM-CRF2 CRF层2.1 Emission score2.2 Transition score下一节2.3 CRF损失功能2.4 真实路径得分2.5 所有可能路径的得分参考 声明:本系列转载自createmomo大神的博客https://createmomo.github.io,并...

2018-12-27 16:06:30

阅读数 567

评论数 0

转载 BILSTM-CRF-1

BILSTM-CRF目录1 简介1.1 在我们开始前1.2 BILSTM-CRF模型1.3如果我们没有CRF层怎么办?1.4 CRF层可以从训练数据中学习约束下一节参考 声明:本系列转载自createmomo大神的博客https://createmomo.github.io,并在其中加入一些新的...

2018-12-27 15:15:49

阅读数 1045

评论数 0

原创 准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1

准确率、精确率、召回率、F1是衡量机器学习结果的重要指标。下面我们用经典的表格来说明他们之间的关系和区别。      Positive(预测到的正例)    Negative(预测到的反例)   True(预测结果为真)                      TP(1)...

2018-11-27 09:45:29

阅读数 108

评论数 0

转载 tensorflow中有向图(计算图、Graph)、上下文环境(Session)和执行流程

转自:https://blog.csdn.net/dcrmg/article/details/79028003 计算图(Graph) Tensorflow是基于图(Graph)的计算框架,图的节点由事先定义的运算(操作、Operation)构成,图的各个节点之间由张量(tensor)来链接,T...

2018-11-20 10:37:55

阅读数 285

评论数 0

转载 Tensorflow中与梯度相关的计算与函数

转自:https://blog.csdn.net/mieleizhi0522/article/details/80421030 摘要:本系列主要对tf的一些常用概念与方法进行描述。本文主要针对tensorflow的模型训练Training与测试Testing等相关函数进行讲解。为‘Tensorf...

2018-11-20 09:55:54

阅读数 293

评论数 0

原创 Attention Is All You Need

Abstract: 现在主要的序列转换模型是基于复杂循环或卷积神经网络的编码器和解码器。性能最好的模型也是通过注意机制连接编码器和解码器。我们提出了一种新的简单的网络结构——转换器,完全基于注意机制,完全不需要递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上是优越的,同时具有更高的并行...

2018-11-14 19:46:49

阅读数 70

评论数 0

原创 Deep contextualized word representations(ELMO)

最近在看ELMO以及BERT,为了更好的理解特将相关论文翻译后以供使用。 概要:我们引入了一种新型的深层语境化的词表示,它既模拟了复杂的词特征的使用(例如,语法和语义),也模拟了这些词在不同语言语境中的使用(即,一词多义)。我们的词向量是一个深度双向语言模型(biLM)内部状态的学习函数,该模型...

2018-10-26 19:00:44

阅读数 945

评论数 0

原创 推荐系统实践 代码实现

import random import math from operator import itemgetter def Splitdata(data, M, k, seed): test = dict() train = dict() random.seed(seed...

2018-06-07 17:38:08

阅读数 3198

评论数 12

原创 linux中shell变量$#,$@...等变量含义

linux中shell变量$#,$@,$0,$1,$2的含义解释:  变量说明:  $$:Shell本身的PID(ProcessID)  $!:Shell最后运行的后台Process的PID  $?:最后运行的命令的结束代码(返回值)  $-:使用Set命令设定的Flag一览  $*:...

2017-12-26 10:07:44

阅读数 129

评论数 0

提示
确定要删除当前文章?
取消 删除