2020年08月_真心乖宝宝

原创激活函数比较

激活函数定义在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激活函数激活函数作用我们决定引入非线性函数作为激活函数，这样深层神经网络表达能力就更加强大。如果不用激活函数，每一层节点的输入都是上层输出的线性函数，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机Sigmoid函数数学表达式：几何图像：导数图像：Sigmoid优缺点优点：把输入的连续实值变换为0和1之间的输出，特别的，如果是非常大

2020-08-20 11:30:28 242

原创【剑指第6题】从尾到头打印链表(自己输入链表) python

题目描述输入一个链表的头节点，从尾到头反过来返回每个节点的值（用数组返回）示例1输入：head = [1, 3, 2]输出：[2, 3, 1]class ListNode: def __init__(self, x): self.val = x self.next = Noneclass Solution: def reversePrint(self, head): # # 法一利用栈 # stack =

2020-08-17 19:40:57 140

原创一组数的最大公约数和最小公倍数 python

最大公约数利用辗转相除法求得# 两个数的最大公约数def gcd_2(a,b): if a < b: a,b = b,a if a % b == 0: return b else: return gcd_2(b, a%b)# 多个数的最大公约数def gcd_many(list1): g = list1[0] for i in range(1, len(list1)): g = gcd_2

2020-08-12 13:03:06 288

原创 word2vec、Glove比较

Glove它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性（similarity）、类比性（analogy）等。我们通过对向量的运算，比如欧几里得距离或者cosine相似度，可以计算出两个单词之间的语义相似性。word2vec vs glove1.word2vec是局部语料库训练的，其特征提取是基于

2020-08-07 12:47:00 3893

原创简单理解ELMO

ELMO 本身是个根据当前上下文对 Word Embedding 动态调整的思路ELMO 采用了典型的两阶段过程，第一阶段是利用语言模型进行预训练；第二阶段是在做下游任务时，从预训练网络中提取对应单词的网络各层的Word Embedding 作为新特征补充到下游任务中。上图展示的是其预训练过程，它的网络结构采用了双层双向LSTM，目前语言模型训练的任务目标是根据单词W的上下文去正确预测单词W, W之前的单词序列 Context-before称为上文，之后的单词序列 Context-after

2020-08-07 12:30:38 1024

原创机器学习评价指标【准确率、精确率、召回率、F1值、ROC、AUC】

准确率(precision)在被判定为正样本的数据中，实际为正样本的个数精确率(accuracy)在所有数据中，正负样本判断正确的个数召回率(recall)在实际为正样本的数据中，被判定为正样本的个数F1值F1值是精确率和召回率的调和均值，相当于精确率和召回率的综合评价指标ROC接收者操作特征曲线（receiver operating characteristic curve），是反映敏感性和特异性连续变量的综合指标，ROC曲线上每个点反映着对同一信号刺激的感受性横坐

2020-08-07 09:49:31 1632

原创 Bert面试总结

bert两个预训练任务Task1：Masked Language ModelMLM是指在训练的时候随即从输入预料上mask掉一些单词，然后通过的上下文预测该单词，在BERT的实验中，15%的Token会被随机Mask掉。在训练模型时，一个句子会被多次喂到模型中用于参数学习，但是Google并没有在每次都mask掉这些单词，而是在确定要Mask掉的单词之后，80%的时候会直接替换为[Mask]，10%的时候将其替换为其它任意单词，10%的时候会保留原始Token这么做的原因是：如果句子中的某个Tok

2020-08-06 23:28:34 848

原创 Transformer面试总结

1. Transformer的位置信息和bert的位置信息有什么不一样？Transformer计算token的位置信息这里使用正弦波↓，类似模拟信号传播周期性变化。这样的循环函数可以一定程度上增加模型的泛化能力。但BERT直接训练一个position embedding来保留位置信息，每个位置随机初始化一个向量，加入模型训练，最后就得到一个包含位置信息的embedding，最后这个position embedding和word embedding的结合方式上，BERT选择直接拼接2. Transf

2020-08-06 23:22:28 3464

原创 LSTM简单理解

RNNLSTM长短期记忆（Long short-term memory, LSTM）是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。遗忘门输入门更新cell状态输出门LSTM怎么解决梯度消失和爆炸的问题？首先三个门的激活函数是sigmoid，这也就意味着这三个门的输出要么接近于0，要么接近于1。当门为1时，这就使得梯度能够很好的在LSTM中传递，很大程度

2020-08-06 18:55:59 258

原创 Transformer里layer-normlization的作用

当我们使用梯度下降法做优化时，随着网络深度的增加，数据的分布会不断发生变化,为了保证数据特征分布的稳定性，我们加入Layer Normalization，这样可以加速模型的收敛速度Normalization 有很多种，但是它们都有一个共同的目的，那就是把输入转化成均值为 0 方差为1的数据。我们在把数据送入激活函数之前进行normalization(归一化)，因为我们不希望输入数据落在激活函数的饱和区，发生梯度消失的问题，使得我们的模型训练变得困难BN的主要思想是: 在每一层的每一批数据(一个ba

2020-08-06 11:05:14 8495 10

原创 Batch Normalization(批量归一化)的作用

较深层神经网络训练时的困扰随着训练的进行，网络中的参数也随着梯度下降在不停更新。一方面，当底层网络中参数发生微弱变化时，由于每一层中的线性变换与非线性激活映射，这些微弱变化随着网络层数的加深而被放大；另一方面，参数的变化导致每一层的输入数据分布会发生改变，进而上层的网络需要不停地去适应这些分布变化，使得我们的模型训练变得困难。上述这一现象叫做Internal Covariate Shift。Internal Covariate Shift在深层网络训练的过程中，由于网络中参数变化而引起内部结

2020-08-06 10:42:07 8538

原创 python--寻找二维数组的最小值

data = [[1, 2], [3, 4]]list = []for row in data: list.append(min(row))print(min(list))一行代码写法data = [[1, 2], [3, 4]]max_item = min(min(row) for row in data)print(max_item) 参考文章参考文章1

2020-08-03 08:35:51 6005

真心乖宝宝的博客