ffeij-CSDN博客

原创数据库学习

下周一6.22开始学习数据库，刷leetcode数据库部分。

2020-06-20 10:47:12 176

一、encoder1. 输入输入分为两部分，input embedding和positional encoding，下面具体讲一下。1.1 input embedding这里和大多数nlp任务一样，将文字转为embedding，操作上具体来说就是将字/词映射为已有的vocab。假设映射后的input embedding的size为 (max_len, embedding_dim)。1.2 positional encodingself-attention并不能像rnn一样捕捉到序列的顺序信息，

2020-06-17 14:42:23 1119 1

原创 CNN学习总结

pytorch应用1.con1d应用于文本数据，只对宽度进行卷积。如下图所示，max_length=7，word_embedding_dim=5，在使用con1d时，我们需要将75的permute成57的，因为con1d只会对文本数据的最后一维进行卷积，也就是说卷积窗口的高度等于word_embedding_dim，只会在宽度max_length方向上滑动。torch.nn.Conv1d(in_channels, out_channels, kernel_size, stride=1, paddin

2020-06-14 16:06:37 676

原创 pytorch创建张量方法

1.np.array -> tensora = np.array([1,2])b = torch.from_numpy(a)#[1 2] -> tensor([1, 2], dtype=torch.int32)torch.tensor和torch.Tensor两种方法很容易混淆，下面我们重点区分两者。2.list -> tensor此时只能生成以list中的数值大小生成tensorc = torch.Tensor([2,3])d = torch.tensor([2,3]

2020-06-11 15:07:20 3573

原创 LSTM使用(pytorch)

lstm = nn.LSTM(input_size=2, hidden_size=3, num_layers=1) # 传入参数inputs = [torch.randn(1, 2) for _ in range(5)]inputs = torch.cat(inputs).view(len(inputs), 1, -1)(h0, c0) = (torch.randn(1, 1, 3), torch.randn(1, 1, 3)) # out, (h,c) = lstm(inputs, (h0,

2020-06-11 09:14:58 6965

原创 RNN\LSTM\GRU学习总结

一、梯度爆炸1.解决办法①梯度裁剪：为梯度设置一个阈值，在更新参数前，检查梯度是否在阈值内，如果不在则将梯度按阈值计算来更新参数②正则化：L1/L2二、梯度消失1.解决办法（针对RNN）：①门控机制：LSTM，GRU②残差结构③batchnormalBatchnorm具有加速网络收敛速度，提升训练稳定性的效果，Batchnorm本质上是解决反向传播过程中的梯度问题。通过规范化操作将输出信号x规范化保证网络的稳定性。具体来说就是反向传播中，通过对每一层的输出规范为均值和方差一致的方法，消除了

2020-06-07 21:40:49 613

原创 python排序算法实现模板

1.快速排序def quicksort(nums): def helper(nums, first, last): if first < last: splitpoint = partition(nums, first, last) helper(nums, first, splitpoint - 1) helper(nums, splitpoint + 1, last) def partitio

2020-06-05 16:06:00 259

原创 leetcode刷题（六月）

记录一下自己的每天刷题。6.11431，515，542，121研究了一下昨天没做出来的1466，图的广搜，第一次理解有些慢，不过总体感觉难度不大，背景就是图的遍历，visit数组判断是否遍历过bfs忘得差不多了，今天练两道，效果不怎么样，明天继续练，最后再来道dp...

2020-06-01 20:06:20 210

原创静态词嵌入

记录一下学习最近学习的静态词嵌入。一、one-hot encoding1.每个词向量长度等于词库大小2.除了词对应的位置为1，其他所有位置均为03.非常稀疏4.无法表示语义5.无法计算词之间的相似度二、word2vec（局部方法论）1.skip-gram通过中心词预测上下文词，2.CBOW通过上下词预测中心词，三、matrix factorization（全局方法论）...

2020-05-29 09:15:45 714

原创 leetcode刷题（五月）

记录一下自己的每天刷题。5.20废物的一天，只做了一道题560利用前缀和+哈希表5.21贪玩了，打了半天lol，躺了半天1248，1371接着昨天的前缀和练习，理解又深了一点，主要是解决连续子数组问题的（1371很难想）每日一题又没做上，明天补一下吧，以后每天做一道dp，加油...

2020-05-21 23:16:55 195

原创 transformer库bert的使用(pytorch)

记录一下学习的内容1.载入bertfrom transformers import BertModel, BertTokenizer, BertConfig#注意文件夹里的配置文件需更名'config'，词表更名为'vocab'model_name = "../bert-base-uncased/"# 载入tokenizertokenizer = BertTokenizer.from_pretrained(model_name)#载入配置文件，这句可有可无，直接下一步载入模型自动配置conf

2020-05-20 16:26:43 7816 7

原创 python3 zip()和zip(*)

刚刚做完leetcode14最长公共前缀，里面一个解答涉及到zip（*），看了很多讲解，感觉都是错误的。以下是自己实验的结果：zip（a,b,c……）：针对多个可迭代对象a,b,c…压缩成n个元组，元组数量n等于min(多个可迭代对象a,b,c…中最小的长度)zip（*a）:针对单个可迭代对象压缩成n个元组，元组数量n等于min(a中元素的最小长度)leetcode14中的操作：结论...

2020-04-29 23:33:03 510 1

原创 tokenizers库BertWordPieceTokenizer

ids：词在词向量中的下表下标offsets：单词的起始位置（以字母的计量）[101][102]开头和结尾

2020-04-20 19:10:01 3986 4

原创 python in的时间复杂度

list：O(n)dic/set: O(1)

2020-04-20 14:08:20 4271

原创 anaconda清华镜像加速

1.设为默认升级 pip 到最新的版本 (>=10.0.0) 后进行配置：pip install pip -Upip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple2.临时使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple som...

2020-03-05 14:28:55 202

原创解决jupyter无法显示新建环境、删除不存在的环境目录

首先说一下我是win101.安装ipykernelconda install ipykernel2.激活新建环境activate 环境名称3.向新建环境中添加kernel.json文件python -m ipykernel install --user --name 环境名称 --display-name 环境名称如需删除不存在的环境目录，C:\Users\86180\AppDat...

2020-03-05 12:55:34 961 1

weixin_43744594的博客