学习记录
文章平均质量分 72
1015号居民
这个作者很懒,什么都没留下…
展开
-
NLP的26种常见任务
转载https://shazhenyu.blog.csdn.net/article/details/103764016 文章目录 1.分词 Word Segmentation2.词预测 Word Prediction3. 文本蕴涵 Textual Entailment4. 语音识别 Automatic Speech Recognition5. 自动摘要 Automatic Summarisation6. 文本纠错 Text Correct7.字音转载 2021-08-04 15:52:50 · 3538 阅读 · 0 评论 -
P-tuning|自动构建模板
转载https://www.sohu.com/a/460275238_500659为什么 P-tuning 会更好?比如全量数据下,大家都是放开所有权重,P-tuning 的方法依然比直接 finetune 要好,为啥呢?事实上,提出这个问题的读者,应该是对 BERT 加个全连接层的直接 finetune 做法“习以为常”了。很明显,不管是 PET 还是 P-tuning,它们其实都更接近预训练任务,而加个全连接层的做法,其实还没那么接近预训练任务,所以 某种程度上来说,P-tuning 有效更加“显然转载 2021-07-22 17:45:16 · 1076 阅读 · 0 评论 -
Pseudo-伪标签
转载至作者随君https://blog.csdn.net/u012420553/article/details/100975294 Pseudo-Label:深度学习中一种简单有效的半监督方法 1 摘要2 介绍3 深度学习伪标签3.1 深度神经网络3.2 Denoising Auto-Encoder 去噪自编码器 1 摘要 提出了一种简单有效的深度神经网络半监督学习方法。基本上,该网络采用带标签和无标签数据同时训练的监督方式。对于未标转载 2021-07-18 21:28:25 · 911 阅读 · 0 评论 -
weight decay(一种学习算法的偏好,偏向于L2范数较小的权重)
原创 2021-07-16 17:35:17 · 131 阅读 · 0 评论 -
label 选择: soft label or hard label?
转载自作者山竹果https://www.cnblogs.com/shona/p/13408970.htmlsoft label:软标签,例如:probs 0.3, 0,8, 0,2…hard label:硬标签,例如:实际label值 0, 1, 2…label选择硬标签:使用会比较多一点,用于非是即非的任务上,例如是猫就是猫,是狗就是狗;软标签:用于模棱两可的情况;用于蒸馏,例如,计算teacher模型的参数于student模型参数的loss,用硬标签会过于绝对,不利于stud转载 2021-07-16 17:16:33 · 5671 阅读 · 0 评论 -
范数在机器学习中的作用
转载至作者Xinyu Chenhttps://zhuanlan.zhihu.com/p/26884695解决过拟合问题在机器学习的诸多方法中,假设给定了一个比较小的数据集让我们来做训练,我们常常遇到的问题可能就是过拟合 (over-fitting) 了,即训练出来的模型可能将数据中隐含的噪声和毫无关系的特征也表征出来。为了避免类似的过拟合问题,一种解决方法是在 (机器学习模型的) 损失函数中加入正则项,比如用 L1 -范数表示的正则项,只要使得 L1-范数的数值尽可能变小,就能够让我们期望的解变成一转载 2021-07-16 16:27:35 · 124 阅读 · 0 评论 -
BN层详解
本文转自作者王小波_Libohttps://blog.csdn.net/qq_38900441/article/details/106047525 批量归一化(BN:Batch Normalization:解决在训练过程中,中间层数据分布发生改变的问题,以防止梯度消失或爆炸、加快训练速度) 1、为什么输入数据需要归一化(Normalized Data)?转载 2021-07-16 15:13:29 · 113 阅读 · 0 评论 -
Pytorch数据加载的分析
转载自作者公众号机器学习与生成对抗网络https://blog.csdn.net/lgzlgz3102/article/details/107241414 知乎作者 巽二 https://zhuanlan.zhihu.com/p/100762487 Pytorch数据加载的效率一直让人头痛,此前我介绍过两个方法,实际使用后数据加载的速度还是不够快,我陆续做了一些尝试,这里做个简单转载 2021-07-16 14:48:40 · 647 阅读 · 0 评论 -
warmup
转载至作者香侬科技https://www.zhihu.com/question/338066667 scheduler = get_linear_schedule_with_warmup( optimizer, num_warmup_steps=int(opt.warmup_proportion * t_total), num_training_steps=t_total )# 使用 SGD 训练神经网络时,在初始使用较大学习率而后期切换为较小学习率warmup 需要在转载 2021-07-16 11:36:18 · 199 阅读 · 0 评论 -
Pytorch的DataLoader, DataSet, Sampler之间的关系
转载自作者marsggbohttps://www.cnblogs.com/marsggbo/p/11308889.html转载 2021-07-15 17:17:02 · 190 阅读 · 0 评论 -
Sampler
转载至作者marsggbohttps://www.cnblogs.com/marsggbo/p/11541054.html转载 2021-07-15 17:04:39 · 82 阅读 · 0 评论 -
【机器学习的Tricks】随机权值平均优化器swa
本文转载自微信公众号[机器学习炼丹术]https://blog.csdn.net/qq_34107425/article/details/107722503 这两天被朋友推荐看了一篇热乎的新型优化器的文章,文章目前还只挂在arxiv上,还没发表到顶会上。本着探索的目的,把这个论文给复现了一下,顺便弥补自己在优化器方面鲜有探索的不足。 论文标题:Averaging Weights Leads to Wider O转载 2021-07-15 15:38:43 · 466 阅读 · 0 评论 -
特征工程-获取更好的训练数据
转载 本文是一篇关于特征工程的总结类文章,如有不足之处或理解有偏差的地方,还望大家多多指点。 首先,给一张特征工程的思维导图: 【如果要浏览图片,建议将其下载到本地,使用图片浏览软件查看】 关于特征工程(Feature E转载 2021-07-08 18:15:38 · 638 阅读 · 0 评论 -
Accuracy(精度)、Precision(精准度)和Recall(召回率)
转载 召回率 (Recall):正样本有多少被找出来了(召回了多少)。 准确率 (Precision):你认为的正样本,有多少猜对了(猜的准确性如何)。 阐述机器学习分类模型评估中常见的性能度量指标(performance measure):Accuracy(精度)、Precision(精准度)和Recall(召回率),这是理解更为复杂分类模型性能度量指标(例如目标检测任务中的转载 2021-07-08 17:48:18 · 3958 阅读 · 0 评论 -
BERT-wwm、BERT-wwm-ext
转载 1.Bert-wwm wwm 即 Whole Word Masking(对全词进行Mask),是谷歌在2019年5月31号发布的一项bert升级版本,主要更改了原预训练阶段的训练样本生成策略。相比于bert的改进是用Mask标签替换一个完整的词而不是字词,中转载 2021-06-20 18:07:46 · 924 阅读 · 0 评论 -
bert的运用(简单易懂,巨好必看)
转载BERT基于所有层中的左、右语境进行联合调整,来预训练深层双向表征。只需要增加一个输出层,就可以对预训练的BERT表征进行微调,就能够为更多的任务创建当前的最优模型。1.预训练模型BERT是一个预训练的模型,那么什么是预训练呢?举例子进行简单的介绍假设已有A训练集,先用A对网络进行预训练,在A任务上学会网络参数,然后保存以备后用,当来一个新的任务B,采取相同的网络结构,网络参数初始化的时候可以加载A学习好的参数,其他的高层参数随机初始化,之后用B任务的训练数据来训练网络,当加载的参数保持不变时,转载 2021-06-20 16:44:27 · 7628 阅读 · 2 评论 -
bert中的cls和sep等等
一般我们就用训练集出一个模型,然后可以在其他的代码里读取这个模型来使用。其他的代码就是所谓的下游任务(比如·什么分类、NER什么的)。BERT只是出一个词向量,这个向量不接任务你也看不出什么东西。这种分开训的就叫pipline,如果bert和下游任务一起训就叫end-to-endBERT 的输入可以包含一个句子对 (句子 A 和句子 B),也可以是单个句子。此外还增加了一些有特殊作用的标志位:转载[CLS] 标志放在第一个句子的首位,经过 BERT 得到的的表征向量 C 可以用于后续的分类任务。[SE转载 2021-06-20 16:18:27 · 10048 阅读 · 5 评论 -
BERT模型
BERT转载https://blog.csdn.net/jiaowoshouzi/article/details/89073944linkNLP发展史seq-to-seq在encode阶段,第一个节点输入一个词,之后的节点输入的是下一个词与前一个节点的hidden state,最终encoder会输出一个context,这个context又作为decoder的输入,每经过一个decoder的节点就输出一个翻译后的词,并把decoder的hidden state作为下一层的输入。该模型对于短文本转载 2021-06-16 21:17:41 · 348 阅读 · 0 评论 -
图卷积网络GCN
转载https://www.zhihu.com/question/54504471/answer/630639025link温度分布随时间的变化(建模采取的是牛顿冷却定律)只要你给定了一个空间,给定了空间中存在一种东西可以在这个空间上流动,两邻点之间流动的强度正比于它们之间的状态差异,那么何止是热量可以在这个空间流动,任何东西都可以!自然而然,假设在图中各个结点流动的东西不是热量,而是特征(Feature),而是消息(Message),那么问题自然而然就被推广到了GCN。所以GCN的实质是什么,是在转载 2021-06-15 11:03:51 · 79 阅读 · 0 评论 -
傅拉Z小变换
转载https://www.zhihu.com/question/22085329/answer/774074211link拉普拉斯变换是为了解决一些"太飘了"或者专业说法叫不收敛的信号,而z变换则用于解决了信号的存储和编码问题傅里叶变换把不同频率的正弦波信息给剥离出来已知f(t)f(t)f(t),把它分解为不同频率的正弦波相乘,对其周期积分后,其结果是0.这个概念我们又叫做波的相干性,比如给你一段信号,问你信号里有没有100HZ频率的正弦波信号,怎么办?简单,把这个信号和100hz的正弦转载 2021-06-15 09:42:29 · 186 阅读 · 0 评论 -
谱聚类方法
转载https://www.cnblogs.com/pinard/p/6221564.htmllink谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。 邻接矩阵W,它是由任意两点之间的权重值wij组成的矩阵。基本思想是,距转载 2021-06-15 08:54:41 · 248 阅读 · 0 评论 -
GCN图卷积
https://blog.csdn.net/weixin_36474809/article/details/8931643989316439link原创 2021-06-14 17:07:19 · 49 阅读 · 0 评论 -
trans系列模型
1.canonical model(典范模型)canonical这个词来源于canon。没错,就是和洗脑神曲卡农同源。canon本身也是拉丁语单词,意思是律法,带有一定的宗教意味。所以canonical,形象地来说可以解释为是 天选的。如果一个对象,它出现在这里或者选择这个特定的形式是自然的,顺理成章的,那么就说这是canonical choice(事实上你可以认为这是natural choice的一种酷炫说法)。反之,若存在可能的歧义或混淆,就不能这么说。举个简单的例子,把一个Topologica转载 2021-06-14 15:41:44 · 1390 阅读 · 0 评论 -
LSA(潜在语义分析)
转载https://blog.csdn.net/fkyyly/article/details/84665361link LSA最初是用在语义检索上,为了解决一词多义和一义多词的问题: 1.一词多义: 美女和PPMM表示相同的含义,但是单纯依靠检索词“美女”来检索文档,很可能丧失掉那些包含“PPMM”的文档。 2.一义多词:如果输入检索词是多个检索词组成的一个小document,例如“清澈 孩子”,那我们就知道这段转载 2021-06-14 11:09:24 · 2035 阅读 · 0 评论 -
基本的概念
1.canonical model(典范模型)canonical这个词来源于canon。没错,就是和洗脑神曲卡农同源。canon本身也是拉丁语单词,意思是律法,带有一定的宗教意味。所以canonical,形象地来说可以解释为是 天选的。如果一个对象,它出现在这里或者选择这个特定的形式是自然的,顺理成章的,那么就说这是canonical choice(事实上你可以认为这是natural choice的一种酷炫说法)。反之,若存在可能的歧义或混淆,就不能这么说。举个简单的例子,把一个Topologica原创 2021-06-14 10:45:06 · 148 阅读 · 0 评论 -
neo4j
转载https://blog.csdn.net/vivian_ll/article/details/89312526原文W3Cschool-neo4j教程(推荐)Neo4j官方教程(推荐)Neo4j概述win10 下安装 neo4jNeo4j安装&入门&一些优缺点基于电影知识图谱的智能问答系统(二) – Neo4j导入CSV文件(系列文章,很全,java+spark)...转载 2021-06-09 21:03:14 · 332 阅读 · 0 评论 -
命名实体识别
转载https://blog.csdn.net/fendouaini/article/details/81137424link 作者:Walker 目录 一.什么是命名实体识别 二转载 2021-06-09 19:05:54 · 2388 阅读 · 0 评论 -
卷积神经网络超详细介绍
卷积神经网络超详细介绍转载https://blog.csdn.net/jiaoyangwm/article/details/80011656link 文章目录 1、卷积神经网络的概念2、 发展过程3、如何利用CNN实现图像识别的任务4、CNN的特征5、CNN的求解6、卷积转载 2021-06-04 14:58:56 · 1421 阅读 · 0 评论 -
卷积神经网络
卷积神经网络 转载请注明:http://blog.csdn.net/stdcoutzyx/article/details/41596663 自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet、cuda-convnet2。为了增进CNN的理解和使用,特写此博文,以其与人交流,互有增益。正文之前,...转载 2021-06-04 14:40:54 · 170 阅读 · 0 评论 -
feature map、卷积核、卷积核个数、filter、channel的概念解释
转载https://blog.csdn.net/xys430381_1/article/details/82529397link feature map、卷积核、卷积核个数、filter、channel的概念解释 feather map的理解 在cnn的每个卷积层,数据都是以三维形式存在的。你可以把它看成许多个二维图片叠在一起(像豆腐皮一样),其中每一个称为一个feature map。 feather ma转载 2021-06-04 14:14:50 · 767 阅读 · 0 评论 -
卷积神经网络——输入层、卷积层、激活函数、池化层、全连接层
转载博客 https://blog.csdn.net/yjl9122/article/details/70198357link 卷积神经网络(CNN)由输入层、卷积层、激活函数、池化层、全连接层组成,即INPUT(输入层)-CONV(卷积层)-RELU(激活函数)-POOL(池化层转载 2021-06-03 22:16:28 · 4472 阅读 · 0 评论 -
5月31日到6月6日
1.Encoder-Decoder框架文本处理领域的Encoder-Decoder框架可以这么直观地去理解:可以把它看作适合处理由一个句子(或篇章)生成另外一个句子(或篇章)的通用处理模型。对于句子对<Source,Target>,我们的目标是给定输入句子Source,期待通过Encoder-Decoder框架来生成目标句子Target。Source和Target可以是同一种语言,也可以是两种不同的语言。而Source和Target分别由各自的单词序列构成:Encoder顾名思义就是对输原创 2021-06-03 15:54:34 · 160 阅读 · 0 评论 -
疑惑待解决
我们需要在没有观测到的三元组中找出和当前三元组对应的负样本,请问找到负样本是为了学习这个负样本中两个实体之间是怎么不满足所给定的关系吗?原创 2021-05-28 17:25:21 · 97 阅读 · 0 评论 -
5月24日到5月30日
1.长尾分布—在处理小样本和一些异常点的时候作用就突显出来了linkThin-tailed distribution (好像还没有中文翻译),比如正态分布。也就是说,在远离峰值的尾部区域,时间发生的概率更低一些。所以正态分布用来对那些主流事件发生较多,非主流事件发生较少的情况进行建模更为合适。**重尾分布(Heavy-tailed distribution)**更适用于对那些离峰值较远的稀有事件也会有相当的概率发生的情况。重尾分布作为一个大的类别,还包含三个重要的子类别,分别是肥尾分布(Fat-tai原创 2021-05-25 17:45:19 · 380 阅读 · 0 评论