自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云隐雾匿的博客

云在青天,水在瓶

  • 博客(86)
  • 资源 (2)
  • 收藏
  • 关注

原创 送给迷茫期的你——如何确定自己是否应该读博?

在美国叫A Doctor of Philosophy degree, 简称Ph.D.,是最高学位。一是完全掌握一个科研领域,二是在这个领域开创新理论。要通读所有这个领域的文献。一般开始时是看书,然后要找学术期刊杂志,会议论文和研究报告。一般在读博之前,学校会有一些方法来考核你对某一个领域地掌握情况,比如要有相关专业本科或者硕士学位。然后,为了证明对本专业的了解,你需要修研究生专业课程,通过考试并确获得较高的平均分。最后还要通过一个评委会的考核(博士中期考核),评委都是博士。

2024-02-11 12:31:30 1036

转载 如何高效阅读一篇论文?来自18位教授、主编和博士生的最好建议!

观点”的主要目标是延展论文传递的信息,但是“观点”的作者同时能够非常准确的提炼出文章的精华,这为非专业人士提供了很大的帮助。阅读论文时,给自己制定一个边读边写的任务,这能帮我成为一个主动的读者,而不是让我的眼睛呆滞地盯着堆积如山的文字,读一段忘一段。有的时候,当作者写作不够清楚,忽略了一些要点,并留下了多余的废话的时候,我会感到很生气。我认为图表是论文中最重要的部分,因为论文的摘要和正文可以被写成一个引人入胜的故事(,但图表体现的是完全客观的研究结果)。然后,如果我有什么不清楚的,我会去看方法部分。

2024-01-08 12:10:54 231

转载 变分自编码器VAE:原来是这么一回事 | 附开源代码

虽然走了比较长的一段路,但最终的模型其实是很接地气的。

2024-01-05 10:51:01 543

原创 对话系统之解码策略(Top-k & Top-p & Temperature)

对话系统,回复生成解码策略(Top-k采样 & Top-p采样 & Temperature采样)贪心解码(Greedy Decoding):直接选择概率最高的单词。这种方法简单高效,但是可能会导致生成的文本过于单调和重复。随机采样(Random Sampling):按照概率分布随机选择一个单词。这种方法可以增加生成的多样性,但是可能会导致生成的文本不连贯和无意义。集束搜索(BeamSearch):在每一个时间步,不再只保留当前概率最高的一个单词,而是按照概率从高到低排序,保留前num_beams个

2023-12-17 12:25:07 519 1

原创 2022中科院期刊分区表(计算机科学大类)

2022中科院期刊分区表(计算机科学大类)

2023-09-30 21:47:47 2741

原创 顶级人工智能会议接收率及信息

一、自然语言处理与计算语言学Conference Long Paper Short Paper ACL'14 26.2% (146/572) 26.1% (139/551) ACL'15 25.0% (173/692) 22.4% (145/648) ACL'16 28.0% (231/825) 21.0% (97/463) ACL'17 25.0% (195/751) 18.9% (107/5

2023-09-29 11:47:31 618 1

转载 会议论文和期刊论文比较

当然,投稿人是否参加会议是自由选择的,并不会影响论文的出版和检索。此外,相比期刊论文刊登在某一期的期刊上,会议论文是不一定能够出版的,有些文章仅在会议上进行宣读。一般来说,论文的出版是有利于论文的检索收录的,如果不出版,文章就不会被检索收录,其认可度自然不高。高水平的学术会议发表的论文是可以媲美核心期刊论文的,会议论文的发表关键在于会议的选择,只要选对了会议,论文对作者绝对有帮助。例如,有的学术会议水分略大,价值不高,发表论文自然认可度有限,但如果是高质量比较权威的会议,其会议论文也是很受认可的。

2023-09-29 11:28:22 178

转载 英文投稿经验参考

我的经验就是,在试验前,你要考虑为什么要做这试验(实验背景及目的),怎么来做(实验步骤),根据自己的经验猜测可能会得到什么样的结果(结论),通过这样考虑之后,一篇论文的结构基本上出来了,就等着看结果到底如何了,如果和自己猜想的一样,自然可以写论文按照预先设好的步骤。因为论文有的部分是固定的,一旦你的实验技术路线出来了你的材料与方法,前面的引言中的国外内外研究现状、背景,所用的方法部分,都可以写了,然后出来一个什么结果就可以像“填空“一样往里面加,最后讨论,摘要,编排格式。很多你做的工作别人也在同时进行着。

2023-09-28 12:30:21 187

转载 学术会议参会流程分享

一般稿件提交会务组时,会有格式要求,投稿前在会议官网下载模板,并按照模板调整好论文格式,在截稿日期之前投稿。现在市面上很多“假会”“水会”,除了研究领域外,大家挑选时还可以结合主办单位、会议届次、往届检索情况、知网收录情况等综合判断,以防论文后期无法出版检索,甚至被骗钱的情况。无论通过哪种方式,一定要先认真阅读会议时间、地点、出版、往届检索等信息,尽量选择和自己研究领域密切相关、高质量的会议,不能只根据地点或时间来选择,毕竟不是旅游~当然,你也可以先确定投稿的学术会议,再对应准备论文,把握好时间即可。

2023-09-27 16:07:01 270

原创 2022年CCF推荐国际学术会议和期刊(人工智能领域)

表格中红字:表示不在2019年第五版目录中,刚刚入选CCF;表格中黄字:表示现在2019年第五版目录中,升级至A/B;

2023-09-27 11:03:50 972

原创 linux命令查看谁在使用服务器的GPU

linux命令查看谁在使用服务器的GPU

2023-09-15 16:59:05 2214

转载 如何较好地构建多任务学习模型?这里有三点经验

现在已经有很多关于利用深度学习模型实现 MTL 的文章。在本文中,我准备分享一些利用神经网络实现 MTL 时需要考虑的具体问题,同时也会展示一些基于 TensorFlow 的简单解决方案。我们准备从参数硬共享(hard parameter sharing)的基础方法开始。硬共享表示我们使用一个共享的子网络,下接各个任务特定的子网络。在 TensorFlow 中,实现这样一个模型的简单方法是使用带有 multi_head 的 Estimator。

2023-08-13 17:42:58 342

原创 如何为模型不同层设置不同的学习率?

在模型调参中常用的一种方法是针对不同层设置不同的学习率,以此避免因难易程度不一致引起的过拟合等问题。

2023-08-12 18:39:35 568

转载 详解.detach()、 .data和.detach_()

当我们在训练网络的时候可能希望保持一部分的网络参数不变,只对其中一部分的参数进行调整;或者只训练部分分支网络,并不让其梯度对主网络的梯度造成影响,这时候我们就需要使用detach()函数来切断一些分支的反向传播。

2023-07-28 21:28:24 1951

原创 Pycharm远程服务器上运行程序报错:Can‘t get remote credentials for deployment server

注意:只需清除“Remote Python”前缀开头的服务器。3. 在弹出的窗口中发现存在。

2023-07-19 12:17:48 2157 3

原创 我的创作纪念日兼GPT模型简单介绍

创作纪念日兼GPT模型简单介绍

2023-07-05 22:38:10 1349 1

原创 我为开放原子全球开源峰会助力

总体而言,这次峰会证明了开源技术的重要性和无限潜力,它不仅可以促进技术创新和产业升级,还能够推动全球科技合作和共同发展。我对未来的开源技术发展充满了信心,期待着在下一次峰会的中与全球开源社区一起探索更多的可能性。

2023-06-30 12:18:38 2775

原创 Transformer-XL模型简单介绍

以自注意力机制为核心的 Transformer 模型是各种预训练语言模型中的主要组成部分。自注意力机制能够构建序列中各个元素之间的上下文关联程度,挖掘深层次的语义信息。然而,自注意力机制的时空复杂度为,即时间和空间消耗会随着输入序列的长度呈平方级增长。这种问题的存在使得预训练语言模型处理长文本的效率较低。传统处理长文本的方法一般是切分输入文本,其中每份的大小设置为预训练语言模型能够单次处理的最大长度(如512)。

2023-06-22 17:03:35 1799

原创 ELECTRA模型简单介绍

通过前面的介绍可以发现,生成器和判别器的主体结构均由BERT组成,因此两者完全可以使用同等大小的参数规模。注意:由于生成器和判别器衔接的部分涉及采样环节,判别器的损失并不会直接回传到生成器,因为采样操作是不可导的。因为上文讲到生成器只会在预训练阶段使用,而在下游任务精调阶段是不使用的,因此减小生成器的大小是合理的。需要注意的是,这里只预测经过掩码的词,即对于某个掩码位置t,生成器输出对应原文本 xt 的概率。接下来,判别器的目标是从采样后的句子中识别出哪些单词是和原始句子 x 对应位置的单词一样的,即。

2023-05-30 10:25:03 1318

转载 论文如何找好的idea——以人工智能领域为例

好的研究想法从哪里来想法好还是不好,并不是非黑即白的二分问题,而是像光谱一样呈连续分布,因时而异,因人而宜。计算机科技领域的发展既有积累的过程,也有跃迁的奇点,积累量变才会产生质变,吃第三个馒头饱了,也是因为前面两个馒头打底

2023-05-12 10:50:36 334 1

原创 Crowdsoure的简单介绍

在美国《连线》杂志2006年的6月刊上,记者Jeff Howe首次提出了Crowdsoure(众包)的概念。众包是一个框架,它将大量分散的人群聚集在一起,收集数据,解决问题,或应对挑战。它一般通过数字平台(包括应用程序、社交媒体、商业软件等)进行互动和数据收集。例如,像国外Waze这样的交通应用程序就鼓励司机自我报告事故或其他道路事件,以向应用程序中的所有用户提供实时、最新的信息。在通常情况下,参与者是志愿者;但也有一些情况,他们的服务可能会得到报酬或获得奖励。

2023-05-04 18:03:09 892

原创 WPS保存了但是内容丢失的问题

在备份中心中按照时间顺序找到对应的文档,点击进入,再另存一份即可。

2023-04-30 21:02:37 2489

转载 刘知远:NLP研究入门之道(一)走近NLP学术界

这篇介绍了自然语言处理领域国内外的主要学术组织、会议和论文,参加学术会议,阅读学术论文,是走近学术界、了解学术动态的主要方式,再辅以社交媒体和科技媒体,相信可以让同学比较及时地掌握自然语言处理科研动态。

2023-04-24 20:13:53 345

原创 MobileBERT模型简单介绍

可以看到在渐进式知识迁移中,词向量层和最终分类输出层的权重是直接从教师模型拷贝至学生模型的,始终不参与参数更新。首先,学生模型开始学习教师模型的第一层。接下来,学生模型继续学习教师模型的第二层,而此时学生模型的第一层权重是不参与更新的。依此类推,当学生模型学习教师模型的第i层时,学生模型中所有小于 i 层的权重均不参与更新。需要注意的是,由于MobileBERT(学生模型)与教师模型的层数一致(均为12层),这里不需要设计映射函数,只需要将教师模型和学生模型的每一层进行一一对应即可。

2023-04-21 21:28:32 814

原创 模型蒸馏与压缩简单介绍

预训练语言模型虽然在众多自然语言任务中取得了很好的效果,但通常这类模型的参数量较大,很难满足实际应用中的时间和空间需求。下图给出了常见预训练语言模型参数量的发展趋势。可以看到,预训练语言模型的参数量呈加速增大的趋势。这使得在实际应用中使用这些预训练语言模型变得越来越困难。因此,除了优化预训练语言模型的预测精度,如何能够降低预训练语言模型参数量以及加快运行效率也是非常重要的研究方向。目前主流的预训练语言模型压缩方法是知识蒸馏技术。知识蒸馏。

2023-04-20 11:25:31 498

原创 可控文本生成简单介绍

它之所以能够实现可控文本生成,其核心思想是从海量无标注数据中定位文章所在的领域或其他属性,并作为控制代码(Control codes)放在输入文本的头部,以指导后续文本的生成。其核心思想是,对于预训练语言模型(GPT-2)以及目标属性a(例如情感、 主题等),利用当前的生成结果是否满足属性a(即条件概率P (a|x))对生成进行修正,使其朝着满足该属性的方向变化。除了作为预训练模型用于语言表示、条件式生成等下游任务,语言模型的另一个重要的功能是“写作” ,或定向文本生成。,或者“方向” ,因此实用性较弱。

2023-04-19 20:34:29 1043

原创 GPT-3模型简单介绍

模型在不同序列上的训练则对应元学习的“外循环”(Outer loop),起到了在不同任务之间泛化的作用,以避免模型过拟合至某一个特定的任务。由于GPT-3庞大的参数量,目前在将 GPT-3用于下游任务时,主要是在小样本学习的设定下直接进行推理, 而不对模型本身作进一步的精调。)相似,OpenAI提出的GPT-3模型(第三代GPT)也是通过将不同形式的自然语言处理任务重定义为文本生成实现模型的通用化。实验表明,GPT-3模型不需要任何额外的精调,就能够在只有少量目标任务标注样本的情况下进行很好的泛化。

2023-04-19 20:19:03 1469

原创 T5模型简单介绍

谷歌公司的研究人员提出的T5(Text-to-Text Transfer Transformer,有5个T开头的单词,所以叫做T5)模型采用了一种与前述模型截然不同的策略:将不同形式的任务统一转化为条件式生成任务。

2023-04-18 10:45:59 3146

原创 UniLM模型简单介绍

如果将基于Transformer的双向语言模型(如BERT模型中的掩码语言模型)与单向的自回归语言模型(如BART模型的解码器)进行对比,可以发现,两者的区别主要在于模型能够使用序列中的哪部分信息进行每一时刻隐含层表示的计算。对于目标文本片段,则采用自回归的方式逐词生成,在每一时刻,可以利用条件文本中的所有上下文表示,以及部分已生成的左侧上下文表示,如图(c)所示。它的核心思想是通过使用不同的自注意力掩码矩阵控制每个词的注意力范围,从而实现不同语言模型对于信息流的控制。

2023-04-15 17:05:00 976

原创 BART模型简单介绍

对于序列分类任务(如文本情感分类),BART模型的编码器与解码器使用相同的输入,将解码器最终时刻的隐含层状态作为输入文本的向量表示,并输入至多类别线性分类器中,再利用该任务的标注数据精调模型参数。与BERT模型的 [CLS] 标记类似,BART模型在解码器的最后时刻额外添加一个特殊标记,并以该标记的隐含层状态作为文本的表示,从而能够利用完整的解码器状态。在这些任务中,编码器的输入是作为条件的输入文本,解码器则以自回归的方式生成对应的目标文本。对于不同的任务,BART模型的精调方式有所不同。

2023-04-14 21:10:22 5426

原创 多层感知器介绍

多层感知器(Multi-layer Perceptron,MLP)是解决线性不可分问题的一种解决方案。多层感知器指的是堆叠多层线性分类器,并在中间层(也叫隐含层,Hid-den layer)增加非线性激活函数。例如,可以设计如下的多层感知器:等式中,ReLU(Rectified Linear Unit)是一种非线性激活函数, 其定义为当某一项输入小于0时,输出为0;否则输出相应的输入值,即W [i]和b [i]分别表示第i层感知器的权重和偏置项。

2023-04-13 20:37:16 1741

原创 神经网络中的参数初始化

神经网络中的参数初始化,这里我们介绍三类常用的随机初始化方法:基于固定方差的参数初始化、基于方差缩放的参数初始化和正交初始化方法。预训练初始化、随机初始化、固定值初始化。

2023-04-05 11:15:22 786

原创 Win10底部任务栏鼠标转圈圈问题的解决

Win10底部任务栏鼠标转圈圈问题的解决。近来在电脑使用过程中遇到了这个麻烦的问题,有的时候是在开机的时候发生,有的时候是在正常使用中突然发生。具体表现为:一些图标无法加载,一些快捷键无法使用,当鼠标放在任务栏上时出现转圈圈的现象。参考网上一些方法,发现都不怎么管用,重装系统的风险还很大。在这里记录一下自己解决问题的方法。

2023-03-29 11:14:27 11307 8

原创 神经网络优化中的学习率调整(下)

神经网络优化中的学习率调整,自适应调整学习率的方法,例如AdaGradRM、Sprop、AdaDelta等。学习率衰减、学习率预热、周期性学习率调整方法

2023-03-28 11:33:26 866

原创 神经网络优化中的学习率调整(上)

神经网络优化中的学习率调整,包括学习率衰减、学习率预热、周期性学习率调整等几种方法

2023-03-27 11:58:51 1458

原创 论文中常见缩写符号的含义(w/ 、w/o、w.r.t. 、i.e.、s.t.、cf.等)

论文中常见缩写符号的含义:w/和 w/o、w.r.t. 和 i.e.、etc.、Vanilla等

2023-03-20 15:46:28 9469

原创 自训练和协同训练简述

自训练和协同训练简述,在深度学习中,自训练和协同训练是两种常见的半监督学习算法,本文将简单介绍两种算法的基本思想。

2023-03-17 22:28:58 1632

原创 Pytorch模型参数的保存和加载

Pytorch模型参数的保存和加载

2023-03-10 17:52:31 1623

原创 Pickle模块中的dump()和load()方法介绍

Pickle模块中的dump()和load()方法介绍,Python

2023-03-08 22:20:58 1835 2

原创 在服务器上指定GPU跑代码

在服务器上指定GPU跑代码,指定GPU无法生效解决方法

2023-02-25 20:02:36 5537 1

Transformer-XL模型代码

Transformer-XL模型代码

2023-06-22

极简主义风格个人简历模版

免费分享简历模版,需要的小伙伴自取

2022-03-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除