云隐雾匿-CSDN博客

原创送给迷茫期的你——如何确定自己是否应该读博？

在美国叫A Doctor of Philosophy degree, 简称Ph.D.，是最高学位。一是完全掌握一个科研领域，二是在这个领域开创新理论。要通读所有这个领域的文献。一般开始时是看书，然后要找学术期刊杂志，会议论文和研究报告。一般在读博之前，学校会有一些方法来考核你对某一个领域地掌握情况，比如要有相关专业本科或者硕士学位。然后，为了证明对本专业的了解，你需要修研究生专业课程，通过考试并确获得较高的平均分。最后还要通过一个评委会的考核(博士中期考核)，评委都是博士。

2024-02-11 12:31:30 1132

转载如何高效阅读一篇论文？来自18位教授、主编和博士生的最好建议！

观点”的主要目标是延展论文传递的信息，但是“观点”的作者同时能够非常准确的提炼出文章的精华，这为非专业人士提供了很大的帮助。阅读论文时，给自己制定一个边读边写的任务，这能帮我成为一个主动的读者，而不是让我的眼睛呆滞地盯着堆积如山的文字，读一段忘一段。有的时候，当作者写作不够清楚，忽略了一些要点，并留下了多余的废话的时候，我会感到很生气。我认为图表是论文中最重要的部分，因为论文的摘要和正文可以被写成一个引人入胜的故事（，但图表体现的是完全客观的研究结果）。然后，如果我有什么不清楚的，我会去看方法部分。

2024-01-08 12:10:54 317

转载变分自编码器VAE：原来是这么一回事 | 附开源代码

虽然走了比较长的一段路，但最终的模型其实是很接地气的。

2024-01-05 10:51:01 634

原创对话系统之解码策略（Top-k & Top-p & Temperature）

对话系统，回复生成解码策略（Top-k采样 & Top-p采样 & Temperature采样）贪心解码（Greedy Decoding）：直接选择概率最高的单词。这种方法简单高效，但是可能会导致生成的文本过于单调和重复。随机采样（Random Sampling）：按照概率分布随机选择一个单词。这种方法可以增加生成的多样性，但是可能会导致生成的文本不连贯和无意义。集束搜索（BeamSearch）：在每一个时间步，不再只保留当前概率最高的一个单词，而是按照概率从高到低排序，保留前num_beams个

2023-12-17 12:25:07 694 1

原创 2022中科院期刊分区表（计算机科学大类）

2022中科院期刊分区表（计算机科学大类）

2023-09-30 21:47:47 3225

原创顶级人工智能会议接收率及信息

一、自然语言处理与计算语言学Conference Long Paper Short Paper ACL'14 26.2% (146/572) 26.1% (139/551) ACL'15 25.0% (173/692) 22.4% (145/648) ACL'16 28.0% (231/825) 21.0% (97/463) ACL'17 25.0% (195/751) 18.9% (107/5

2023-09-29 11:47:31 845 1

转载会议论文和期刊论文比较

当然，投稿人是否参加会议是自由选择的，并不会影响论文的出版和检索。此外，相比期刊论文刊登在某一期的期刊上，会议论文是不一定能够出版的，有些文章仅在会议上进行宣读。一般来说，论文的出版是有利于论文的检索收录的，如果不出版，文章就不会被检索收录，其认可度自然不高。高水平的学术会议发表的论文是可以媲美核心期刊论文的，会议论文的发表关键在于会议的选择，只要选对了会议，论文对作者绝对有帮助。例如，有的学术会议水分略大，价值不高，发表论文自然认可度有限，但如果是高质量比较权威的会议，其会议论文也是很受认可的。

2023-09-29 11:28:22 216

转载英文投稿经验参考

我的经验就是，在试验前，你要考虑为什么要做这试验（实验背景及目的），怎么来做（实验步骤），根据自己的经验猜测可能会得到什么样的结果（结论），通过这样考虑之后，一篇论文的结构基本上出来了，就等着看结果到底如何了，如果和自己猜想的一样，自然可以写论文按照预先设好的步骤。因为论文有的部分是固定的，一旦你的实验技术路线出来了你的材料与方法，前面的引言中的国外内外研究现状、背景，所用的方法部分，都可以写了，然后出来一个什么结果就可以像“填空“一样往里面加，最后讨论，摘要，编排格式。很多你做的工作别人也在同时进行着。

2023-09-28 12:30:21 215

转载学术会议参会流程分享

一般稿件提交会务组时，会有格式要求，投稿前在会议官网下载模板，并按照模板调整好论文格式，在截稿日期之前投稿。现在市面上很多“假会”“水会”，除了研究领域外，大家挑选时还可以结合主办单位、会议届次、往届检索情况、知网收录情况等综合判断，以防论文后期无法出版检索，甚至被骗钱的情况。无论通过哪种方式，一定要先认真阅读会议时间、地点、出版、往届检索等信息，尽量选择和自己研究领域密切相关、高质量的会议，不能只根据地点或时间来选择，毕竟不是旅游~当然，你也可以先确定投稿的学术会议，再对应准备论文，把握好时间即可。

2023-09-27 16:07:01 477

原创 2022年CCF推荐国际学术会议和期刊（人工智能领域）

表格中红字：表示不在2019年第五版目录中，刚刚入选CCF;表格中黄字：表示现在2019年第五版目录中，升级至A/B；

2023-09-27 11:03:50 1039

原创 linux命令查看谁在使用服务器的GPU

linux命令查看谁在使用服务器的GPU

2023-09-15 16:59:05 2462

转载如何较好地构建多任务学习模型？这里有三点经验

现在已经有很多关于利用深度学习模型实现 MTL 的文章。在本文中，我准备分享一些利用神经网络实现 MTL 时需要考虑的具体问题，同时也会展示一些基于 TensorFlow 的简单解决方案。我们准备从参数硬共享（hard parameter sharing）的基础方法开始。硬共享表示我们使用一个共享的子网络，下接各个任务特定的子网络。在 TensorFlow 中，实现这样一个模型的简单方法是使用带有 multi_head 的 Estimator。

2023-08-13 17:42:58 457

原创如何为模型不同层设置不同的学习率？

在模型调参中常用的一种方法是针对不同层设置不同的学习率，以此避免因难易程度不一致引起的过拟合等问题。

2023-08-12 18:39:35 640

转载详解.detach()、 .data和.detach_()

当我们在训练网络的时候可能希望保持一部分的网络参数不变，只对其中一部分的参数进行调整；或者只训练部分分支网络，并不让其梯度对主网络的梯度造成影响，这时候我们就需要使用detach()函数来切断一些分支的反向传播。

2023-07-28 21:28:24 2721

原创 Pycharm远程服务器上运行程序报错：Can‘t get remote credentials for deployment server

注意：只需清除“Remote Python”前缀开头的服务器。3. 在弹出的窗口中发现存在。

2023-07-19 12:17:48 2290 3

原创我的创作纪念日兼GPT模型简单介绍

创作纪念日兼GPT模型简单介绍

2023-07-05 22:38:10 1640 1

原创我为开放原子全球开源峰会助力

总体而言，这次峰会证明了开源技术的重要性和无限潜力，它不仅可以促进技术创新和产业升级，还能够推动全球科技合作和共同发展。我对未来的开源技术发展充满了信心，期待着在下一次峰会的中与全球开源社区一起探索更多的可能性。

2023-06-30 12:18:38 2783

原创 Transformer-XL模型简单介绍

以自注意力机制为核心的 Transformer 模型是各种预训练语言模型中的主要组成部分。自注意力机制能够构建序列中各个元素之间的上下文关联程度，挖掘深层次的语义信息。然而，自注意力机制的时空复杂度为，即时间和空间消耗会随着输入序列的长度呈平方级增长。这种问题的存在使得预训练语言模型处理长文本的效率较低。传统处理长文本的方法一般是切分输入文本，其中每份的大小设置为预训练语言模型能够单次处理的最大长度（如512）。

2023-06-22 17:03:35 2017

原创 ELECTRA模型简单介绍

通过前面的介绍可以发现，生成器和判别器的主体结构均由BERT组成，因此两者完全可以使用同等大小的参数规模。注意：由于生成器和判别器衔接的部分涉及采样环节，判别器的损失并不会直接回传到生成器，因为采样操作是不可导的。因为上文讲到生成器只会在预训练阶段使用，而在下游任务精调阶段是不使用的，因此减小生成器的大小是合理的。需要注意的是，这里只预测经过掩码的词，即对于某个掩码位置t，生成器输出对应原文本 xt 的概率。接下来，判别器的目标是从采样后的句子中识别出哪些单词是和原始句子 x 对应位置的单词一样的，即。

2023-05-30 10:25:03 1493

转载论文如何找好的idea——以人工智能领域为例

好的研究想法从哪里来想法好还是不好，并不是非黑即白的二分问题，而是像光谱一样呈连续分布，因时而异，因人而宜。计算机科技领域的发展既有积累的过程，也有跃迁的奇点，积累量变才会产生质变，吃第三个馒头饱了，也是因为前面两个馒头打底

2023-05-12 10:50:36 529 1

原创 Crowdsoure的简单介绍

在美国《连线》杂志2006年的6月刊上，记者Jeff Howe首次提出了Crowdsoure（众包）的概念。众包是一个框架，它将大量分散的人群聚集在一起，收集数据，解决问题，或应对挑战。它一般通过数字平台（包括应用程序、社交媒体、商业软件等）进行互动和数据收集。例如，像国外Waze这样的交通应用程序就鼓励司机自我报告事故或其他道路事件，以向应用程序中的所有用户提供实时、最新的信息。在通常情况下，参与者是志愿者；但也有一些情况，他们的服务可能会得到报酬或获得奖励。

2023-05-04 18:03:09 944

原创 WPS保存了但是内容丢失的问题

在备份中心中按照时间顺序找到对应的文档，点击进入，再另存一份即可。

2023-04-30 21:02:37 2875

转载刘知远：NLP研究入门之道（一）走近NLP学术界

这篇介绍了自然语言处理领域国内外的主要学术组织、会议和论文，参加学术会议，阅读学术论文，是走近学术界、了解学术动态的主要方式，再辅以社交媒体和科技媒体，相信可以让同学比较及时地掌握自然语言处理科研动态。

2023-04-24 20:13:53 541

原创 MobileBERT模型简单介绍

可以看到在渐进式知识迁移中，词向量层和最终分类输出层的权重是直接从教师模型拷贝至学生模型的，始终不参与参数更新。首先，学生模型开始学习教师模型的第一层。接下来，学生模型继续学习教师模型的第二层，而此时学生模型的第一层权重是不参与更新的。依此类推，当学生模型学习教师模型的第i层时，学生模型中所有小于 i 层的权重均不参与更新。需要注意的是，由于MobileBERT（学生模型）与教师模型的层数一致（均为12层），这里不需要设计映射函数，只需要将教师模型和学生模型的每一层进行一一对应即可。

2023-04-21 21:28:32 955

原创模型蒸馏与压缩简单介绍

预训练语言模型虽然在众多自然语言任务中取得了很好的效果，但通常这类模型的参数量较大，很难满足实际应用中的时间和空间需求。下图给出了常见预训练语言模型参数量的发展趋势。可以看到，预训练语言模型的参数量呈加速增大的趋势。这使得在实际应用中使用这些预训练语言模型变得越来越困难。因此，除了优化预训练语言模型的预测精度，如何能够降低预训练语言模型参数量以及加快运行效率也是非常重要的研究方向。目前主流的预训练语言模型压缩方法是知识蒸馏技术。知识蒸馏。

2023-04-20 11:25:31 615

原创可控文本生成简单介绍

它之所以能够实现可控文本生成，其核心思想是从海量无标注数据中定位文章所在的领域或其他属性，并作为控制代码（Control codes）放在输入文本的头部，以指导后续文本的生成。其核心思想是，对于预训练语言模型（GPT-2）以及目标属性a（例如情感、主题等），利用当前的生成结果是否满足属性a（即条件概率P （a|x））对生成进行修正，使其朝着满足该属性的方向变化。除了作为预训练模型用于语言表示、条件式生成等下游任务，语言模型的另一个重要的功能是“写作” ，或定向文本生成。，或者“方向” ，因此实用性较弱。

2023-04-19 20:34:29 1188

原创 GPT-3模型简单介绍

模型在不同序列上的训练则对应元学习的“外循环”（Outer loop），起到了在不同任务之间泛化的作用，以避免模型过拟合至某一个特定的任务。由于GPT-3庞大的参数量，目前在将 GPT-3用于下游任务时，主要是在小样本学习的设定下直接进行推理，而不对模型本身作进一步的精调。）相似，OpenAI提出的GPT-3模型（第三代GPT）也是通过将不同形式的自然语言处理任务重定义为文本生成实现模型的通用化。实验表明，GPT-3模型不需要任何额外的精调，就能够在只有少量目标任务标注样本的情况下进行很好的泛化。

2023-04-19 20:19:03 1571

Transformer-XL模型代码

极简主义风格个人简历模版

Java 学习网站推荐

Edge浏览器网页需要重新登陆的问题