走走走，快去看看世界-CSDN博客

原创 GPT-4 Technical Report论文阅读笔记

性能非常好律师资格考试前10%，gpt3.5是后10%在基础的banchmark上的分数也很高这里主要提到的banchmark是MMLU讨论了一个核心挑战，如何去预估大模型的能力也有局限性：容易产生幻觉、context window有限制，不能学习。GPT-4 的能力和局限性带来了重大而新颖的安全挑战，鉴于其潜在的社会影响，我们认为仔细研究这些挑战是一个重要的研究领域。主要介绍的是能力和局限性以及安全性。

2023-08-04 20:13:19 268 2

原创 Alibi位置编码（论文阅读）

关于方法的结论。

2023-08-03 15:45:52 656

原创 SimCLR和MOCO论文阅读笔记

SimCLR论文下载：MOCO论文下载：简单做一些笔记然后介绍一下。

2023-03-30 10:54:26 231

原创 Toolformer 论文阅读笔记

尽管通用语言模型在很多任务上表现出惊人的效果，但是在一些基础问题上表现的却不好，比如算数、事实查询。在这篇论文中，作者让语言模型自己学习如何使用API并不丢失语言模型的能力。作者提出的Toolformer模型，是一个被训练成自己知道在哪里需要调用API的模型。作者采用了自监督学习，因此不需要额外的资源，仅仅只是每个API的说明。在本文中涉及的API包括计算器、QA系统、搜索引擎、翻译系统、日历。

2023-03-18 14:09:13 773

原创 Visual ChatGPT论文阅读笔记

大的自然语言模型，在自然语言处理任务上展现出了强大的能力，但难以处理视觉任务。同时大的视觉模型在特定的任务上表现的非常好，但受限于输入输出格式等等不如语言模型一样灵活。对于如何让ChatGPT支持多模态聊天这个问题，比较直观的想法是训练一个多模态聊天模型，但是这样做需要耗费大量的数据和计算资源，同时可拓展性也不高。因此作者从Prompt工程出发，构建了Visual ChatGPT，将ChatGPT和22个视觉模型一起包在一个壳里面，组成了Visual ChatGPT。

2023-03-17 18:44:00 3622 1

原创 [2022]李宏毅深度学习与机器学习课程内容总结

没有想到自己可以完整的看完李宏毅老师的深度学习课程，并且坚持做笔记，这里给自己鼓掌。李宏毅老师讲课风格幽默有趣，让人可以全神贯注的听课。老师讲的课程内容注重基础的同时结合了很多最近几年的论文，非常有深度，让人眼前一亮。整体听完感觉自己收获了很多，所以在这里总结一下课程涉及到的知识内容。

2022-12-03 22:52:40 991 1

原创 [2022]李宏毅深度学习与机器学习第十五讲（必修）-Meta Learning

1、监督自己把50多个小时的视频看下去，所以每看一部分内容做一下笔记，我认为这是比较有意义的一件事情。2、路漫漫其修远兮，学习是不断重复和积累的过程。怕自己看完视频不及时做笔记，学习效果不好，因此想着做笔记，提高学习效果。3、因为刚刚入门深度学习，听课的过程中，理解难免有偏差，也希望各位大佬指正。工业界和学术界寻找超参数的方法并不相同。Meta Learning就是让机器去学习如何调参数。Meta learning 也是三部曲，寻找方程定义损失，优化。有一系列的训练任务所有任务的Loss相

2022-12-03 12:00:23 621

原创 [2022]李宏毅深度学习与机器学习第十三讲（必修）-神经网络压缩

1、监督自己把50多个小时的视频看下去，所以每看一部分内容做一下笔记，我认为这是比较有意义的一件事情。2、路漫漫其修远兮，学习是不断重复和积累的过程。怕自己看完视频不及时做笔记，学习效果不好，因此想着做笔记，提高学习效果。3、因为刚刚入门深度学习，听课的过程中，理解难免有偏差，也希望各位大佬指正。虽然大的模型效果不错，但是小的模型同意有应用市场。需要把模型跑在资源有限的情况下比如手表，这种情况就不适合用大的模型。如果传到云端，但是可能会有延时（自动驾驶），同时可能涉及隐私安全。所以我们需要小的模型，但是

2022-12-03 11:01:18 249

原创 [2022]李宏毅深度学习与机器学习第十二讲（必修）-Reinforcement Learning RL

进行优化找打最大的R，但是训练起来应该比较困难，因为这个network输出每次不一样、Env不是一个network是一个黑盒子同时也具有随机性、reward是一个规则也不是一个network，好像不能用普通的随机梯度下降来做。我们并不能把他看成监督学习来做，因为机器人可能遇不到特殊情况，同时有些行为可能不需要模仿，如果这样机器的能力可能是有限的。当标注很困难的时候,或者我们也不知道什么是正确答案的时候（但是知道什么是好的什么是不好的），我们可以用RL。就像是下面的游戏，我们人为的自己设计一些规则。

2022-12-01 17:21:49 549

原创 [2022]李宏毅深度学习与机器学习第十一讲（必修）-Domain Adaptation

找出Feature Extractor，source data 和target data 的分布差不多，要训练一个Domain分类器，想办法骗过Domain分类器，这个非常像是GAN。可以进行fine-tune，但是要防止Overfitting，所以不要跑太多的次数，可以设置小一点的学习率。1、监督自己把50多个小时的视频看下去，所以每看一部分内容做一下笔记，我认为这是比较有意义的一件事情。3、因为刚刚入门深度学习，听课的过程中，理解难免有偏差，也希望各位大佬指正。所以有论文进行了改进，让结果更加集中。

2022-12-01 11:59:25 391

原创 [2022]李宏毅深度学习与机器学习第十讲（必修）-Adversarial Attack

简单的说就是制造新的训练资料，这个资料都被攻击过，模型学习到了这些被攻击的资料就可以抵抗了。如果train的时候没有考虑的攻击，用没有考虑的攻击进行攻击，那么可能模型就抵抗不了了。同时需要很多计算资料。比较经典同时快速的方法是Fast Gradient Sign Method（FGSM），我们不直接用而是加一个sign，攻击完之后一定落在范围内，只更新一次，所以是Fast，这往往能必杀。但是被动防御一旦别人知道了，他们被动防御就没有用了，所以可以加上噪声，改变的方式连自己都不知道，就增加了攻击的难度。

2022-12-01 11:42:10 187

原创 [2022]李宏毅深度学习与机器学习第九讲（必修）-机器学习的可解释性

在一些领域如医疗、银行、判案里面应用深度学习的技术，如果不能给出为什么这样做仅仅只是一个答案，可能并不具有说服性，我们需要一个这么做到原因给上级或者老板交差，就像第二个图片一样，给一个理由礼让的概率就会非常大。有人会认为不可解释就不应该做，但是这并不对。explainable的意思是本来是个黑箱，我们给予他们解释，interpretable是原来就不是黑箱，我们找到一个解释。第二个方法是计算gradient，改变某一个输出，看看loss，如果loss变化大说明重要，这个技术叫做Saliency Map。

2022-11-30 19:54:02 275

原创 [2022]李宏毅深度学习与机器学习第八讲（必修）-Auto-encoder

这非常类似于Cycle GAN，这里的中间向量维度比较低，从我们的理解来说，低维向量能表示的事物比高维向量能表示的事物要少，那为什么还可以还原那？在训练的资料上加入一些噪音，非常想Bert的训练，Bert就可以看成De-noising Auto-encoder的训练。这里以图像为例子，因为，并不是所有的3*3的矩阵都是图片，所以图像的变化是有限的，正好低维就可以表示。应用在语音上面，可以做变声器，文本信息和声音特征分开，这样就可以做变声器，而且训练资料也很好找。可以学习到最基本的特征。

2022-11-30 00:07:25 228

原创 [2022]李宏毅深度学习与机器学习第七讲（必修）-Self-Supervised Learning

Bert训练的时候有两个任务，第一个是Masking Input预测遮住的词，损失函数是交叉熵，第二个任务是Next Sentence Prediction，取ClS，之后加一个线性层判断两个句子是否是前后相连。GPT的任务是预测下一个Token，这里的架构非常像Transfrom的decoder，因为预测下一个Token的时候不能看到以下个Token，这里可以用MASK技术，GPT比较有名的是写了一篇关于独角兽的新闻。一般的机器学习方法，一个词，对应的向量是一样的，所以效果并不是很好。

2022-11-29 21:58:40 344

原创 [2022]李宏毅深度学习与机器学习第六讲（必修）-GAN

将产生的东西放到一个分类，如果分布比较集中，那么效果就不错，但是这种方法不一定有用，可能会出现model collapse，可能他产生的图片一直是某几张，Diversity比较小。生成器的目标是，让生成的分布和真是分布尽可能地相近，这里就有很多不同的方法衡量，比如，Js Divergence、KL Divergence，但是要如何计算就成了一个问题，因为我们不知道两个是什么分布。因为两个模型是互动的，一旦一个出现问题，那么train 可能就停下来了，两个模型一定要棋逢对手，这是一个前瞻的技术，有待解决。

2022-11-28 20:31:17 559 1

原创 [2022]李宏毅深度学习与机器学习各种各样的Self-attention

这里用到了聚类技术，相近的输入同一个类，只对同一类进行计算，如下面第二个图，只需要计算一些地方的value。Attention 里面并不是所有值都比较大，我们如果可以估计哪些q和k组合能形成较大的值，就可以省略计算小的value，直接计算大的value，这样的就可以减少运算量。只和局部的几个做attention，这种方法在一些领域比较合适，比如语言识别，当前的可能之和前后的一些信息有关系。这个想法其实是可行的，也有人这么做了。挑选K个有代表性的，有很多种方法，比如可以做卷积，也可以乘一个N*K的向量。

2022-11-25 23:01:49 266

原创 [2022]李宏毅深度学习与机器学习第五讲（必修）-Transformer

beam search可以找到green这条路，但是green这条路不一定很好，所以Beam search有的时候有用有的时候不行。但是在需要创造的任务的时，beam search比较不行，比如自动写诗、自动补全文章等等，需要随机性。在做很多任务的时候，输出是从输入里抄的，比如聊天机器人、自动摘要，所以复制的能力是有必要的，这里可以用pointer network来实现。当然这个Encoder得模型不一定是最好的，也有人对其进行了改进，如下图中的b，就取得了不错的效果。，所以只能考虑左边的东西。

2022-11-24 11:47:30 376

原创 [2022]李宏毅深度学习与机器学习第四讲（选修）-GNN

求距离等于2的节点然后求平均之后再乘权重，这样反复执行完求距离等于K的。2、路漫漫其修远兮，学习是不断重复和积累的过程。怕自己看完视频不及时做笔记，学习效果不好，因此想着做笔记，提高学习效果。1、监督自己把50多个小时的视频看下去，所以每看一部分内容做一下笔记，我认为这是比较有意义的一件事情。3、因为刚刚入门深度学习，听课的过程中，理解难免有偏差，也希望各位大佬指正。把相邻的节点相加，然后乘W，在与自身相加乘W，这样不断地更新。readout这一步，就是求每个图的平均各乘W，之后相加。

2022-11-22 21:11:40 629 4

原创 [2022]李宏毅深度学习与机器学习第四讲（选修）-RNN

在做槽位填充时，需要对单词进行分类预测，这个任务可以用一个普通的神经网络来做，但是这样涉及到一个问题，就是当一个词输进来时只有一个结果，但是现实中同一个词在不同语境下可能扮演的角色不同。所以，如果神经网络能记住前面输入的内容，那么就有可能达到同一个词输入，因为上下文的不同而输出不同的目的。RNN就可以这么做RNN的大体架构，把中间结果传递给下一个输入，在图中颜色一眼的代表weight相同，也就是说这里贡献了权重。

2022-11-22 19:33:50 394

原创 [2022]李宏毅深度学习与机器学习第四讲（必修）-self-attention

同时self-attention经过一定设计是可以取代RNN的，同时RNN有前后依赖，没有办法并行化，但是self-attention可以很好的并行。因为self-attention是可以看到全局信息的，所以CNN可以看成简化版的self attention，self-attention比CNN的弹性更大，所以需要更多的数据来训练模型，下面也证实了。语音辨识并不需要看全局信息，同时在语言识别的任务里有很多向量，所以实际中也不可能让其看全局信息，因为矩阵和长度成平方的关系。

2022-11-22 08:57:34 266

原创 deep learning 让鱼和熊掌兼得

deep learning 让鱼和熊掌兼得

2022-11-19 17:43:59 304

原创 [2022]李宏毅深度学习与机器学习第三讲（选修和必修）听课笔记

把大的图片缩小，不会影响图像的改观，所以可以用pooling来减少计算复杂度，也可以理解为图像去掉奇数行，把偶数行拼接在一起之后，图像变化不是很大。因为不符合用pooling的条件，所以就没有用pooling，他的结构如下图，所以就可以看到没有pooling层，以后在具体应用中也要注意要不要用pooling。这一项技术不止可以用在CNN前面，其实也可以用在别的地方，甚至两个一起用，生成两个框，来进行识别。算出的结果可能是小数，如何四舍五入就不能微分，所以按照下面做，用四个值来近似。特别的但是有用的架构。

2022-11-19 17:24:55 752

原创 [2022]李宏毅深度学习与机器学习第二讲（选修）听课笔记

这一页PPT总的来说就是增加随机性，让模型更具有探索性。这一页动态的调整学习率SGD和Adam的比较，和应用的场景。

2022-11-19 00:39:59 748

原创 [2022]李宏毅深度学习与机器学习第二讲（必修）听课笔记

通俗解释一下，大的batch_size本质上是对训练数据更优的一种选择，但是同时也会限制模型的探索能力，模型训练的时候极易陷入这种很尖的极小值很难跳脱出来，但是相对小一些的batch_size就很容易能检索到一个非常好的极小值点。小的batch，是在不断探索，有很多可能性，所以更有可能走到最优解。最后，一般训练数据是一定的，所以当H小的时候可能包含的模型里面没有很好的会让后面的Loss很大，而当H大时，Train data更大概率会取到坏的数据，所以就出现了，鱼和熊掌可以兼得的问题。主要计算的是后验概率。

2022-11-17 16:47:36 217

原创 [2022]李宏毅深度学习与机器学习第一讲（选修）听课笔记

在第一步中，我们要自己决定结构需要根据经验和不断自己尝试，所以DL让问题从抽取特征变为定义结构。之前很多工作都是关注在如何抽取特征，有DL之后主要是如何构造网络结构。为什么DL在NLP上的效果并不是很好？老师给的猜想是，人对于文本提取特征能力很强，人设计的规则可能就能达到一个比较不错的效果。但是长久而言，DL在NLP里面的应用还是很广阔的。

2022-11-16 01:04:34 561 1

原创 [2022]李宏毅深度学习与机器学习第一部分必修部分笔记

回归，输出是一个数值；分类，给定选项（classes），Function给出correct one；结构学习，生成或者创造特定结构的内容；

2022-11-10 21:23:38 470

原创《An Efficient Two-Layer Mechanism for Privacy-Preserving Truth Discovery》论文精读

这里写自定义目录标题论文背景摘要笔者总结概述相关知识Truth Discovery差分隐私隐私保护机制One-Layer MechanismTwo-Layer Mechanism合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入论文背景论文

2022-03-21 23:47:09 631

weixin_45920982的博客