个人学习
文章平均质量分 59
S L N
这个作者很懒,什么都没留下…
展开
-
集成(Ensembling)学习 Bagging Boosting Stacking
Boosting是按顺序训练模型,每个模型对其前序做出改正,GradientBoosting是让新的模型针对前一个模型进行拟合,AdaBoost是让新的模型关注前一个模型中欠拟合的训练实例,增加分类错误的训练实例的权重。Bagging,训练n个模型,每个模型独立并行训练,回归问题将每个模型的输出做平均得到结果,分类问题对每个模型输出的类别做统计,选出投票最多的类别作为结果。,再输入最终的模型得到最终的输出,可以多层。的输出看成是特征送入下一层的。...原创 2022-07-18 14:48:48 · 434 阅读 · 0 评论 -
【GAN】Generative Adversarial Nets
GAN是生成式模型,包括两个部分,生成器Generator和鉴别器Discriminator,G用来获取整个数据的分布,D用来判断样本是真实数据还是G生成的数据,G和D可以是任意的网络架构,最简单的是使用MLP。鉴别器的输出是一个标量,1代表D认为输入数据是真实样本,0代表D认为输入数据是G的生成样本。目标函数是式(1.1),G最小化式(1.2),让D尽量认为G生成的样本是真实样本,D最大化式(1.3),尽量分清真实样本和生成器生成的样本。......原创 2022-07-18 14:49:32 · 151 阅读 · 0 评论 -
【人工智能 一种现代方法】逻辑推理-复习
(1)基于知识的Agent可以形成复杂世界的表示,使用推理过程导出关于世界的新表示,并使用这些新表示来推断要做什么。基于知识的Agent(KBA)的核心部件是知识库。知识库是一个语句集合。语句用知识表示语言表达,表示关于世界的断言。直接给定的语句是公理,推导得到的语句是定理。(2)逻辑是一种表示信息的形式语言,可以得出结论。句法定义句子的形式。命题是有确切真值的陈述句;不能被分解成更简单的命题称作原子命题;由简单命题通过连接词连接而成的命题,称作复合命题。联结词是两个命题真值之间的联结,而不是命题内容之间的原创 2022-06-23 23:19:58 · 1861 阅读 · 0 评论 -
【人工智能 一种现代方法】搜索-复习
(1)理性AgentAgent:通过传感器感知环境,通过动作执行器执行动作反馈到环境。Agent感知序列是agent所收到的所有输入数据的完整历史。Agent的行动选择取决于到目前时刻为止agent的整个感知序列。Agent函数通过agent程序实现,agent函数是将感知序列映射到agent的行动。理性依赖于:定义成功标准的性能度量;Agent对环境的先验知识;Agent可以完成的行动;Agent截止到此时的感知序列。理性:产生好的行为,做正确的事。理性Agent根据目前为止的感知和Agent具有的对环境原创 2022-06-23 23:00:08 · 1988 阅读 · 0 评论 -
【信号】傅里叶变换
在信号空间找到若干个相互正交的信号作为基本信号,使得信号空间中任意信号均可表示成它们的线性组合,正交变换可以保证信号在变换前后的能量是相等的。 信号正交:在(t1,t2)区间的两个函数j1(t)和j2(t),若满足两函数内积为0,则称j1(t)和j2(t)在区间(t1,t2)内正交。 两组典型的在区间(t0,t0+T)(T=2π/Ω)上的完备正交函数集。 (1)三角函数集{1,cos(nΩt),sin(nΩt),n=1,2,…} (2)虚指数函数集{e原创 2022-06-23 20:56:13 · 4541 阅读 · 0 评论 -
【信号】卷积
卷积:一个信号输入到线性系统f1(t),系统的响应函数为f2(t),输出为f(t),f(t)不仅与当前t时刻的输入信号f1(t)的响应f2(0)有关,也与t时刻之前的输入的信号与其当前对应的响应有关。假设t时刻前的某时刻为τ,在当前t时刻,已经过了t-τ这段时间,所以f(τ)所对应的响应函数为f(t-τ)。卷积公式: 离散卷积:已知定义在区间(–∞,∞)上的两个函数f1(k)和f2(k),则定义 互相关函数:为比较某信号与另一延时τ的信号之间的相似度,需要引入相关函数的概念。实原创 2022-06-23 20:47:49 · 775 阅读 · 0 评论 -
【损失函数基础】自信息、熵、互信息
自信息自信息I(ai)是描述随机事件出现的不确定性大小,随机事件发生的概率越大,出现的不确定性越小,所蕴含的信息越少,不确定性的消除等于获得的信息所以函数I(ai) = f [P(ai)]应满足以下条件:1.I(ai)应是概率P(ai)的单调递减函数,即:当P(a1)> P(a2)时有I(a1) < I(a2);2.当P(ai)=1时I(ai)=0;3.当P(ai)=0时I(ai)→∞;4.若两个统计独立的随机事件,即:P(ai aj)=P(ai)P(aj),则I(ai原创 2022-05-13 20:17:33 · 1666 阅读 · 0 评论 -
【CLIP】Learning Transferable Visual Models From Natural Language Supervision
这篇论文是利用自然语言作为监督信号学习可迁移的视觉模型,学习到泛化性能好的特征,可以做zero-shot迁移,在各种数据集上或者各种任务直接推理能获得较好的效果。在pre-train部分,通过对比学习,判断图像和文本是不是一个配对,而不是让图像预测文本,因为对比学习训练很高效。图像和文本分别通过各自的encoder得到图像特征和文本特征,图像的encoder可以采用resnet或者VIT,文本的encoder可以采用transformer,计算n个图像特征和n个文本特征之...原创 2022-05-10 00:46:25 · 703 阅读 · 0 评论 -
【对比学习】Momentum Contrast for Unsupervised Visual Representation Learning
本篇论文是一篇采用对比学习的无监督视觉表征学习。对比学习是将数据中的某一个数据及其增广数据作为正样本,剩余数据作为负样本,通过缩小正样本之间的距离,扩大正负样本之间的距离来学习数据特征,为下游任务提供了良好的特征。正负样本的选择方法叫做pretext task,为自监督学习提供监督信号,进行自监督训练。文中的pretext task是采用的instance discrimination task,是把数据本身作为基准,数据的一个增广作为正样本,剩余数据作为负样本。...原创 2022-05-10 00:43:11 · 546 阅读 · 0 评论 -
RCNN、FastRCNN、FasterRCNN、MaskRCNN目标检测
R-CNN训练阶段:CNN训练是在imagenet上预训练好的,迁移进行fine-tuning训练,将最后一层替换为N类+1背景类输出,fine-tuning时正负样本选择:将与ground-truth的IoU≥0.5的proposal作为正样本,不分类别,剩下作为负样本,每个batch中正负样本比例是1:3。N个SVM训练时正负样本选择:正样本是ground-truth,负样本是IoU<0.3的proposal,忽略>0.3的proposal,采用hard ne...原创 2022-05-10 00:35:05 · 2068 阅读 · 0 评论 -
【论文阅读】Universal Style Transfer via Feature Transforms
关于图像白化和色彩变换的基本内容可以参考:图像标准化、图像白化、色彩变换_S L N的博客-CSDN博客 这是一篇关于图像风格迁移的论文,主要提出了whitening and coloring transforms(WCTs)来进行风格的迁移。首先采用VGG网络对图像重建来训练网络,将训练好的VGG的encoder和decoder都fixed,用于图像特征提取和重建,损失函数如式(2.1)所示,Φ是通过encoder提取feature map。...原创 2022-04-16 00:55:37 · 470 阅读 · 0 评论 -
图像标准化、图像白化、色彩变换
图像标准化(Normalization) 、图像白化(Whitening)[2]、色彩变换(Coloring)[3]原创 2022-04-16 00:46:36 · 4432 阅读 · 0 评论 -
【知识蒸馏简介】
知识蒸馏与领域泛化都可以用在迁移学习上,领域泛化主要是对不同领域数据的特征映射到同一空间,知识蒸馏是将一个训练好的大的模型压缩成小的模型。已经训练好的大的模型叫做教师网络,知识蒸馏是将教师网络压缩成学生网络。将教师网络的输出按式(1.4)进行计算,输出的soft label作为学生网络的label,学生网络的输出也按式(1.4)进行输出为soft prediction。学生网络的loss是蒸馏损失和学生损失的加权和,蒸馏损失是学生网络的输出soft predictio...原创 2022-04-15 23:49:52 · 279 阅读 · 0 评论 -
【视频分类论文阅读】Two-Stream Convolutional Networks for Action Recognition in Videos
论文是视频分类的开山之作,采用了一个双流网络,是空间流和事件流共同组成的,网络的具体实现都是CNN,空间流的输入是静止的图片,来获取物体形状大小等appearance信息,时间流的输入是多个从两帧之间提取的光流图片叠加在一起,来获得视频中物体的运动信息,最后将结果进行融合。......原创 2022-04-15 23:47:08 · 2778 阅读 · 0 评论 -
CNN架构简述
LeNet是一篇发表于1998年的论文,在数字识别领域的应用取得了成功,使用stride为1,大小为5的filter。 图 1 LeNet架构 AlexNet是2012年发表的,与LeNet的区别在于总层数增加,卷积层达到了五层,一共有八层。 图 2 AlexNet架构 VGGNet是2014年发表的,是一个非常深的网络,用很小的filter,只用3*3的filter,16到19层,使用小的filter,参数量变小,可以应用更深的网络和更多的filter,三层3*3的filte原创 2022-03-25 23:17:03 · 532 阅读 · 0 评论 -
Attention系列论文简述
Attention Is All You Need Transformer是依赖于attention的encoder-decoder架构,每个block是由attention,residual,MLP,layernorm构成的,并行度高,在之后的拓展中,使用频率比较高的是encoder部分。 Encoder的输入是token,token embedding再加上handcraft的positional encoding来获得seq中token的位置信息,encoder对一整个序列中原创 2022-03-24 01:53:36 · 2064 阅读 · 2 评论