chnyi6_ya-CSDN博客

原创强化学习PPO算法学习记录

本文介绍了强化学习中的四个关键模型：Policy Model、Reference Model、Reward Model和Value Model，分别用于策略优化、防止模型偏离目标、计算即时奖励和预测总收益。接着，文章讨论了如何通过KL散度和Reward Model的输出计算即时奖励r，并利用GAE方法整合奖励与价值以计算优势函数A，从而优化策略。此外，文章还介绍了PPO算法中的两种重要性权重约束方式：Clip机制和KL散度惩罚，以及如何通过这些方法优化Actor和Critic模型的损失函数。最后，文章对比了

2025-05-09 17:55:01 435

原创 2025/02/25阅读论文笔记：两篇和Spurious Correlations任务的论文

现存的减轻虚假练习的方法大都局限在（1）在image-level上（2）在unimodal setting下。尽管多模态大模型（MLLM）在很多vision-language人物上表现很好，但是对于 Spurious Correlations/Spurious Biases 的辨别能力的研究探索比较少。RAVL 通过一个新的区域感知损失函数（region-aware loss function）来缓解识别出的虚假相关性，使 VLM 在微调过程中专注于相关区域，忽略虚假关系。

2025-02-25 15:55:28 1054 1

原创 2025/02/22阅读论文笔记：2篇多模态大模型（MLLM）在image classification任务上的相关论文

在Llava1.5-7b 进行微调，微调数据是Imagenet-1.28M 和原始665K LLAVA 的instruction-tuning数据，能够显著提高Llava1.5-7b在ImageNet上的分类能力，以及在ImageWikiQA的表现。作者发现：prompt的变化、减少context中的 label set size、让VLM执行概率推断（probabilistic inference），都不是VLM在image classification上和CLIP的gap很大的原因。

2025-02-22 21:29:16 870 1

原创论文笔记：Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

大型语言模型（LLMs）如GPT-4、PaLM和LLaMA在各种推理任务中展现出了令人印象深刻的性能。除了通过扩大模型规模来提高推理性能外，还有更有效的方法可以进一步增强LLMs的功能和性能。然而，现有的（single-query reasoning）和（multi-query reasoning）方法都面临一些局限性，如缺乏普遍性和泛化能力、计算密集型、以及忽视从先前任务中提取一般性和高层次的指导思想或思维。为了解决这些限制，论文提出了一种新的方法。

2024-12-21 16:51:11 1150 1

原创论文笔记：African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object

尽管大型视觉-语言模型（LVLMs）在图像理解和推理任务上（例如，物体的存在和计数、定位、物体之间的比较，以及识别物体的属性）表现出色，但在细粒度物体分类（例如区分不同动物种类）方面（）的能力尚未得到充分测试，尽管这对于下游任务非常重要。并且现有的评估基准主要测试LVLMs的图像理解和推理能力，而很少考虑细粒度物体分类这一独立技能。

2024-12-20 15:58:20 636 1

原创论文笔记：GREATS: Online Selection of High-Quality Data for LLM Training in Every Iteration

在线批次选择(Online batch selection)方法通过在训练期间动态选择数据批次，为提供了一种自适应替代方案。然而，现有方法要么依赖于参考模型（reference model），要么依赖于一些可能无法捕获真实数据信息的简单启发式方法。静态数据选择（static data selection）：在训练过程之前仅进行一次数据训练的选择。这种方法主要是出于效率考虑，因为花在数据选择上的时间可以分摊到大量的训练步骤中。

2024-12-18 20:51:49 878 1

原创论文笔记：Asymptotic Midpoint Mixup for Margin Balancing and Moderate Broadening

在特征空间中，特征之间的collapse会导致representation learning 中的关键问题，这是因为特征之间不可区分。基于线性插值的增强方法（例如mixup）已经显示出它们在缓解类间塌陷（称为inter-class collapse）方面的有效性，可以提高了模型在长尾数据集和对比自监督学习上（contrastive self-supervised learning）的性能。但是从粗粒度到细粒度会导致的类内塌陷（ intra-class collapse）还没有得到充分讨论。

2024-12-04 16:50:16 1117 1

原创论文笔记：RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition

这篇论文面临的主要挑战是如何提高模型在细粒度识别任务中的性能。CLIP（Contrastive Language–Image Pre-training）模型虽然在广泛的候选识别上表现出色，但在区分细微差别的细粒度项目上精度不足。而多模态大型语言模型（MLLMs）虽然在分类细粒度类别上表现出色，但随着类别数量的增加，其性能会下降，主要是由于处理大量词汇和细微差别时受到有限上下文窗口大小的限制。

2024-11-25 21:47:42 1055 1

原创论文笔记：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

这篇论文探讨了大型预训练语言模型在处理知识密集型自然语言处理（NLP）任务时面临的挑战。尽管这些模型在参数中存储了大量事实知识，并在微调后能够在下游NLP任务中取得很好的效果，但它们在访问和精确操作知识方面的能力仍然有限。此外，为模型的决策提供出处（provenance）和更新它们的世界知识仍然是开放的研究问题。

2024-11-24 20:26:04 970 1

原创 git解决推送时出现 this exceeds GitHub‘s file size limit of 100.00 MB

尝试了很多方法，即使从本地删掉也没有用，问gpt说是因为虽然从本地删掉，但是已经提交到Git的历史记录了。是要从历史记录中删掉的文件。就能成功传到远程仓库了。

2024-10-20 14:46:39 513

原创论文笔记：Online Class-Incremental Continual Learning with Adversarial Shapley Value

这篇工作的focus 是 memory-based approach。

2024-10-04 20:04:05 666 1

原创论文笔记：Anytime Continual Learning for Open Vocabulary Classification

在开放词汇表图像分类中，随着时间的推移，模型需要不断学习新的标签，同时保留对旧标签的记忆。

2024-10-01 16:34:08 831 1

原创论文笔记--Orchestrate Latent Expertise: Advancing Online Continual Learning with Multi-Level Supervision

在线持续学习（Online Continual Learning, OCL）中的在OCL中，模型需要在一次数据流中学习，并且每个任务的样本只能遇到一次，这使得模型容易对当前任务学习不足（欠拟合），同时对旧任务的缓冲区数据过度学习（过拟合）。

2024-09-29 18:08:41 478 1

原创论文笔记：iCaRL: Incremental Classifier and Representation Learning

所有类别都受到同等对待，即，当到目前为止已观察到 t 个类别且 K 是可存储的样本总数时，iCaRL 将为每个类别使用 m = K/t 样本（向上舍入）。选择过程的关键在于：每次加入的新样本应该让整个示例集的特征向量均值最接近该类别训练集中所有样本的特征向量均值。这意味着，示例集不仅仅是一个随机选择的集合，而是一个优先级列表。在为新类别选择示例时，iCaRL 按照迭代方式逐个选择示例，直到达到目标数量 m。这个方法的优点：每当特征表示发生变化时，类原型就会自动改变，从而使分类器对特征表示的变化具有鲁棒性。

2024-09-26 17:17:33 1100 1

原创论文笔记：Gradient Episodic Memory for Continual Learning

关键是，模型不仅需要识别当前任务的数据（如正在学习中的任务），还要记住以前学过的任务，甚至能够处理未来可能遇到的新任务。“局部iid”是指在某个特定的任务中（比如在任务 t 中），数据是独立同分布（iid）的，也就是说，在某个任务的学习阶段内，数据可以随机地、不相关地抽取出来。虽然在每个任务中，数据是随机独立的（iid），但在不同任务之间，数据不是随机的。例如，模型可能会先连续看到许多水果图片，然后才切换到动物识别任务，这使得任务间数据的顺序不是随机的。x：特征向量，比如一张图片。

2024-09-23 21:21:05 1440 1

原创 CS61C 2020计算机组成原理Lab03

A: after “la t3, n” , t3这个地方变成了 268435464。gpt4的回答（更详细，举了例子，和我的答案是一样）完成factorial.s, 实现求阶乘的功能。Answer: s1 和 s2。Answer：使用偏移。

2024-09-20 00:00:00 969

原创 CS61C 2020计算机组成原理Lecture 04

如果你从一个函数返回一个指向其局部变量的指针，那么当函数执行结束后，该指针将指向一个已经不再有效的内存区域。尝试访问通过这样的指针引用的数据是非常危险的，因为它可能导致未定义的行为，比如访问或修改其他变量的值，或者导致程序崩溃。在C语言中，从函数返回指向本地变量的指针是不安全的，原因在于局部变量（本地变量）的生命周期。//但在计算机内部一般都是小端序，与人类的阅读习惯相反，但更符合计算机读取内存的方式，因为CPU读取内存中的数据时，是从低地址向高地址方向进行读取的。寄存器是没有小端序大端序的概念的。

2024-09-20 00:00:00 997

原创 CS61C 2020计算机组成原理Lecture03

指的是内存地址能够被4整除的情况。当数据存储在以4为间隔的地址上时，就说它位于4字节边界上。如果我们有一个内存地址序列，从0开始计数，则地址0, 4, 8, 12等都是4字节边界的地址。这意味着一个32位（或4字节）的数据块可以从这些地址开始存储，而不会跨越不同的4字节边界。对齐的边界：一个2字节对齐的边界意味着数据应该存储在内存地址是2的整数倍的位置上。例如，内存地址0, 2, 4, 6, 8等都是2字节边界的地址。与4字节边界类似，半字边界的对齐通常是为了优化内存访问的性能。

2024-09-19 00:00:00 707

原创笔记：BLIP源码之（2）模型是如何定义的

BertEncoder 调用了 BertLayer， BertLayer调用了 BertAttention、BertIntermediate、BertOutput，其中BertAttention 又调用了 BertSelfAttention、BertOutput再回到BertModelBertPooler# 只对第一个token做pooling。

2024-09-18 01:00:00 1389 1

原创 CS61C 2020计算机组成原理Lab02

Makefile是一个特殊的文件，用于控制构建（编译和链接）过程根据下面Makefile文件的内容，回答7个问题，先弄明白这个文件的意思变量定义:条件赋值::这两段代码是Makefile中的规则，用于指定如何构建特定的程序，第一个规则是这些规则的目的是告诉Make如何从对象文件创建可执行程序。当执行****命令时，Make会查找这些规则，根据依赖关系先编译必要的源文件生成对象文件，然后再链接这些对象文件生成最终的可执行文件。这四行是Makefile中的依赖性声明，它们指定了源代码文件（**文件）对

2024-09-18 00:00:00 781

原创安卓开发：和数据操作相关的database，dao，repository代码

使用 Room Persistence Library 创建的数据库抽象表示。AppDatabase 继承自 RoomDatabase，用于管理数据库的创建和版本管理，以及提供数据访问对象（DAO）的访问点。

2024-09-17 00:30:00 1263

原创 CS61C 2020计算机组成原理Lecture02

联合体与结构体之间的区别是：结构体的各个成员会占用不同的内存，相互之间无影响。而联合体的所有成员公用一段内存，修改一个成员会影响其余所有成员。结构体占用的内存大于等于所有成员占用的内存的总和（成员之间可能会存在缝隙），联合体占用的内存等于最长的成员占用的内存。联合体使用了内存覆盖技术，同一时刻只能保存一个成员的值，如果对新的成员赋值，就会把原来成员的值覆盖掉。ps：C 程序是在CPU上加载并且执行的，所以速度很快。打印argv[3],结果是 null 或者 zero。特别注意，c中要自己手动管理内存。

2024-09-17 00:15:00 689

原创程序的入口main activity代码和一些定义类的代码

Firebase Authentication：使用 FirebaseAuth 来处理用户认证。Google Sign-In：设置 Google Sign-In 客户端和处理登录结果的逻辑。Navigation：使用 NavHostController 和 AppNavigation Composable 来管理应用的导航。Jetpack Compose：使用 Jetpack Compose 构建 UI，包括主题、导航和底部导航栏。

2024-09-16 00:15:00 1419

原创 CS61C 2020计算机组成原理Lab01-数字表示，溢出

lab推荐的是 Valgrind这个工具，是一个模拟你的GPU并且跟踪内存访问的程序。或者使用 display（我用display才能在打印台上看到）argc=1表示只有一个变量，这个变量就是这个程序名称本身。你应该观察到了一个段错误（segfault），命令继续执行函数之后的代码，或者使用 finish。当你完成函数内部的调试后，你可以使用 step。）选项，它告诉LLDB进入函数内部进行调试。命令退出函数调用并返回到调用函数的上下文。启动你的程序，可以使用。在macos上，可以使用。

2024-09-16 00:15:00 1050

原创 CS61C 2020计算机组成原理Lecture01-数字表示，溢出

原码就是符号化的数值，其编码规则简单直观：正数符号位用0表示，负数符号位用1表示，数值位保持不变。但原码存在两个机器0，这会给数据运算带来麻烦。另外原码的加减法运算复杂，符号位不能直接参与运算。加法运算需要“同号求和，异号求差”，减法运算需要“一号求和，同好求差”，求差时还需要先比较大小，然后用大数减去小数，最后结果的符号选择也相对复杂。显然，利用原码作为机器数在实现加减法运算方面是不方便的，。

2024-09-16 00:00:00 1112

原创 git 命令---想要更改远程仓库

在 Git 中，origin 是默认的远程仓库名称。这个命令会列出所有配置的远程仓库及其名称，其中 origin 通常是克隆时自动设置的默认远程仓库名称。将<new-url>替换为你想设置的新远程仓库 URL。

2024-09-15 13:49:58 666

原创 BookRecord的登录和注册页面以及相关的viewmodel

ps：这个app既提供普通的登录注册，也提供使用谷歌邮箱进行登录和注册。可以按照自己的需要进行删改。

2024-09-15 00:15:00 1857

原创深度学习的笔记

【代码】从huggingface上仅下载pytorch模型权重和配置文件到服务器。

2024-09-14 14:47:51 874

原创加入图书页面以及和图书相关的viewmodel代码，以及和阅读记录相关的viewmodel

Column：使用Column构建了屏幕的主体布局，并设置了内边距。Row：在Column中，使用Row布局创建了一个包含返回图标和搜索框的水平布局。

2024-09-14 13:48:12 1044

原创一些写leetcode的笔记

lower_bound( begin,end,num)：从数组的begin位置到end-1位置二分查找第一个大于或等于num的数字，找到返回该数字的地址，不存在则返回.end()。upper_bound( begin,end,num)：从数组的begin位置到end-1位置二分查找第一个大于num的数字，找到返回该数字的地址，不存在则返回.end()。x除以2 可以通过x>> 1（x右移一位得到），x除以2的余数可以通过 x& 1得到。令 y=x & (x−1)，则 y 为将x的最末位的1改成0的数字。

2024-09-14 13:46:46 1025

空空如也

空空如也