just do do do-CSDN博客

原创第七章：策略梯度方法

E(y∣x)=∫yf(y∣x)dy=∫y∗f(y,x)f(x)dyE(y|x)=\int yf(y|x)dy=\int y*\frac{f(y,x)}{f(x)}dyE(y∣x)=∫yf(y∣x)dy=∫y∗f(x)f(y,x)dy神经网络π(a∣s;θ)\pi(a|s;\theta)π(a∣s;θ)近似π(a∣s)\pi(a|s)π(a∣s)输入是状态，输出是每个动作的概率动作价值函数的定义，前t个动作和状态已知，但t+1之后的是未知量：状态价值函数的定义：状态价值函数依赖于当前的状态和策略

2023-11-20 14:34:26 54 1

原创 llama_factory微调踩坑(自用)

torch>=1.13.0已经不在支持CUDA11.3以下的版本了，CUDA版本必须升级，可以查看nvidia-smi在conda虚拟环境中安装的cuda版本必须<=CUDA Version。

2023-11-20 13:42:17 2105 2

原创第四章：DQN与Q学习

前一节中提到了最优动作价值函数，它是动作价值函数用最大化消除策略后的公式，意思就是无论未来采取什么样的策略，回报的期望都不可能超过Q*。

2023-11-19 16:34:10 66

原创第三章：马尔可夫决策过程

强化学习的数学基础就是马尔可夫决策过程，一个马尔可夫通常由状态空间、动作空间、状态转移矩阵、奖励函数以及折扣因子组成。

2023-11-19 14:47:12 77

原创关于Linux的使用（自用）

3、nohup命令默认输出重定向目录，是当前目录的nohup.out文件中；如果当前目录的 nohup.out 是只读的，则自动重定向输出到$HOME/nohup.out 文件中。2、使用nohup命令时，直接在shell中使用ctrl+c或ctrl+z时，进程会结束。-u 使得标准输出不再缓冲，和标准错误一样，unbuff的作用。1、使用nohup命令时，需要添加&到命令的尾部。

2023-11-04 14:40:50 39 1

原创【Prompt】Exploiting Clozeuestions for Few Shot Text Classification and Natural Language Inference

对于每一个，使用单独的PLM(预训练语言模型)在有标签数据上微调得到多个PVP模型,在这个过程中，Task Description可以让模型更了解任务，利用预训练得到的先验知识和MLM参数，更适合小样本学习。样本扩充，使用得到的PVP集成模型给无标注数据集打标签，生成对应的soft label，组成完整的有标准数据。得到最终模型，最后使用一个最终模型在完整的有标注数据上进行有监督训练。对于每个p∈Pp \in Pp∈P,微调得到相应的PVP微调模型，MpM_pMp。

2023-11-04 14:40:02 50 1

原创【Alignment】RAIN: Your Language Models Can Align Themselves without Finetuning

大模型通常被证明和人类偏好不一致，先前的许多工作都是关注于通过人类偏好数据进行强化学习或者指令微调等对齐预训练模型。相反的，通过不需要对齐数据去对齐冻结LLMs的方法更有趣。我们发现，通过综合自我评价和rewind mechanisms(这是在干什么？)，未对齐的LLMs能够通过self-boosting生成和人类偏好一致的response。

2023-11-04 14:35:46 167 1

原创【NLP课程】模型压缩与高效神经网络(部分，待完善)

2023.11.02。

2023-11-04 09:22:38 48 1

原创【Alignment】A long way to go: investigating length correlations in RLHF

本文证明了优化回答长度是RLHF提升设置中最有效的方式。我们在三个开源的偏好模型上研究了reward和reward model的长度之间的关系。奖励和长度强相关，奖励分数的提升是由输出长度的分布转换的。同时，我们尝试采取一些干扰去实验如果不增加长度RLHF是否会在下游任务上有提示，结果发现可以抑制长度的增长，但是并不一定有效。我们发现，相较于最初的监督微调模型，仅基于长度的RLHF模型能够重现大部分下游任务的提升。

2023-10-10 15:02:38 315 1

原创【压缩prompt】Unlocking Constraints of LLMs：Enhancing Context Efficiency of LLMs with Self-Information

LLMs如今在很多任务上表现良好，但是因为context length的限制，它在处理长文档和多轮对话方面并不容易(extended conversations)，这篇文章提出了叫selective context的方法使用self-informantion去过滤少信息文本，提高context length的利用率。

2023-10-09 11:11:02 176 1

原创 Zero-shot learning介绍

zero-shot learning

2023-03-03 11:39:54 180 1

原创 GAMES第二部分

Rasterization（光栅化）Last Lectureviewing transformation1.view/camera transformation2.projection transformation（投影）3.orthographic projection(正交)4.perspective projection(透射)Polygons Meshes三角形怎样把三角形变成像素？判断像素点与三角形的位置采样：离散化函数//1Dfor(int x=0;x&lt

2022-05-01 18:59:21 203

原创 GAMES101第一部分

学习目标：`计算机图形学的学习开始了！！！！第一部分：games101视频第二部分：作业解析知识点：上节课回顾Rθ=(cosθ−sinθsinθcosθ)R_{\theta }=\begin{pmatrix}cos\theta & -sin\theta\\sin\theta & cos\theta\end{pmatrix}Rθ=(cosθsinθ−sinθcosθ)R−θ=RθTR_{-\theta}=R^T_{\theta}R−θ=RθT正交矩

2022-04-30 22:52:33 324

weixin_46982570的博客