just do do do
码龄5年
关注
提问 私信
  • 博客:4,326
    4,326
    总访问量
  • 13
    原创
  • 1,773,746
    排名
  • 0
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:辽宁省
  • 加入CSDN时间: 2020-04-11
博客简介:

weixin_46982570的博客

查看详细资料
个人成就
  • 获得0次点赞
  • 内容获得10次评论
  • 获得6次收藏
创作历程
  • 11篇
    2023年
  • 2篇
    2022年
成就勋章
TA的专栏
  • 强化学习
    3篇
  • 实验的疑难杂症
    1篇
  • 计算机系统基础学习
  • NLP领域论文
    2篇
  • Huggingface-教程
  • 杂学-AI
    1篇
  • GAMES
    2篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    集成学习分类回归chatgpt
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

第七章:策略梯度方法

E(y∣x)=∫yf(y∣x)dy=∫y∗f(y,x)f(x)dyE(y|x)=\int yf(y|x)dy=\int y*\frac{f(y,x)}{f(x)}dyE(y∣x)=∫yf(y∣x)dy=∫y∗f(x)f(y,x)​dy神经网络π(a∣s;θ)\pi(a|s;\theta)π(a∣s;θ)近似π(a∣s)\pi(a|s)π(a∣s)输入是状态,输出是每个动作的概率动作价值函数的定义,前t个动作和状态已知,但t+1之后的是未知量:状态价值函数的定义:状态价值函数依赖于当前的状态和策略
原创
发布博客 2023.11.20 ·
68 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

llama_factory微调踩坑(自用)

torch>=1.13.0已经不在支持CUDA11.3以下的版本了,CUDA版本必须升级,可以查看nvidia-smi在conda虚拟环境中安装的cuda版本必须<=CUDA Version。
原创
发布博客 2023.11.20 ·
2391 阅读 ·
0 点赞 ·
2 评论 ·
6 收藏

第四章:DQN与Q学习

前一节中提到了最优动作价值函数,它是动作价值函数用最大化消除策略后的公式,意思就是无论未来采取什么样的策略,回报的期望都不可能超过Q*。
原创
发布博客 2023.11.19 ·
79 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

第三章:马尔可夫决策过程

强化学习的数学基础就是马尔可夫决策过程,一个马尔可夫通常由状态空间、动作空间、状态转移矩阵、奖励函数以及折扣因子组成。
原创
发布博客 2023.11.19 ·
103 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

关于Linux的使用(自用)

3、nohup命令默认输出重定向目录,是当前目录的nohup.out文件中;如果当前目录的 nohup.out 是只读的,则自动重定向输出到$HOME/nohup.out 文件中。2、使用nohup命令时,直接在shell中使用ctrl+c或ctrl+z时,进程会结束。-u 使得标准输出不再缓冲,和标准错误一样,unbuff的作用。1、使用nohup命令时,需要添加&到命令的尾部。
原创
发布博客 2023.11.04 ·
46 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【Prompt】Exploiting Clozeuestions for Few Shot Text Classification and Natural Language Inference

对于每一个,使用单独的PLM(预训练语言模型)在有标签数据上微调得到多个PVP模型,在这个过程中,Task Description可以让模型更了解任务,利用预训练得到的先验知识和MLM参数,更适合小样本学习。样本扩充,使用得到的PVP集成模型给无标注数据集打标签,生成对应的soft label,组成完整的有标准数据。得到最终模型,最后使用一个最终模型在完整的有标注数据上进行有监督训练。对于每个p∈Pp \in Pp∈P,微调得到相应的PVP微调模型 ,MpM_pMp​。
原创
发布博客 2023.11.04 ·
60 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【Alignment】RAIN: Your Language Models Can Align Themselves without Finetuning

大模型通常被证明和人类偏好不一致,先前的许多工作都是关注于通过人类偏好数据进行强化学习或者指令微调等对齐预训练模型。相反的,通过不需要对齐数据去对齐冻结LLMs的方法更有趣。我们发现,通过综合自我评价和rewind mechanisms(这是在干什么?),未对齐的LLMs能够通过self-boosting生成和人类偏好一致的response。
原创
发布博客 2023.11.04 ·
206 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【NLP课程】模型压缩与高效神经网络(部分,待完善)

2023.11.02。
原创
发布博客 2023.11.04 ·
64 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【Alignment】A long way to go: investigating length correlations in RLHF

本文证明了优化回答长度是RLHF提升设置中最有效的方式。我们在三个开源的偏好模型上研究了reward和reward model的长度之间的关系。奖励和长度强相关,奖励分数的提升是由输出长度的分布转换的。同时,我们尝试采取一些干扰去实验如果不增加长度RLHF是否会在下游任务上有提示,结果发现可以抑制长度的增长,但是并不一定有效。我们发现,相较于最初的监督微调模型,仅基于长度的RLHF模型能够重现大部分下游任务的提升。
原创
发布博客 2023.10.10 ·
336 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【压缩prompt】Unlocking Constraints of LLMs:Enhancing Context Efficiency of LLMs with Self-Information

LLMs如今在很多任务上表现良好,但是因为context length的限制,它在处理长文档和多轮对话方面并不容易(extended conversations),这篇文章提出了叫selective context的方法使用self-informantion去过滤少信息文本,提高context length的利用率。
原创
发布博客 2023.10.09 ·
219 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Zero-shot learning介绍

zero-shot learning
原创
发布博客 2023.03.03 ·
198 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

GAMES第二部分

Rasterization(光栅化)Last Lectureviewing transformation1.view/camera transformation2.projection transformation(投影)3.orthographic projection(正交)4.perspective projection(透射)Polygons Meshes三角形怎样把三角形变成像素?判断像素点与三角形的位置采样:离散化函数//1Dfor(int x=0;x<
原创
发布博客 2022.05.01 ·
218 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

GAMES101第一部分

学习目标:`计算机图形学的学习开始了!!!! 第一部分:games101视频 第二部分:作业解析知识点:上节课回顾Rθ=(cosθ−sinθsinθcosθ)R_{\theta }=\begin{pmatrix}cos\theta & -sin\theta\\sin\theta & cos\theta\end{pmatrix}Rθ​=(cosθsinθ​−sinθcosθ​)R−θ=RθTR_{-\theta}=R^T_{\theta}R−θ​=RθT​正交矩
原创
发布博客 2022.04.30 ·
337 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏