- 博客(162)
- 资源 (1)
- 收藏
- 关注
原创 一文速通RLHF!!
deepspeed在自己的代码注释中也有提过,可以尝试把最后一个时刻的 RTRT 替换成所有token的即时奖励的平均值(因为在Reward模型中,每一个token位置照样会有对应的奖励值输出,只是它们不像最后一个位置那样用对应的真值经过了训练,这个真值就是指人标注的对整个prompt + response的奖励真值)。,它的未来收益(VT+1VT+1 )和未来优势(AdvT+1AdvT+1 )都是0,也就是 AdvT=RT−VTAdvT=RT−VT ,这是可以直接算出来的。
2025-08-17 21:25:41
779
原创 GPT-5发布会全复盘!万字解析AI Agent时代如何颠覆你的工作与生活
2025 年 8 月 8 日凌晨,OpenAI 举办了迄今为止最重要的一场发布会——GPT-5 正式亮相。
2025-08-08 12:22:46
1109
原创 双非二本逆袭浙大+BAT实习轮转?我的笨办法就三招!
我硬着头皮,凌晨三点直接电话打给熟睡的大佬请教,虽然被吵醒他有点懵,但问题很快解决了,事后反而夸我愿意承担责任、学得快。我急了,愣是在github上找到他们部门的技术主管,直接私信轰炸:附上我的竞赛项目链接、个人代码仓库,甚至写了封长信解释我对这个方向的热情和之前的项目成果。不是没兴趣,相反我爱好挺杂,但那次失利让我清醒:想在计算机这条路上扳回一城,就得把有限的精力,狠狠砸到一个点上。通过和学长学姐交流,我了解到我们学校是有保研资格的,想要保研到好学校,要么科研能力强,要么竞赛代码能力强。
2025-07-27 16:01:53
668
原创 在大厂搞AI智能客服:我交过的百万学费
理想很丰满:先搞个Reward Model当裁判,5K人工标注数据备好,信心满满上马。现实却骨感——人类对“好中差”的判断本就充满主观争议,让模型从充满噪音的数据里学习更是难上加难。团队沉下心,人工深挖badcase,构建分类归因体系,知识缺失就去增强RAG知识库;训练,效果又好了一些。最终验证:RL虽强大,但在资源有限、数据敏感的普通业务场景中,SFT+DPO才是务实之选。更惊喜的是,当基座模型本身具备领域能力时,LoRA(rank=8)微调就已足够强悍。,比如A回复是否优于B,却异常精准。
2025-07-27 15:57:52
245
原创 PAT甲级 1131 地铁地图 邻接表建图+堆优化版dijkstra算法
PAT甲级 1131 地铁地图 邻接表建图+堆优化版dijkstra算法
2022-06-09 21:11:42
1372
1
原创 PAT甲级 1087 条条大路通罗马
原题链接从我们的城市到达罗马有许多不同的旅游路线。请你在成本最低的旅游路线之中,找到使得游客幸福感最强的路线。输入格式第一行包含两个整数 N 和 K,分别表示总城市数量,城市之间道路数量,还包含一个城市名字,表示初始城市。接下来 N−1 行,每行包含一个城市名和一个整数,表示到达该城市(初始城市除外)可以获得的幸福感。接下来 K 行,每行包含一个道路的信息,格式为 City1 City2 Cost,表示两个城市之间的道路行走的花费,道路是双向的。城市都是由三个大写字母构成的字符串
2022-05-26 23:57:53
1782
2
原创 PAT甲级 1034 团伙头目 哈希表
原题链接警察找到团伙头目的一种方法是检查人们的通话。如果 A 和 B 之间有通话,我们就说 A 和 B 是相关的。并且关联具有传递性,即如果 A 与 B 关联,B 与 C 关联,那么 A 与 C 也是关联的。关联权重定义为两人之间所有通话的总时间长度。一个“帮派”是一个由至少3个相互关联的人组成的群体,并且其总关联权重大于给定的阈值 K。在每个帮派中,总权重最大的就是头目,数据保证每个帮派中总权重最大的人是唯一的。你需要确定各个帮派以及帮派头目。输入格式第一行包含两个整数 N
2022-05-23 22:54:15
997
8
原创 PAT甲级 1030 旅行计划 dijkstra算法求最短路并输出最短路径
原题链接给定一张地图,包含 N 个城市,M 条高速公路。城市之间都能相互连通。每条高速公路的长度和走该条公路的花费都是已知的,高速公路都是双向的。现在要从地图中的某个城市前往另一个城市。请你确定最短路径,当最短路径不唯一时,请你选取花费最小的路径(保证唯一)。输入格式第一行包含四个整数 N,M,S,D,分别表示城市数量,公路数量,起点城市编号,终点城市编号。城市编号从 0 到 N−1。接下来 M 行,每行包含四个整数 a,b,c,d,表示城市 a 和城市 b 之间存在一条
2022-05-23 21:41:02
1791
8
原创 PAT甲级 1003 紧急情况 dijkstra算法求最短路
原题链接作为城市的紧急救援团队负责人,你将获得一张你所在国家的特殊地图。该地图显示了一些通过道路连接的分散城市,道路是双向的。地图上标出了每个城市的救援队数量以及每对城市之间的每条道路的长度。当其他城市发出紧急求援信息时,你的工作是尽快带领你的士兵前往该地点,同时,在途中尽可能多地调动救援帮手。输入格式第一行包含四个整数 N,表示城市数量(城市编号从 0 到 N−1),M 表示道路数量,C1 表示你当前所在的城市编号,C2 表示发出紧急求援信息的城市编号。第二行包含 N 个整数,
2022-05-23 20:52:43
1745
8
原创 PAT甲级 1071 说话方式
原题链接不同的人对描述同一种事物的同义词的偏爱程度可能不同。例如,在说警察时,有人喜欢用 the police,有人喜欢用 the cops。分析说话方式有助于确定说话者的身份,这在验证诸如和你线上聊天的是否是同一个人十分有用。现在,给定一段从某人讲话中提取的文字,你能确定他的最常用词吗?输入格式输入共一行,包含一个字符串,以回车符 \n 终止。输出格式共一行,输出最常用词以及其出现次数。如果常用词有多个,则输出字典序最小的那个单词。注意,单词在输出时,必须全部小写。
2022-05-23 00:01:01
1610
8
原创 PAT甲级 1050 字符串减法
给定两个字符串 S1 和 S2,S=S1−S2 定义为将 S1 中包含的所有在 S2 中出现过的字符删除后得到的字符串。你的任务就是计算 S1−S2。输入格式共两行,第一行包含字符串 S1,第二行包含字符串 S2。输出格式输出共一行,表示 S1−S2 的结果。数据范围两个给定字符串的长度都不超过 104。输入样例:They are students.aeiou输出样例:Thy r stdnts.我的解法:#include<bits/stdc++.h>.
2022-05-22 23:58:45
1652
8
原创 PAT甲级 1036 男孩女孩
原题链接给定 N 个学生的成绩信息,请你求出女生第一名与男生倒数第一名的分数差距。输入格式第一行输入整数 N,表示学生数量。接下来 N 行,每行包含一个学生的姓名,性别,ID和成绩。其中姓名和ID是长度不超过 10 且不包含空格的字符串。性别为 F(女)或 M(男)。成绩是一个范围在 [0,100] 的整数。保证所有学生的成绩互不相同。输出格式输出共三行。第一行输出女生第一名的姓名和ID。第二行输出男生倒数第一名的姓名和ID。第三行输出女生第一名的成绩减去男生倒数第一名的成
2022-05-22 23:55:21
1705
8
原创 PAT甲级 1035 密码
原题链接为了准备 PAT,系统不得不为用户生成随机密码。但是有时一些数字和字母之间总是难以区分,比如 1(数字一)和 l(L 的小写),0(数字零)和 O(o 的大写)。一种解决办法是将 1(数字一)替换为 @,将 0(数字零)替换为 %,将 l(L 的小写)替换为 L,将 O(o 的大写)替换为 o。现在,你的任务就是帮助系统检查这些用户的密码,并对难以区分的部分加以修改。输入格式第一行包含一个整数 N,表示用户数量。接下来 N 行,每行包含一个用户名和一个密码,都是长度不超过
2022-05-22 23:51:55
1679
9
原创 PAT甲级 1006 签到签出
原题链接每天第一个到机房的人负责开门,最后一个从机房离开的人负责锁门。现在,给定每个人的签到与签出记录,请你找出当天开门的人以及锁门的人分别是谁。输入格式第一行包含整数 M,表示共有 M 个人的签到签出记录。接下来 M 行,每行的形式如下:ID_number Sign_in_time Sign_out_time时间以 HH:MM:SS 形式给出,ID_number 是一个长度不超过 15 的字符串。输出格式共一行,输出开门人和锁门人的ID_number,用一个空格隔开。数
2022-05-22 23:47:33
1668
6
原创 PAT甲级 1005 拼写正确
原题链接给定一个非负整数 N,你的任务是计算 N 的所有数字的总和,并以英语输出总和的每个数字。输入格式共一行,包含一个整数 N。输出格式共一行,用英语输出总和的每个数字,单词之间用空格隔开。数据范围0≤N≤10100输入样例:12345输出样例:one five我的解法:#include <iostream>#include <cstring>using namespace std;int main(){ string n;
2022-05-22 23:43:54
252
6
原创 PAT甲级 1094 最大的一代
原题链接家庭关系可以用家谱树来表示,同一层上的所有结点都属于同一代人。请你找出人数最多的一代。输入格式第一行包含一个整数 N 表示树中结点总数以及一个整数 M 表示非叶子结点数。接下来 M 行,每行的格式为:ID K ID[1] ID[2] ... ID[K]ID 是一个两位数字,表示一个非叶子结点编号,K 是一个整数,表示它的子结点数,接下来的 K 个 ID[i] 也是两位数字,表示一个子结点的编号。为了简单起见,我们将根结点固定设为 01。所有结点的编号即为 01,02
2022-05-22 22:48:17
1724
6
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅