自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 在无头 Linux 环境下配置 OpenClaw 浏览器的排障记录

在 Linux 终端下,直接使用包管理器安装的 Chromium 可能会受到系统沙盒机制(如 snap 的 AppArmor)的限制,导致 OpenClaw 无法调用。该模式属于“扩展中继模式”,需要人工在图形化界面的浏览器中点击插件才能建立连接。在无界面的 Linux 环境中,必须将其切换为 OpenClaw 自动托管的独立配置文件。安装完成后,需要告诉 OpenClaw 浏览器的确切位置,并开启无头(Headless)和无沙盒(No-sandbox)模式,以适应无桌面且可能有权限限制的运行环境。

2026-03-05 00:45:08 554

原创 作为图床的帖子

2026-02-01 13:42:06 33

原创 uv 不小心把 activate 文件删除了怎么办

如果不加这个参数:uv 默认认为你要创建一个全新的环境,为了防止冲突,它会要求你确认“替换(Replace)”,如果你选 Yes,它会把整个文件夹清空(包也就没了);如果你选 No,它就什么都不做(就是你刚才遇到的情况)。–allow-existing:告诉 uv 允许在已存在的 .venv 文件夹上操作。它会重新生成 bin/activate 等启动脚本,但不会删除你 lib/ 目录下已经安装好的 Python 包。注意不要直接运行uv venv并点击yes。

2025-12-11 09:29:58 250

原创 CS 285: Lecture 2, Imitation Learning 讲稿笔记

课程首先将之前的直觉(“小错误会导致进入陌生状态,从而引发大错误”)转化为数学符号。pdataotpdata​ot​训练数据分布。这是专家(人类)演示时的观测分布。pπθotpπθ​​ot​策略分布。这是我们训练出来的策略πθ\pi_\thetaπθ​在实际运行时遇到的观测分布。这是BC失效的核心原因。由于策略πθ\pi_\thetaπθ​不可能完美模仿专家,实际运行时的分布pπθpπθ​​会与训练分布pda。

2025-11-27 10:29:02 693

原创 模仿学习中的误差累积分析

线性误差 (ϵT\epsilon TϵT:如果你每次只是随机犯错,但能立即纠正回来(I.I.D. 假设),那么总错误数就是ϵ×Tϵ×T。平方误差 (ϵT2ϵT2:但在模仿学习中,没有纠正机制。一旦你在第ttt步犯错,你就进入了一个训练集中没见过的状态(State Drift)。在这些没见过的状态下,你更可能继续犯错。这种错误会像滚雪球一样累积。时间TTT越长,你偏离正轨的可能性就越大(ϵt\epsilon tϵt),而一旦偏离,剩下的每一步都可能也是错的。

2025-11-20 21:08:31 800

原创 【RL笔记】为什么行为克隆会失败?从分布偏移公式看误差累积

首先,我们需要定义误差的边界。假设我们训练好的策略网络πθ\pi_\thetaπθ​在单步决策上的表现还不错,它的单步误差率被限制在ϵ\epsilonϵπθa≠π⋆s∣s≤ϵπθ​aπ⋆s∣s≤ϵ这意味着在任意时刻,智能体模仿专家动作出错的概率不超过ϵ\epsilonϵ(例如 1%),而做对的概率至少是1−ϵ1-\epsilon1−ϵ(例如 99%)。注意:幻灯片中划掉了一行for all s,修正为。

2025-11-20 19:54:13 723

原创 行为克隆 (Behavioral Cloning) 为什么经常会失败的核心原因

是的,这是训练目标。max⁡θEot∼pdataotlog⁡πθat∣otθmax​Eot​∼pdata​ot​​logπθ​at​∣ot​)]为什么是这个?这是标准的最大似然估计 (Maximum Likelihood Estimation, MLE),也就是我们在监督学习 (Supervised Learning)中常用的目标。我们希望调整策略网络的参数θ\thetaθ,使得当输入是专家的观测oto。

2025-11-20 16:20:51 1066

原创 [RL笔记] 模仿学习基础:读懂 $\pi$ 与 $p$ 的纠葛

π\piπ(策略)决定了我们在每个时刻的选择。ppp(状态分布)决定了我们在长的时间尺度上会遇到哪些局面。耦合性:策略π\piπ的不同会导致状态分布ppp的不同,这是强化学习区别于传统监督学习的最大特征。下次看到EpπEpπ​​时,请记得:这代表了“在这个策略引导下,世界呈现给你的样子”。

2025-11-20 15:17:46 687

原创 打造通用的数学模型评测流水线:基于 Qwen2.5-Math 框架

最近师兄让评测下 Qwen3-8B 在 AIME 2024 上的性能,我感觉直接让大模型写代码可能会有问题,于是想找一些现成的框架,于是乎找到了 https://github.com/QwenLM/Qwen2.5-Math。虽然这个评测仓库是 Qwen2.5-Math 官方提供的,但其核心代码(适配自)实际上非常通用。它内置了 Mistral、DeepSeek-Math、InternLM 等多种模版,非常适合作为一个通用的数学能力测试基座。这篇笔记记录了如何利用该框架测试。

2025-11-20 09:50:23 562

原创 关于指示函数

为了计算一整条轨迹τ\tauτμct∣μct​∣:智能体随机检索到了一个案例(这是概率性的,可能是案例 A,也可能是案例 B)。pLLMat∣pLLM​at​∣:LLM 看了案例后,随机生成了一个动作(这是概率性的,LLM 每次输出可能不同)。IrtIrt​:环境根据规则,确定地给出了奖励(没得选,必须按规则给)。IMt1IMt1​:系统确定地把这次经历存入硬盘(没得选,必须存)。Pst1∣Pst。

2025-11-19 15:31:39 852

原创 [排错] 解决 vLLM 启动报错 AttributeError: module ‘triton.language‘ has no attribute ‘constexpr_function‘

当遇到 Python 库报错提示“属性不存在”且该属性明显属于版本不兼容问题时,如果常规的升级/降级无效,应优先怀疑文件残留。并非完全彻底,它不会删除包目录中“多出来”的文件。对于 vLLM 这种频繁变动且存在多个魔改分支的库,物理删除文件夹是解决版本切换冲突最稳妥的方式。

2025-11-19 15:07:34 920

原创 Markdown 扩展语法展示

本文展示了Markdown扩展语法的多种应用,包括提示块、任务清单、折叠块、表格对齐、代码块增强、数学公式、注脚、定义列表、HTML混用、Emoji表情和引用嵌套等。这些语法兼容主流平台如GitHub、Obsidian等,推荐使用Obsidian或MkDocs Material以获得最佳渲染效果。

2025-10-12 11:22:20 976

原创 手动添加 SSH 私钥到 ssh-agent 以解决Permission denied (publickey) 错误

摘要: 在tmux中使用git push时出现认证失败,原因是tmux未继承ssh-agent环境变量,导致SSH密钥未加载。解决方案:1) 手动运行ssh-add加载私钥;2) 确保GitHub已添加对应公钥。经验:多会话工具需注意环境变量传递,多密钥需显式指定路径,推荐SSH+ssh-agent实现全局免密认证。(98字)

2025-10-09 21:07:55 339

原创 给文件提添加高亮信息

因为在查看log的时候需要人工校验标签,因此萌生了用插件高亮标签方便查看的想法。点击管理→设置→在setting.json中编辑。下载Highlight插件。创建一个log文件进行验证。

2025-03-17 11:47:32 822

原创 部署总结:快速部署与测试大模型工作流

从一个hugging face 链接开始,实现用Cherry Studio测试大模型。如果自己的电脑带得动、有图形界面,那么推荐直接使用 LM Studio(无图形界面则推荐Ollama)。如果已经在服务器下载了模型,或者说后续在服务器需要跑模型,推荐使用 vLLM 进行部署,SSH 进行转发,在本地前端进行对话。

2025-03-09 10:10:13 1687

原创 2024年3月27日 算法学习 动态规划(最大连续,最长上升,至少型背包,分组背包,方案数)贪心(排序,排序+堆)

给定K个整数的序列{ N1, N2, …, NK },其任意连续子序列可表示为{ Ni, Ni+1, …, Nj },其中 1 <= i <= j <= K。最大连续子序列是所有连续子序列中元素和最大的一个,例如给定序列{ -2, 11, -4, 13, -5, -2 },其最大连续子序列为{ 11, -4, 13 },最大和为20。现在增加一个要求,即还需要输出该子序列的第一个和最后一个元素。

2024-03-27 23:34:38 1223

原创 2024年3月17日 算法学习

给你一个字符串s和一个字符串列表wordDict作为字典。如果可以利用字典中出现的一个或多个单词拼接出s则返回true。**注意:**不要求字典中出现的单词全部都使用,并且字典中的单词可以重复使用。wordDict。

2024-03-27 23:31:48 986

原创 2024年3月17日 算法学习

给你一个字符串s和一个字符串列表wordDict作为字典。如果可以利用字典中出现的一个或多个单词拼接出s则返回true。**注意:**不要求字典中出现的单词全部都使用,并且字典中的单词可以重复使用。wordDict。

2024-03-18 09:55:27 916

原创 2024年3月11日 算法刷题记录

大的绘图由小的模块组成,每个小的模块都可以再次拆分,直到每个小的模块只剩下单个字符,因此考虑使用递归。这样属于贪心的思路,但是无法证明这样是对的,没有办法说明最优解是两个最大值的和(就好像一个集合最大值不能分解成两个子集的最大值的和)给你一个仅包含一种字符和空格的模板,模板显示如何创建无尽的图片,将字符用作基本元素并将它们放在正确的位置以形成更大的模板,然后不断进行该操作。设有 N×N 的方格图,我们在其中的某些方格中填入正整数,而其它的方格中则放入数字0。输出一个整数,表示两条路径上取得的最大的和。

2024-03-12 08:23:47 561

原创 ABC 344

表示使用前 i 个背包,组成 T 的前 j 个字符所需要最少的组件数。一个是 find 一个是 substr。ABC用python写代码会比较快。E 题是基于哈希表的双向链表。

2024-03-10 16:28:29 958 1

原创 跳石板题解 动态规划 递推

不过好像问题不大,上面的是往前看,考虑到不能提前知道跳多少步,那就可以往前看,用递推的方式往后推。有一系列石板,编号1,2,3,…,小明想要从 N 号到 M 号。可以枚举因数,尝试转移:dp[i] = min(dp[i-p]+1), p ∈K 的因数。对于小易当前所在的编号为K的石板,小易单次只能往前跳K的一个约数(不含1和K)步。跳 K 的因数步(除了 1 和 K)。问最少需要跳几次,不能到达输出 -1。设 dp[i] 表示到第 i 号最少需要几步。至于找因数最简单的是枚举,复杂度是。

2024-03-08 20:46:55 474

原创 狡兔三窟问题(猎人抓兔子)

n 个连续的洞(编号1-n),兔子白天待在洞里,晚上跳到相邻的洞里。猎人白天检查,希望找到兔子。给定洞口数 n,检查天数 k 以及 k 个检查洞口编号,输出是否能抓住兔子。e.g.

2024-03-08 19:53:47 978

原创 西安电子科技大学现代密码学实验四报告

加密过程中使用了分片方法,每次加密最多8个明文字符,并对分片明文进行了512比特的填充,其中包括了64比特的标志位和32比特的通信序号。这次实验体现了理论知识与实践能力的结合,强化了我对密码学原理的理解,同时也提醒了我在设计安全系统时需要考虑的各种潜在风险。此外,实验也激发了我对于密码学更深层次问题的好奇心,比如如何设计更加安全的加密算法,以及如何评估一个加密体系的安全性。它让我更加明白,安全性是一个动态的目标,需要不断的学习和适应新的威胁,以保护信息不受未授权访问的侵害。RSA大礼包(密码挑战赛赛题三)

2023-12-29 15:37:28 1320 3

原创 密码学实验三

由式1.7知,给定e,p,q,就可计算出相应的RSA不动点的数目。按部就班实现即可,其中求逆元用拓展欧几里得定理。第一题: 寻找满足特定条件的 e;

2023-11-27 21:28:05 674

原创 密码学实验二

原理:如下例,t 是target的第一个字节,c 是我们暴力枚举的字节,上下两个部分只有这个地方不一样,上方的加密结果是参考,下方暴力枚举 c,会得到 256 种加密结果,第一个 block 和上方加密结果一致的,就是 t。,其中 r 是随机前缀的长度,p 是 padding 的长度,k 是已知的明文的长度,1 代表了待破解字符 c,B 代表块大小。原理:当明文的大小是分组的倍数的时候,pkcs7会添加一个dummy block,其大小就是分组大小。如果X用完了,就把重现更新X 的长度(祥见参考链接)。

2023-11-13 22:47:08 318

原创 [MTC3]Cracking SHA1-Hashed Passwords

在这个场景中,我从树的根节点开始,沿着一条路径向下搜索,直到达到一个叶节点,也就是一个可能的密码组合。首先,我们知道密码是由给定字符集的字符组成的,每个字符都有两种可能的选择。这就形成了一个二叉树,其中每个节点都代表一个字符的选择,树的深度等于字符集的大小。如果找到了一个匹配的哈希值,我就立即停止搜索,并打印出对应的密码和搜索所用的时间。这样,一旦找到答案,就不需要再继续搜索了,这大大提高了代码的效率。来生成所有可能的排列,然后计算每个排列的SHA1哈希值,与给定的哈希值进行比较。

2023-11-06 00:17:26 199

原创 vigenere-like cipher

题干中提到“明文包含大写字母、小写字母、标点符号和空格,但不包含数字”,因此可以枚举密钥,然后将密钥和密文进行异或,得到的结果中,如果有数字,则说明该密钥不正确。首先,题干中所说的维吉尼亚-like是指将密钥复制为和明文一样长(多出来的删除掉),然后进行异或运算。因此,结合one-time pad的思想,可知利用密钥和密文进行异或,便得到明文。

2023-11-05 23:53:15 212

原创 manyTimePad

我会假设第一个额外空格实际上是一个冒号":“第二个是一个逗号”,"但我不能确定。想想提示的第二部分,如果异或运算符两侧有一个空格字符和一个字母字符在同一位置,运算后字母字符会从小写变成大写,或者从大写变成小写。显然,所有明文都有一些奇怪的词语(例如“numxer”、“njoy”、“bicomes”等)。中有一个包含空格字符,另一个包含小写字母“a”(明文)。假设我们在异或运算的结果中的某个位置得到一个大写字符“A”,我们知道。的结果后,我比较结果中的每个字节,看它是否在“a”,我们会得到如下破解的。

2023-11-05 23:52:22 299

原创 划水划水划水

优化半天用一行内存预分配减少了一半的运行时间,哭笑不得。

2023-10-13 15:13:17 178

原创 1878E - Iva & Pav

一开始找来找去找不到bug,靠朋友发现是将 s 清零的时候用的memset搞的鬼。

2023-10-04 11:40:17 253

原创 1878D - Reverse Madness

批注:可以理解为,一旦索引为 i 的位置需要进行 reverse,它一定是和索引为 n-i+1 的元素进行交换。批注:这里的 affect 和上文的 touch 是一个意思。

2023-10-03 10:41:45 259

原创 the cryptopals crypto challenges set 1 part 2

ps(这里思路我当时没缕清,以为 findSingleXor 的结果应该是有特征的。重点是猜出这一位的 key,然后拼起来,最后用来解密密文,这时的结果才是有规律的。这里我先用 set 记录每个字符串对应的分组的集合的大小,如果有重复集合就会比较小,结果证明这样就足以检测 ECB 了。我遇到的问题是在字符串和二进制/十六进制转换的时候,直接使用bin()/hex()去掉前缀的结果进行拼接,这样的后果是长度不对齐,字符转换成二进制,长度应为8,不足需要补前导0,十六进制则长度应为2,不足需要补前导0。

2023-09-26 21:46:35 151

原创 AcWing 1126. 最小花费

要使得 A 最小,则。

2023-09-26 09:20:33 103

原创 the cryptopals crypto challenges Challenges Set 1

代码如下,仅作参考,慢慢学习发现如果自己找到bug效果是最好的,但是如果绞尽脑汁想破头皮都没办法,可能还是需要一点提示。最近通了这几关,很有意思,记录一下思路。

2023-09-25 23:14:46 170

原创 AcWing 1127. 香甜的黄油

【代码】AcWing 1127. 香甜的黄油。

2023-09-25 21:04:47 94

原创 AcWing 920. 最优乘车

对于每条公交线路,从每个站到它后面站建一条权值为 1 的有向边,代表花费为 1 (上一次车)最终求 1 到 n 的最短路,即最少花费,再减一即最少换乘次数。

2023-09-25 20:45:38 161

原创 向自己发起自律挑战

俗话说,靠意志力自律就是在犯贱(bushi,还要靠内驱力,习惯等等因素。昨天开始突然找回了学习的兴致和状态(暑假时天天划水),于是想把这股来之不易的劲儿延续下去,在此向自己(不知道会不会有人看到想和我一起,很欢迎!顺便挑战自己下午最早能几点回到图书馆(其实是挑战的起点)然后用一句话概括自己24小时内最大的成就(自律的成果)

2023-09-13 18:34:06 128

原创 acwing 1106.山峰和山谷 & 博客新起点

这两天写了密码学实验和一道Flood Filled。许久未写代码,惊讶地发现自己的代码实现能力一泻千里,接下来必须保持练习。1106 这道题就是用 bfs 解,但在应用算法时,大致思路容易确定,具体细节难以一步到位,接下来需要刻意练习这方面的能力。打算捡起AcWing的算法提高课按照课程刷下去,但是一定不能是被动的学习,而要积极的思考。的激励,决定保持每天产出一篇博客记录自己的学习~

2023-09-13 11:14:01 231

原创 用来记录壁纸的博客

2023-04-05 20:33:25 97

原创 Data8 开荒记(环境配置与基本介绍)

data8的环境配置比较多内容,因此这是我配过的最久的一次环境,折腾了大概有五个小时吧,主要是网上的资料比较零散,特此将我的经历记录如下,节省后来人的时间。

2022-09-03 17:02:54 2315 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除