tsrigo-CSDN博客

原创在无头 Linux 环境下配置 OpenClaw 浏览器的排障记录

在 Linux 终端下，直接使用包管理器安装的 Chromium 可能会受到系统沙盒机制（如 snap 的 AppArmor）的限制，导致 OpenClaw 无法调用。该模式属于“扩展中继模式”，需要人工在图形化界面的浏览器中点击插件才能建立连接。在无界面的 Linux 环境中，必须将其切换为 OpenClaw 自动托管的独立配置文件。安装完成后，需要告诉 OpenClaw 浏览器的确切位置，并开启无头（Headless）和无沙盒（No-sandbox）模式，以适应无桌面且可能有权限限制的运行环境。

2026-03-05 00:45:08 554

原创作为图床的帖子

2026-02-01 13:42:06 33

原创 uv 不小心把 activate 文件删除了怎么办

如果不加这个参数：uv 默认认为你要创建一个全新的环境，为了防止冲突，它会要求你确认“替换（Replace）”，如果你选 Yes，它会把整个文件夹清空（包也就没了）；如果你选 No，它就什么都不做（就是你刚才遇到的情况）。–allow-existing：告诉 uv 允许在已存在的 .venv 文件夹上操作。它会重新生成 bin/activate 等启动脚本，但不会删除你 lib/ 目录下已经安装好的 Python 包。注意不要直接运行uv venv并点击yes。

2025-12-11 09:29:58 250

原创 CS 285: Lecture 2, Imitation Learning 讲稿笔记

课程首先将之前的直觉（“小错误会导致进入陌生状态，从而引发大错误”）转化为数学符号。pdataotpdataot训练数据分布。这是专家（人类）演示时的观测分布。pπθotpπθot策略分布。这是我们训练出来的策略πθ\pi_\thetaπθ在实际运行时遇到的观测分布。这是BC失效的核心原因。由于策略πθ\pi_\thetaπθ不可能完美模仿专家，实际运行时的分布pπθpπθ会与训练分布pda。

2025-11-27 10:29:02 693

原创模仿学习中的误差累积分析

线性误差 (ϵT\epsilon TϵT：如果你每次只是随机犯错，但能立即纠正回来（I.I.D. 假设），那么总错误数就是ϵ×Tϵ×T。平方误差 (ϵT2ϵT2：但在模仿学习中，没有纠正机制。一旦你在第ttt步犯错，你就进入了一个训练集中没见过的状态（State Drift）。在这些没见过的状态下，你更可能继续犯错。这种错误会像滚雪球一样累积。时间TTT越长，你偏离正轨的可能性就越大（ϵt\epsilon tϵt），而一旦偏离，剩下的每一步都可能也是错的。

2025-11-20 21:08:31 800

原创【RL笔记】为什么行为克隆会失败？从分布偏移公式看误差累积

首先，我们需要定义误差的边界。假设我们训练好的策略网络πθ\pi_\thetaπθ在单步决策上的表现还不错，它的单步误差率被限制在ϵ\epsilonϵπθa≠π⋆s∣s≤ϵπθaπ⋆s∣s≤ϵ这意味着在任意时刻，智能体模仿专家动作出错的概率不超过ϵ\epsilonϵ（例如 1%），而做对的概率至少是1−ϵ1-\epsilon1−ϵ（例如 99%）。注意：幻灯片中划掉了一行for all s，修正为。

2025-11-20 19:54:13 723

原创行为克隆 (Behavioral Cloning) 为什么经常会失败的核心原因

是的，这是训练目标。max⁡θEot∼pdataotlog⁡πθat∣otθmaxEot∼pdataotlogπθat∣ot)]为什么是这个？这是标准的最大似然估计 (Maximum Likelihood Estimation, MLE)，也就是我们在监督学习 (Supervised Learning)中常用的目标。我们希望调整策略网络的参数θ\thetaθ，使得当输入是专家的观测oto。

2025-11-20 16:20:51 1066

原创 [RL笔记] 模仿学习基础：读懂 $\pi$ 与 $p$ 的纠葛

π\piπ(策略)决定了我们在每个时刻的选择。ppp(状态分布)决定了我们在长的时间尺度上会遇到哪些局面。耦合性：策略π\piπ的不同会导致状态分布ppp的不同，这是强化学习区别于传统监督学习的最大特征。下次看到EpπEpπ时，请记得：这代表了“在这个策略引导下，世界呈现给你的样子”。

2025-11-20 15:17:46 687

原创打造通用的数学模型评测流水线：基于 Qwen2.5-Math 框架

最近师兄让评测下 Qwen3-8B 在 AIME 2024 上的性能，我感觉直接让大模型写代码可能会有问题，于是想找一些现成的框架，于是乎找到了 https://github.com/QwenLM/Qwen2.5-Math。虽然这个评测仓库是 Qwen2.5-Math 官方提供的，但其核心代码（适配自）实际上非常通用。它内置了 Mistral、DeepSeek-Math、InternLM 等多种模版，非常适合作为一个通用的数学能力测试基座。这篇笔记记录了如何利用该框架测试。

2025-11-20 09:50:23 562

原创关于指示函数

为了计算一整条轨迹τ\tauτμct∣μct∣：智能体随机检索到了一个案例（这是概率性的，可能是案例 A，也可能是案例 B）。pLLMat∣pLLMat∣：LLM 看了案例后，随机生成了一个动作（这是概率性的，LLM 每次输出可能不同）。IrtIrt：环境根据规则，确定地给出了奖励（没得选，必须按规则给）。IMt1IMt1：系统确定地把这次经历存入硬盘（没得选，必须存）。Pst1∣Pst。

2025-11-19 15:31:39 852

原创 [排错] 解决 vLLM 启动报错 AttributeError: module ‘triton.language‘ has no attribute ‘constexpr_function‘

当遇到 Python 库报错提示“属性不存在”且该属性明显属于版本不兼容问题时，如果常规的升级/降级无效，应优先怀疑文件残留。并非完全彻底，它不会删除包目录中“多出来”的文件。对于 vLLM 这种频繁变动且存在多个魔改分支的库，物理删除文件夹是解决版本切换冲突最稳妥的方式。

2025-11-19 15:07:34 920

原创 Markdown 扩展语法展示

本文展示了Markdown扩展语法的多种应用，包括提示块、任务清单、折叠块、表格对齐、代码块增强、数学公式、注脚、定义列表、HTML混用、Emoji表情和引用嵌套等。这些语法兼容主流平台如GitHub、Obsidian等，推荐使用Obsidian或MkDocs Material以获得最佳渲染效果。

2025-10-12 11:22:20 976

原创手动添加 SSH 私钥到 ssh-agent 以解决Permission denied (publickey) 错误

摘要：在tmux中使用git push时出现认证失败，原因是tmux未继承ssh-agent环境变量，导致SSH密钥未加载。解决方案：1) 手动运行ssh-add加载私钥；2) 确保GitHub已添加对应公钥。经验：多会话工具需注意环境变量传递，多密钥需显式指定路径，推荐SSH+ssh-agent实现全局免密认证。（98字）

2025-10-09 21:07:55 339

原创给文件提添加高亮信息

因为在查看log的时候需要人工校验标签，因此萌生了用插件高亮标签方便查看的想法。点击管理→设置→在setting.json中编辑。下载Highlight插件。创建一个log文件进行验证。

2025-03-17 11:47:32 822

原创部署总结：快速部署与测试大模型工作流

从一个hugging face 链接开始，实现用Cherry Studio测试大模型。如果自己的电脑带得动、有图形界面，那么推荐直接使用 LM Studio（无图形界面则推荐Ollama）。如果已经在服务器下载了模型，或者说后续在服务器需要跑模型，推荐使用 vLLM 进行部署，SSH 进行转发，在本地前端进行对话。

2025-03-09 10:10:13 1687

原创 2024年3月27日算法学习动态规划（最大连续，最长上升，至少型背包，分组背包，方案数）贪心（排序，排序+堆）

给定K个整数的序列{ N1, N2, …, NK }，其任意连续子序列可表示为{ Ni, Ni+1, …, Nj }，其中 1 <= i <= j <= K。最大连续子序列是所有连续子序列中元素和最大的一个，例如给定序列{ -2, 11, -4, 13, -5, -2 }，其最大连续子序列为{ 11, -4, 13 }，最大和为20。现在增加一个要求，即还需要输出该子序列的第一个和最后一个元素。

2024-03-27 23:34:38 1223

原创 2024年3月17日算法学习

给你一个字符串s和一个字符串列表wordDict作为字典。如果可以利用字典中出现的一个或多个单词拼接出s则返回true。**注意：**不要求字典中出现的单词全部都使用，并且字典中的单词可以重复使用。wordDict。

2024-03-27 23:31:48 986

原创 2024年3月17日算法学习

给你一个字符串s和一个字符串列表wordDict作为字典。如果可以利用字典中出现的一个或多个单词拼接出s则返回true。**注意：**不要求字典中出现的单词全部都使用，并且字典中的单词可以重复使用。wordDict。

2024-03-18 09:55:27 916

原创 2024年3月11日算法刷题记录

大的绘图由小的模块组成，每个小的模块都可以再次拆分，直到每个小的模块只剩下单个字符，因此考虑使用递归。这样属于贪心的思路，但是无法证明这样是对的，没有办法说明最优解是两个最大值的和（就好像一个集合最大值不能分解成两个子集的最大值的和）给你一个仅包含一种字符和空格的模板，模板显示如何创建无尽的图片，将字符用作基本元素并将它们放在正确的位置以形成更大的模板，然后不断进行该操作。设有 N×N 的方格图，我们在其中的某些方格中填入正整数，而其它的方格中则放入数字0。输出一个整数，表示两条路径上取得的最大的和。

2024-03-12 08:23:47 561

原创 ABC 344

表示使用前 i 个背包，组成 T 的前 j 个字符所需要最少的组件数。一个是 find 一个是 substr。ABC用python写代码会比较快。E 题是基于哈希表的双向链表。

2024-03-10 16:28:29 958 1

原创跳石板题解动态规划递推

不过好像问题不大，上面的是往前看，考虑到不能提前知道跳多少步，那就可以往前看，用递推的方式往后推。有一系列石板，编号1,2,3,…，小明想要从 N 号到 M 号。可以枚举因数，尝试转移：dp[i] = min(dp[i-p]+1), p ∈K 的因数。对于小易当前所在的编号为K的石板，小易单次只能往前跳K的一个约数(不含1和K)步。跳 K 的因数步（除了 1 和 K）。问最少需要跳几次，不能到达输出 -1。设 dp[i] 表示到第 i 号最少需要几步。至于找因数最简单的是枚举，复杂度是。

2024-03-08 20:46:55 474

原创狡兔三窟问题（猎人抓兔子）

n 个连续的洞（编号1-n），兔子白天待在洞里，晚上跳到相邻的洞里。猎人白天检查，希望找到兔子。给定洞口数 n，检查天数 k 以及 k 个检查洞口编号，输出是否能抓住兔子。e.g.

2024-03-08 19:53:47 978

原创西安电子科技大学现代密码学实验四报告

加密过程中使用了分片方法，每次加密最多8个明文字符，并对分片明文进行了512比特的填充，其中包括了64比特的标志位和32比特的通信序号。这次实验体现了理论知识与实践能力的结合，强化了我对密码学原理的理解，同时也提醒了我在设计安全系统时需要考虑的各种潜在风险。此外，实验也激发了我对于密码学更深层次问题的好奇心，比如如何设计更加安全的加密算法，以及如何评估一个加密体系的安全性。它让我更加明白，安全性是一个动态的目标，需要不断的学习和适应新的威胁，以保护信息不受未授权访问的侵害。RSA大礼包（密码挑战赛赛题三）

2023-12-29 15:37:28 1320 3

原创密码学实验三

由式1.7知，给定e,p,q，就可计算出相应的RSA不动点的数目。按部就班实现即可，其中求逆元用拓展欧几里得定理。第一题：寻找满足特定条件的 e；

2023-11-27 21:28:05 674

原创密码学实验二

原理：如下例，t 是target的第一个字节，c 是我们暴力枚举的字节，上下两个部分只有这个地方不一样，上方的加密结果是参考，下方暴力枚举 c，会得到 256 种加密结果，第一个 block 和上方加密结果一致的，就是 t。，其中 r 是随机前缀的长度，p 是 padding 的长度，k 是已知的明文的长度，1 代表了待破解字符 c，B 代表块大小。原理：当明文的大小是分组的倍数的时候，pkcs7会添加一个dummy block，其大小就是分组大小。如果X用完了，就把重现更新X 的长度（祥见参考链接）。

2023-11-13 22:47:08 318

原创 [MTC3]Cracking SHA1-Hashed Passwords

在这个场景中，我从树的根节点开始，沿着一条路径向下搜索，直到达到一个叶节点，也就是一个可能的密码组合。首先，我们知道密码是由给定字符集的字符组成的，每个字符都有两种可能的选择。这就形成了一个二叉树，其中每个节点都代表一个字符的选择，树的深度等于字符集的大小。如果找到了一个匹配的哈希值，我就立即停止搜索，并打印出对应的密码和搜索所用的时间。这样，一旦找到答案，就不需要再继续搜索了，这大大提高了代码的效率。来生成所有可能的排列，然后计算每个排列的SHA1哈希值，与给定的哈希值进行比较。

2023-11-06 00:17:26 199

原创 vigenere-like cipher

题干中提到“明文包含大写字母、小写字母、标点符号和空格，但不包含数字”，因此可以枚举密钥，然后将密钥和密文进行异或，得到的结果中，如果有数字，则说明该密钥不正确。首先，题干中所说的维吉尼亚-like是指将密钥复制为和明文一样长（多出来的删除掉），然后进行异或运算。因此，结合one-time pad的思想，可知利用密钥和密文进行异或，便得到明文。

2023-11-05 23:53:15 212

原创 manyTimePad

我会假设第一个额外空格实际上是一个冒号":“第二个是一个逗号”,"但我不能确定。想想提示的第二部分,如果异或运算符两侧有一个空格字符和一个字母字符在同一位置,运算后字母字符会从小写变成大写,或者从大写变成小写。显然,所有明文都有一些奇怪的词语(例如“numxer”、“njoy”、“bicomes”等)。中有一个包含空格字符,另一个包含小写字母“a”(明文)。假设我们在异或运算的结果中的某个位置得到一个大写字符“A”,我们知道。的结果后,我比较结果中的每个字节,看它是否在“a”,我们会得到如下破解的。

2023-11-05 23:52:22 299

原创划水划水划水

优化半天用一行内存预分配减少了一半的运行时间，哭笑不得。

2023-10-13 15:13:17 178

原创 1878E - Iva & Pav

一开始找来找去找不到bug，靠朋友发现是将 s 清零的时候用的memset搞的鬼。

2023-10-04 11:40:17 253

原创 1878D - Reverse Madness

批注：可以理解为，一旦索引为 i 的位置需要进行 reverse，它一定是和索引为 n-i+1 的元素进行交换。批注：这里的 affect 和上文的 touch 是一个意思。

2023-10-03 10:41:45 259

原创 the cryptopals crypto challenges set 1 part 2

ps（这里思路我当时没缕清，以为 findSingleXor 的结果应该是有特征的。重点是猜出这一位的 key，然后拼起来，最后用来解密密文，这时的结果才是有规律的。这里我先用 set 记录每个字符串对应的分组的集合的大小，如果有重复集合就会比较小，结果证明这样就足以检测 ECB 了。我遇到的问题是在字符串和二进制/十六进制转换的时候，直接使用bin()/hex()去掉前缀的结果进行拼接，这样的后果是长度不对齐，字符转换成二进制，长度应为8，不足需要补前导0，十六进制则长度应为2，不足需要补前导0。

2023-09-26 21:46:35 151

空空如也

空空如也