A half moon-CSDN博客

原创程序员熬夜有感，我做了个小工具盯紧自己的每日电量

一边是消耗行为，一边是补充行为，对比一看就知道，哪些事在拖垮自己，哪些事能真正回血。点一点就能记录日常行为，久坐加班、刷短视频会扣能量，出门散步、睡个好觉就会加能量，不用算、不用记，特别省心。作为天天敲代码、经常熬夜赶进度的人，我太懂那种感觉了：明明没干多少重活，却一整天都蔫蔫的，累到不想说话，刷会儿手机更虚，想调整又不知道问题出在哪😮‍💨。久而久之我发现，很多疲惫不是懒，是精力被悄悄耗光了。最重要的是，它完全免费，不用下载安装，浏览器打开就能用，所有数据只存在你自己设备里，不上传、不收集，隐私很安心?

2026-04-19 17:51:32 31

原创【从开发到上线-全栈开发教程】Git上传本地项目到仓库

创建完成后，会进入仓库页面，复制仓库的 HTTPS 地址或者SSH地址（页面上显眼的位置，格式：https://github.com/你的用户名/仓库名.git），等下要用！✅ 【重要】不要勾选 Add a README file（创建纯空白仓库，避免和本地文件冲突！Repository name：仓库名称（必填，比如 ai-workflow-notes 自定义）✅ 第一步：在【GitHub 网页端】新建一个自己的空白仓库（关键！Description：仓库描述（可选，比如 AI知识工作流笔记）

2026-01-11 11:11:43 251

原创刷题Coding编程中学到的解决问题的思维

所有问题，都可尝试用以上方式去思考和解决；

2025-12-01 09:38:43 222

原创【Agent论文】EvoMem 框架 | 智能体协同 | 多步自然语言规划任务

相比 SOTA 基线 PlanGen，Exact-Match 绝对提升 +11.17 % (Trip)、+2.56 % (Calendar)、+3.76 % (Meeting)跨 Gemini-1.5-Pro、DeepSeek-V3、GPT-4.1-mini 一致增益；显式建模“稳定约束+动态反馈”的记忆机制即可显著增强 LLM 多智能体规划能力，无需外部工具。LLM 在多步自然语言规划任务中表现差，主因是缺乏类似人类“工作记忆”的机制来同时维护稳定约束与迭代反馈。

2025-11-27 20:22:34 261

原创前缀和-最长的指定瑕疵度的元音子串

a” 、 “aa”是元音字符串，其瑕疵度都为0 “aiur”不是元音字符串（结尾不是元音字符） “abira”是元音字符串，其瑕疵度为2。定义：开头和结尾都是元音字母（aeiouAEIOU）的字符串为元音字符串，其中混杂的非元音字母数量为其瑕疵度。给定一个字符串，请找出指定瑕疵度的最长元音字符子串，并输出其长度，如果找不到满足条件的元音字符子串，输出0。3 提示样例 1 满足条件的最长元音字符子串有两个，分别为uio和auu，长度为3。输出输出为一个整数，代表满足条件的元音字符子串的长度。

2025-08-28 11:20:25 152

原创大模型function call 调用外部函数功能-快速实现

【代码】大模型function call 调用外部函数功能-快速实现。

2025-04-11 14:38:52 246

原创 conda 激活环境vscode的Bash窗口

多份conda环境注意事项，当时安装了两个conda环境，miniconda和conda，导致环境总是冲突矛盾。初始化时需要更加注意。然后直接conda activate到对应环境中即可。能够显示用哪里的conda环境命令执行。

2025-04-02 17:11:09 396

原创【机器学习面试经验与互联网公司推荐】

机器学习面试主要涵盖统计学习、深度学习（如NLP、CV、强化学习）等基础知识。对于算法岗位，通常要求应聘者来自985或211高校，拥有硕士学历，发表过顶会论文，并具备大厂实习经验或AI创业公司实习背景。此外，参加过知名比赛（如Kaggle、阿里天池比赛等）并取得优异成绩的候选人会更具竞争力。

2025-03-24 23:41:07 571

原创【机器学习/大模型/八股文面经（一）】

参考答案核心差异特性LSTM时序处理全局注意力（并行）顺序递归（串行）长程依赖自注意力直接建模依赖记忆单元梯度传播计算效率适合GPU并行，但内存复杂度O(N²)无法充分并行，复杂度O(N)位置编码显式添加（正弦/可学习）隐式通过循环状态创新点：多头注意力机制实现动态特征交互，残差连接缓解梯度消失。

2025-03-24 23:35:01 464

原创【腾讯 ima 极简指南】3 步搭建你的 AI 知识中枢

微信搜「ima 助手」小程序 → 新建知识库（建议按项目 / 领域命名）✅ AI 超能力：5 秒生成摘要 / 思维导图 / 关联推荐。上传时自动打标（可手动补充「# 紧急」「# 行业报告」）✅ 全格式通吃：PDF/PPT/ 图片 / 音视频一键吞。：钉钉 / 飞书消息转发到 ima 微信助手，自动归档。手机端：微信聊天框长按文件 → 选「保存到 ima」」→「用ima打开」创建共享库：添加名称→导入本地文件→设置查看权限。创建共享库：添加名称→导入本地文件→设置查看权限。➡️团队协作高阶玩法。

2025-03-18 22:51:08 661

原创【AI知识管理系统】（一）AI知识库工具测评

嘿，朋友们！🧐你们有没有想过，咱们平日里那些一闪而过的知识笔记、各种碎片化的idea，记录下来之后都是怎么管理的呀？还有啊，咱们读过的那些书，大家会不会随手写点东西记录一下呢？📝要知道，如果不写的话，很可能过不了多久就全忘得一干二净啦。😭那多年前记下的笔记，还能不能重新捡起来派上用场呢？😉这里面涉及到的认知装载和卸载的核心又是什么呢？🤷‍♀️那当然是强大的知识管理系统了接下来啊，我就准备给大家测评一下当下最先进的知识管理工具，看看它们到底有多神奇~✨。

2025-03-17 22:39:28 646

原创【大模型（LLMs）RAG 检索增强生成面经】

尤其是指令，指令型 llm 在训练或者微调的时候，基本上都有个输出模板，这个如果前期没有给出 instruction data 说明，需要做很多的尝试，尤其是你希望生成的结果是按照一定格式给出的，需要做更多的尝试。多语言问题，paper 的内容是英文的，用户的 query 和生成的内容都是中文的，这里有个语言之间的对齐问题，尤其是可以用中文的 query embedding 来从英文的 text chunking embedding 中找到更加相似的 top-k 是个具有挑战的问题。

2025-03-15 23:41:09 240

原创【大模型最前沿技术应用与实践】

* 工具链整合（Agents、RPA）** 实现场景落地。需要融合通用技术（LLM、多模态）与行业深度（知识图谱、RAG），并通过。通过实时反馈机制动态优化模型（如异常检测阈值调整）在数据安全前提下实现跨机构分析（如联合建模）。人机协作处理复杂决策（如财务策略制定）。未来想打造垂类知识决策型 AI的应用，

2025-03-11 22:19:04 216

原创一分钟快速EASY理解transformer的生成过程

这就是为什么叫"teacher forcing"，因为训练时老师（ground truth）在强制指导你。dec_inp 在训练时是已知的（teacher forcing），包含了目标序列右移一位的值。**训练时：**老师告诉你"看到50，应该说60；看到50和60，应该说70"**预测时：**你看到50，说出60；然后基于50和60，说出70。在预测时是逐步生成的，每次将新预测的值加入到 dec_inp 中。这种机制让模型能学会利用之前的预测来做出下一步预测。

2025-03-07 11:36:30 163

原创【大模型（LLMs）微调面经】

综合使用上述方法，可以让模型在预训练过程中学习到更多的知识和语言规律，提升其在领域任务上的性能。

2025-03-05 23:45:35 182

原创【NLP面试八股-NLP常见面试问题&详细回答】

序列到序列（Sequence-to-Sequence，Seq2Seq）模型是一种能将一个序列作为输入，并输出另一个序列的深度学习模型，通常由编码器（Encoder）和解码器（Decoder）两部分组成。注意力机制是一种让模型能够自动关注输入序列中不同部分的技术，其核心思想是在处理输入序列时，为每个元素分配一个权重，然后根据这些权重对元素进行加权求和。知识图谱是一种以图的形式表示知识的方法，由实体、关系和属性组成。，能够从大规模无标注数据中学习到丰富的语言表示，有效提高了语言理解、生成、翻译等任务的性能。

2025-02-26 23:00:38 430

原创【深度学习面试八股-面试问题&详细回答】

模型在训练集上表现很好，但在测试集和新数据上表现很差。批量归一化(BN)的计算公式如下：对图像和滤波矩阵做内积的操作就是卷积操作。其中图像是指不同的数据窗口数据；滤波矩阵是指一组固定的权重，因为每个神经元的多个权重固定，所以又可以看作一个恒定的滤波器 fliter；内积是指逐个元素相乘再求和的操作。池化是指取区域平均或者最大，即平均池化或最大池化。

2025-02-26 22:42:04 432

原创【深度学习面试八股-面试问题&详细回答】

本文围绕深度学习核心知识展开，涵盖优化器（SGD、Adam 等）原理及对比，过拟合与欠拟合相关剖析，归一化方法（BN、LN 等）介绍，以及神经网络基础概念与应用，为深度学习面试及学习夯实基础。

2025-02-21 16:16:24 117

原创【AI 互动产品设计构思——「心灵星旅—— 宇宙探险中的自我成长】

这个设计将健康管理变成一场充满惊喜的星际冒险，用户在学习知识的同时，收获游戏成就感和情感陪伴。关键是要让每个功能都藏着小惊喜——比如连续打卡7天后，AI伙伴会突然用用户的声音唱一首鼓励歌曲。每个星球代表一种核心情绪（快乐星、焦虑星、愤怒星等），完成任务即可解锁星球能量，修复宇宙平衡。为了让健康管理和情绪学习变得有趣又有效，我们可以设计一个结合游戏化、故事化、AI互动的产品。每晚10点前睡觉 → 飞船能量+20% → 解锁隐藏星球「梦境之海」会进化的生物AI「波塔」，外形像发光水母，根据用户状态变色。

2025-02-13 10:53:53 543

原创重新理解并从经典模型LSTM获得启发

LSTM主要处理序列数据，核心的前提假设就是：后面的数据跟前面的存在自相关性，比如我后面的信息是根据前面的一些信息经过某种函数处理能够推导得到的，所以设定了信息由前往后传递的这样一种依赖关系，核心是如何处理信息的。**hidden_size：**这是指LSTM中隐层的维度（h隐藏状态的味道），即隐藏层节点的个数。**input_size：**这是输入数据的特征维数，即每一行输入元素的个数。作为一种信息选择的功能，能够输出0到1，0表示遗忘信息，1表示记忆信息，中间数值对应表示介于两者之间的状态。

2024-10-21 17:31:01 593

原创服务器目录连接juypter lab 命令

【代码】服务器目录连接juypter lab 命令。

2024-10-16 17:18:16 194

原创 leecode刷题C++ 常用数据结构操作

【代码】leecode刷题C++ 常用数据结构操作。

2024-09-02 21:59:32 330

原创 leecode刷题经典算法套路&模版笔记【递归回溯篇】--根本逻辑，快速掌控

在ASCII码表中，字符’0’到’9’的编码是连续的，因此通过减去字符’0’的ASCII码值（即48），可以将字符型数字转换为对应的整数值。在ASCII码表中，字符’0’到’9’的编码是连续的，因此通过加上字符’0’的ASCII码值（即48），可以将整数值转换为对应的字符型数字。第二种思路，每次进行枚举选一个严格递增的元素，这里由于子集的长度没有约束，所以每种长度都可以是答案。digits[i] - ‘0’ 是一个常见的编程技巧，用于将字符型数字转换为整数型。对两端按照规律进行操作移动；

2024-09-02 21:48:08 508

原创 Latex论文引用脚注加网址或代码超链接

【代码】Latex论文引用脚注加网址或代码超链接。

2024-08-02 16:56:06 3529

原创 llava-v1.6-vicuna-7b response为空，解决方案

分析得出是输入长度加上图片token过程，vicuna 默认的session_len长度(2048)过短造成的，对话模版也需要了解。

2024-07-23 17:06:40 415

原创多模态开源模型部署Llava-v1.6-Vicuna-7B 总结

一段可以直接run的下载代码，超好用！

2024-07-11 10:27:02 1383

原创远程服务器运行项目代码 sh xxx.sh

把环境上传到远程服务器（anaconda下面的文件夹）然后到项目对应目录下运行对应sh文件。把项目代码上传到远程服务器。

2024-06-08 15:52:14 241

原创 relative position encoding快速看懂相对位置编码代码实现

举例如果有5个token，相对位置就有9种情况。然后是通过前面的相对位置矩阵，得到相对位置编码。

2024-06-02 15:45:30 666

原创一直出现问题，发现服务器磁盘空间已满导致，腾出服务器磁盘空间命令

通过上述步骤，你应该能够有效地腾出服务器磁盘空间，解决空间不足的问题。在进行文件删除操作时，请务必确保不会删除系统关键文件或正在使用的进程文件，以免影响系统稳定性。

2024-03-13 15:32:41 953

原创 urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host=‘huggingfac 远程服务器访问不了外网本地电脑可以使用VPN....

核心目的是想用远程服务器上的GPU跑代码，也就是服务器上的conda安装的环境和python解释器去执行pycharm里的项目，但是发现远程服务器不能访问外网…可以看出上面带GPU的服务器只能访问bing这样的普通网站，访问不了huggingface。就很麻烦，似乎只能手动下载一些类似bert的模型，或者尝试找huggingface的镜像web…如果要想直接下，可以本地电脑连VPN ，翻墙访问直接下载，但是本地电脑又没有GPU。

2024-02-27 17:05:27 1109

原创时序预测demo 代码快速实现 MLP效果比LSTM 好，简单模拟数据

生成的一个带些随机数的正弦波：y = torch.sin(x * 2 * 3.1415926 / 100) + 0.3 * torch.sin(x * 2 * 3.1415926 / 25) + 0.8 * np.random.normal(0, 1.5)LSTM（长短期记忆）的层数指的是在神经网络中堆叠的LSTM单元的数量。层数决定了网络能够学习的复杂性和深度。每一层LSTM都能够捕捉和记忆不同时间尺度的依赖关系，因此增加层数可以使网络更好地理解和处理复杂的序列数据。简单聪明的MLP第一轮就学会了。

2024-02-22 21:12:23 627