求知AI-CSDN博客

原创 DeepSeek 深入浅出（一）

*先进行简单的介绍，后续会针对具体每个技术展开介绍。如何有效设计RL算法和奖励机制，提成推理能力而并非依赖监督数据。亮点：提出一种PPO的改进版本，使用GRPO算法和基于规则的奖励系统，规则的奖励学习系统，避免了复杂的神经奖励模型。简化了训练流程。从这里能够体现。这是对经典PPO算法的创新改进，不仅增强了模型的数学推理能力，还优化了内存使用效率。为了解决PPO中的一些弊端，Group Relative Policy Optimization (GRPO)。

2025-02-07 19:07:20 966

原创 28岁执掌腾讯AI核心：天才科学家姚顺雨的传奇之路

论文核心的设计理念的是“让模型现场学、现场用”，通过虚构知识、修改现有内容等严格的防作弊设计，确保模型无法依赖预训练记忆答题，进而揭示了当前大模型的核心瓶颈：即使拥有超大的上下文窗口，也难以从复杂的上下文中学习新知识并正确应用。这个名字在科技圈掀起了轩然大波，从清华姚班的天才少年，到 OpenAI 的核心研究者，再到腾讯 AI 版图的掌舵者，他的履历就像是现实版的爽文剧本，却比任何虚构故事都更令人惊叹。他的成长轨迹告诉我们，在 AI 这个全新的赛道上，“资历” 不再是束缚，年轻恰恰是最大的优势。

2026-02-05 10:52:25 737

原创未来已来：人人都是Agent工程师？

在与 AI 的协作过程中，技术人员并非被 AI 取代，而是与 AI 形成了一种协同共进的关系，人类的创造力、判断力与 AI 的高效运算、海量数据处理能力相互补充，共同推动技术的发展与创新。这一决策背后，是对 AI 技术强大能力的信任与依赖。在需求分析阶段，以往产品经理需要花费大量时间撰写详细的需求文档，如今借助 AI 的自然语言处理能力，开发人员只需通过简单的描述，AI 就能快速理解需求并生成初步的分析报告，产品经理的工作部分被 AI 所简化，甚至在一些简单项目中可以直接省略这一岗位的独立工作。

2026-02-04 10:52:42 1006

原创再见JSON冗余！TOON：LLM时代数据交换的“省钱提速”新王者

这背后的原理在于 TOON 独特的数据结构设计。在金融行业的交易系统中，对交易数据的准确性和完整性要求极高，使用 JSON 结合 JSON Schema，可以有效地验证交易数据是否符合规定的格式和业务规则，防止错误数据的进入，保障金融交易的安全和稳定。一个包含多个层级的组织结构数据，其中每个层级的对象都具有不同的属性和子对象，使用 JSON 可以轻松地将这样的数据完整地表示出来，而 TOON 在这种情况下，由于其表格化和简洁性的设计，可能无法清晰地表达复杂的嵌套关系，导致数据表示的不完整性或准确性下降。

2026-02-03 11:37:23 309

原创 DeepSeek-OCR 2：让AI像人一样“带逻辑看文档”的视觉因果流革命

2026年1月27日，DeepSeek开源的DeepSeek-OCR 2模型，凭借首创的“视觉因果流”技术，为这一困境提供了突破性解法，让AI首次具备了类人逻辑的视觉理解能力。这种将1D语言因果推理与2D视觉理解结合的思路，不仅解决了复杂文档的解读难题，更为多模态AI的发展提供了新方向：未来，AI或许能像人类一样，带着逻辑与常识，灵活理解各类视觉内容。传统OCR模型的本质的是“流水线式扫描”：无论图像内容如何，都遵循从左到右、从上到下的固定顺序处理视觉信息，如同用尺子逐行丈量文档，却不懂内容间的逻辑关联。

2026-02-02 16:56:25 614

原创一文读懂Claude Skills：让AI从“通用助手”变“专业高手”

第一步访问「SKILL.md」：优先读取文件头部的description和「执行流程」模块，明确技能定位（短视频脚本生成）、执行步骤（确认需求→框架搭建→内容填充等）和场景路由规则（知识类视频的优化策略），这是AI执行任务的核心依据；根据AI输出结果，调整SKILL.md中的执行流程或语言表述，直至符合预期。加载优先级：SKILL.md（必加载）> 辅助文件（about-me.md、user-personas.md，按需加载），若辅助文件缺失，AI仅按SKILL.md逻辑执行，输出会缺乏针对性；

2026-02-02 16:55:22 609

原创 ReAct框架：让AI像人类一样边思考边行动

具体来说，它会先观察当前的情况，然后思考下一步该做什么，接着执行这个动作，再观察结果，根据结果决定下一步。在传统的AI交互中，我们与大型语言模型（LLM）的交流大多是"一问一答"式的，仅限于聊天。比如，如果问题是"帮我查询今天北京的天气，并根据天气情况预订一家评分最高的中餐厅"，LLM本身就无能为力了，因为它无法执行查询和预订这些"动作"。未来，我们可能会看到更加智能、更加自主的AI助手，它们能够理解更复杂的指令，执行更复杂的任务，甚至能够与其他AI助手协作完成更大规模的任务。面临原材料价格上涨压力。

2026-01-14 12:39:14 532

原创用 LangGraph 构建智能股票分析 Agent：从零到一的实践之路

摘要：本文介绍了一个基于LangGraph框架的股票分析智能体开发实践。该智能体能够理解自然语言查询（如"分析贵州茅台股票"），自动调用工具获取实时数据，并生成专业分析报告。核心实现包含三个部分：1）使用LangGraph进行状态图管理，定义包含查询、消息历史等关键字段的状态结构；2）设计智能体节点处理用户输入和工具调用决策；3）集成LangChain工具链和ChatOpenAI大模型。通过维护完整的对话历史（SystemMessage/HumanMessage等），系统支持多轮交互式

2026-01-13 08:19:40 738

原创 LangGraph学习笔记（一）

摘要：本文介绍了LangGraph框架，这是一个专注于智能体编排的开源工具，用于构建、管理和部署长期运行的有状态智能体。相比LangChain提供的预构建框架，LangGraph更基础，专注于持久化执行、流式处理和人机协同等核心功能。官方文档详细说明了其接口和组件，适合需要底层编排能力的开发者。

2025-12-18 17:05:49 242

原创谷歌ReasoningBank记忆系统，让AI学会自我进化

摘要： Google与伊利诺伊大学团队提出ReasoningBank记忆系统，解决AI智能体无法从历史经验中学习的核心问题。该系统通过存储成功/失败的推理策略（标题、描述、内容三元组），结合MaTTS框架进行多角度任务探索（并行扩展生成多样策略，序列扩展迭代优化），实现自我进化。实验表明，该系统在网页浏览、软件工程等复杂任务中显著提升性能，形成记忆与推理的正向循环。

2025-10-27 10:24:48 819

原创谈谈为何断更？算法工程师的日常、现实压力与破局思考

免费分享AI相关知识，这很重要最近突发奇想，想聊聊算法工程师的日常，以及为啥断更，

2025-10-03 08:46:32 377

原创别再苦苦写代码爬数据了！Cursor 接入这个MCP工具，自动抓取网页信息

这篇文章介绍了如何为AI编程助手（如Cursor）配置开源的MCP（Model Context Protocol）服务，以增强其编程能力。主要内容包括：安装Node.js环境，下载并配置firecrawl-mcp服务，设置API密钥环境变量，以及通过JSON配置文件将服务集成到AI编程助手中。最后展示了成功调用MCP服务的示例，证明该配置能有效扩展AI的外部知识获取能力。文章提供了详细的步骤说明和截图指导，适合开发者参考使用。

2025-09-09 21:25:56 574

原创免费IDE 产品来了! ! !

阿里巴巴推出AI编程助手Qoder，支持代码补全、聊天和维基化功能，可记忆开发者习惯。下载后一键导入VS Code配置，登录后每月有2000次免费调用额度。测试中，Qoder成功生成Python版超级玛丽游戏，虽依赖安装需手动调试，但反应迅速、设计文档完整。目前预览版全功能免费，体验优于Cursor等工具。

2025-09-03 11:56:51 1839

原创大模型基础知识---sft 和RLHF

监督微调（Supervised Fine-Tuning, SFT），SFT 就是监督学习，人类编写的高质量【指令-回答】，更加通俗一点就是问答对。具体就是明确token级别标签的交叉熵cross-entropy，进行监督的学习和训练。训练流程简单、收敛快，只需「输入-输出」成对数据即可端到端优化。对下游任务形式无要求，既适用于分类、翻译等判别式任务，也适用于摘要、问答等生成式任务。与预训练阶段共享同一套 Transformer 架构，无需额外网络或超参数搜索，工程成本低。局限严重依赖。

2025-08-25 11:47:09 1082

原创 Mutil-Agent的核心--上下文工程

摘要：本文探讨了上下文工程（Context Engineering）在AI智能体开发中的关键作用。随着大模型和代理框架的发展，如何在有限上下文窗口中有效管理信息成为复杂任务处理的核心挑战。文章分析了AI Agent处理复杂任务失效的根源，介绍了Cursor等先进工具采用的上下文回溯、工具调用等技术方案，并详细阐述了四种上下文管理策略：滑动窗口记录、动态摘要生成、结构化信息提取和复杂应用状态管理。作者强调，上下文工程的兴起标志着AI开发范式从离散指令优化转向连续认知生态构建，需要开发者以系统思维构建具备状态持

2025-08-05 14:51:53 535

原创一天两道面试题--大模型算法工程师（二）

公众号：求知AI这很重要，关注公众号，分享免费AI知识。

2025-07-30 13:48:25 198

原创一天两道面试题--大模型算法工程师

免费知识分享、AI相关课题研究，这很重要。

2025-07-30 11:33:25 255

原创命名实体识别关系抽取--TPLinker

其中 EH to ET 对应就能提取出，所有的实体类型，将所有的token start 和 end 对应的字符和index 返回作为实体对应的value值，将所有值存入字典Dict。最终完成了整体的编码和解码过程，该论文的核心思想，就是将命名实体识别和关系抽取进行一个解码器的吐出结果，避免误差累积，在实际应用当中，有着较好的落地效果。这是实体结束的位置。多任务学习：将实体和关系任务共享一个编码器，但多进行多任务学习时候，关系的判别会受到实体抽取结果的影响，从而会导致误差累积现象的出现。

2025-07-23 10:06:33 619

原创过拟合解决方法——样本不平衡解决方式

1.样本不平衡导致。这个是重中之重，非常非常非常非常重要2.训练集和测试集样本分布不同。3.模型太过于复杂。4.过度训练。随着本身实验的进行，对于代码实验做得较多的同学，基本上最终都能发现基本上过拟合问题都来源于数据源的问题。现代的算法序列挖掘算法，分类回归等深度学习算法发展至今已经较为成熟。无论是torch还是tensor 默认参数就已经能达到较好的效果。因此对数据本源的研究是重中之重。chatgpt的出现，能看出来现在大模型的应用得到了较好的应用。

2023-06-26 11:25:22 719

原创深度学习高阶篇----学习率调度

深度学习高阶篇----学习率调度交流学术思想，加入Q群号：815783932找到一个好的学习率非常重要，设置过高，会导致训练发散，设置过低，会导致收敛到最优解，但是花费时间刚长，更新较慢。1、幂调度将学习率设置为迭代次数t的函数，公式如下：其中初始学习率是η0，幂c一般设置为1，步骤s为超参数。根据迭代次数t可知，每一次epoch都会下降，下降为一开始迅速下降，最后越来越慢。利用keras 实现幂调度十分简单。##幂调度optimizer=keras.optimizers.SGD(le

2022-05-06 18:36:22 1280 1

原创 python XGboost回归预测算法实现和原理讲解（比赛青睐）

对经典问题波士顿房价进行回归预测一、加载波士顿数据集并观察数据的shape。from sklearn.model_selection import train_test_splitdef del_data(): #建立处理数据集的方法，便于直接带入xgboost算法 (train_data, train_targets), (test_data, test_targets) = boston_housing.load_data() print(train_data.shape)

2021-10-18 10:57:01 42215 3

原创 C++容器操作集合。vector、set、string、map、queue、stack、pair

vector 数组vector<vector<int>> name ###这样定义的数组是可变长度的vector<int> Arrayname[arraysize] ###这样是固定长度的数组容器vector 数组通过迭代器访问vecrtor<int>::iterator it;vecrtor<int>::iterator it=vi.begin(); //通过调用函数访问第一个元素的地址赋给迭代器cout&l

2021-07-08 17:09:33 370

原创 python 爬虫进阶教学selenium保存到CSV

python 爬虫进阶教学selenium保存到CSV1.首先你要下载selenium的驱动，具体驱动可以到我主页找资源，各个版本我都有各个操作系统。import requests,bs4,re,selenium.webdriver,time,csv,threading,osCHROME_DRIVER ="G:\Download\chromedriver.exe"BASE_URL = "https://movie.douban.com"CHART_URL = BASE_URL+"/chart"

2021-04-03 15:24:28 1853 2

原创 python 爬虫几句话学会爬虫

python 爬虫可以基于requests，和urlib3来进行爬取，想要写一个普通的爬虫，只需要对你要爬取页面进行简单的分析。例如：我们爬取豆瓣的电影信息。https://movie.douban.com/chart通过f12 访问console 输入 document.charset 访问这个网页用什么编码方式。下面就开始写代码定位到你要爬取的地方。import requests,bs4,re,selenium.webdriver,time,csv,threading,osBASE_

2021-04-03 14:56:39 225

原创 KNN k近邻算法（聚类算法），一篇文章搞懂（通俗解释）

KNN 聚类算法通俗定义，物以类聚，人以群分。将数据代入算法，距离较近的就是同一类，对真实的数据进行聚类。KNN的算法原理：欧几里得原理其实就是多维数据之间的绝对距离计算公式，距离近的话就会被划分为一个类别。 k值是可变的，表示投票权重，就是概率问题，算法根据概率做选择。 KNN 算法优缺点缺点：时间和空间复杂度太高了，不适合训练数据过大的。优点：理解起来很简单，入门就能学会使用。代码实现简单一点的。举一个简单的电影多分类问题根据特征。import numpy as

2021-03-30 21:49:31 2964 1

原创特征筛选，归一化操作（SelectKBest，随机森林）PCA降维

特征筛选，归一化操作（SelectKBest，随机森林）SelectKBest和卡方检验，随机森林算法降维，归一化操作。（1）读取数据，分为特征和label值。from sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import chi2import pandas as pdcontent=pd.read_csv('dynamic.csv')x=content.iloc[:,0:-1]

2021-03-28 23:38:35 7048 1

原创 python对文档的操作异常处理，os读取选定文件夹目录内容。

python对文档的操作异常处理，os读取选定文件夹目录内容。def read_file_name(): file_path=r'D:\Program Files\untitled3' file_name=[] for i in os.listdir(file_path): file_name.append(i) return file_namefile_name 返回当前文件夹的内部文件形成list列表。工程中读取文件夹许多文件会出

2021-03-28 22:59:24 295 10

原创 WEB开发访问计数规则django， set_cookie

WEB开发访问计数规则django， set_cookie您的赞赏是我不断学习的动力。 model = get_object_or_404(MODELS, pk=blog_pk) if not request.COOKIES.get('model_%s_readed' % model_pk): model.readed_num += 1 model.save()##若cookies中没有浏览到这个'model_%s_readed' % model_pk

2021-03-28 20:44:10 180

原创 python如何循环创建多个列表

python如何循环创建多个列表list = []for i in range(10): list.append([])print(list)print(list[0])循环创建出了十个列表通过list[],list[1]…访问列表

2021-03-28 17:31:28 10217 4

weixin_47324594的博客