姚家湾-CSDN博客

原创物模型与大语言模型

物模型和大语言模型，不是替代关系，是互补关系。物模型提供结构和确定性：清晰的对象、属性、关系大语言模型提供灵活性和理解力：自然语言交互、推理、生成Palantir的成功证明了：在AI时代，把数据转化成模型，让AI基于模型工作，才是正确路径。不要再纠结标准了。快速建模：用最简单的方式把模型建出来实战验证：在一线用起来，快速迭代AI赋能：让大模型帮你完成建模和优化模型驱动：让AI基于结构化模型进行推理物模型+大语言模型，两条腿走路。

2025-12-04 11:16:35 1614

原创构建我的第二大脑

为了不忘记，我们付出了太多你有多少绝妙的想法，却最终被遗忘？有多少真知灼见，却未能付诸行动？有多少有用的建议，随着岁月的流逝，你渐渐淡忘？我们时刻感受到学习、提升自我、不断进步的压力。我们每年花费无数时间阅读、聆听和观看信息内容。然而，所有这些宝贵的知识都去了哪里？当我们需要的时候，它们又在哪里呢？我们的大脑根本无法记住所有这些细节，因为它一次只能存储几个想法。从根本上说，**我们的大脑是用来产生想法的，而不是用来储存想法的。**

2025-10-21 06:34:33 848

原创 MAC mini /绿联NAS 上安装本地AFFiNE

本文介绍了在Mac mini和绿联NAS上安装AFFiNE的步骤。Mac上通过Docker Desktop顺利安装，包括创建文件夹、获取配置文件、启动容器等标准流程。在绿联NAS上遇到镜像拉取失败问题，通过添加docker加速器（docker.1ms.run）解决。最终均成功部署，可通过指定端口访问AFFiNE服务。作者对比了两平台安装体验，认为Mac安装过程更清晰顺畅，而NAS端需要额外调试。

2025-10-18 11:27:49 769 1

原创 AI 时代：软件面向场景

本文探讨了工具软件从传统的、功能强大的独立设计师工具（如Photoshop）向以团队协作、灵活性和开放生态为核心的新型软件模式转变的趋势。人工智能的推动下，工具软件正从封闭的数字孤岛转向支持团队协作、简洁灵活、支持第三方插件和模板开发、开源敏捷迭代的方向。Figma和Notion等新型工具软件成为典范，强调功能逐步迭代和第三方参与。作者指出，用户数据和界面应保持灵活，更多功能应通过插件和模板实现，开发者需重视生态和社区建设。

2025-10-15 08:55:28 962

原创适合老年人的AI终端

摘要：本文探讨AI技术如何通过定制化终端提升老年人生活质量。研究发现，传统平板电脑对老年人不够友好，需专门设计具有大图标、触控笔、语音交互等功能的设备。文章分析了现有产品的不足，提出应围绕视频通话、健康管理等刚需构建老年友好生态，并强调需由老年人参与设计。虽然此类项目盈利性不高，但具有重要社会价值，国外案例表明这类产品源于解决家人沟通需求。实现难点在于突破现有超级App的生态垄断。

2025-07-25 21:02:01 1895

原创如何用AI 生成论文/书籍的摘要

摘要：作者针对电脑中杂乱下载文件的管理问题，尝试用Python开发AI文件整理助手。程序通过AI大模型（doubao-1-5-pro-32k）自动提取文档摘要：对论文直接提取开头摘要；对书籍采取分段处理（前10页优先）生成介绍；普通文章根据长度选择整体或分段归纳。文中提供了PDF文本提取和AI摘要生成的代码实现，通过分块处理解决长文本输入限制，最终合并生成书籍推荐摘要。该方案为文件自动化管理提供了一种技术解决思路。

2025-07-15 15:00:39 804

原创解放脑力劳动的“蒸汽机”时刻

总觉得智能体这个名称有点怪怪的，不如叫AI 助理更加贴切。人工智能本质上是帮助人类提升能力的技术。节省时间，提升能力。如果说第一次工业革命发明了蒸汽机提升人类的体力劳动的能力，那么AI 让我们进入了脑力劳动的“蒸汽机”时刻。人类的体力劳动是多方面的，有种地，打猎，织布，奔跑等。所以，人们开发出了各种各样的机器，基本的动力就是蒸汽机。同样的，AI 给代替人类的脑力机器提供了基本的引擎。针对各种各样的脑力劳动，我们需要开发出各种AI 助理工具。这些工具一定是面向某一个场景，专业化的工具。

2025-07-02 15:03:28 266

原创关于记忆的思考（2）

在我的上一篇博文中，花了比较多的篇幅讨论记忆。本博文记录我更进一步对记忆的理解。

2025-06-25 17:58:54 1000

原创关于记忆（memory）

人类的大脑除了推理能力之外，还有另一个重要的能力，就是记忆。如果人们失去了记忆，推理能力也会大打折扣。如何提升AI 的记忆能力是一个非常重要的课题。我们要从生命科学中获得启发。

2025-06-23 07:11:08 1496

原创从技术狂飙到价值落地的深度思考

当 AI 技术不再满足于在实验室里创造 “奇迹”，而是扎根于解决粮食安全、疾病防治、教育公平等真实问题时，其价值才能真正被释放。从书籍翻译到信息萃取，这些案例揭示了一个真理：AI 的刚需，从来不是技术本身的炫酷，而是它能为社会创造多少 “不可替代” 的价值。唯有怀揣改变世界的愿景，才能让 AI 从一场技术狂欢，蜕变为推动人类进步的真正动力。

2025-06-20 11:30:47 1160

原创 AI时代的webRTC

WebRTC技术正从传统音视频通信向AI领域拓展，被OpenAI、ROS2、英伟达等应用于大模型实时交互。但直接将WebRTC与大模型连接缺乏竞争力，更合理的架构是引入AI Agent作为中间层，负责模型调度、本地STT/TTS转换及多场景服务整合（MCP）。AI Agent可本地部署保障隐私，支持Python等语言实现。未来语音助手可能成为第二终端，而WebRTC与AI Agent的结合将为教育、医疗等领域提供差异化解决方案。

2025-06-17 15:41:59 937

原创关于OpenAI 硬件思考之二

网络上流传着许多OpenAI硬件设备的谍照出来：我谈谈关于OpenAI 硬件的看法，包括下面一些问题：智能手机如此强大和普及，完全可以作为AI 的终端设备来使用，为什么还需要另外一个硬件设备？这是一个最尖锐的问题。比如老人和儿童，他们不适合操作复杂的手机屏幕，LLM 终端简单的语音对话方式更受欢迎。当然也有一些特殊爱好者，更喜欢使用语音交互方式ChatAI 设备一定是穿戴式的么？我认为AI 语音终端不一定是穿戴式的，尽管它们看起来很酷。需要带多少传感器？硬件平台低价格方案ESP32。

2025-06-09 08:45:47 626

原创未来的AI 终端

最近OpenAI 传出新闻，OpenAIio，这是一家硬件公司，由前苹果设计总监 Jony Ive 和他任职期间的其他几位工程师创立，其中包括 Scott Cannon、Evans Hankey 和 Tang Tan。这笔交易价值近 65 亿美元。作为此次收购的一部分，约有 55 名硬件工程师、软件开发人员和制造专家将加入 OpenAI，其中包括 Cannon、Hankey 和 Tan。收购后的首批设备预计将于 2026 年推出。下面是网络上露出的OpenAI AI 设备的概念机。最终产品会有改动。

2025-06-04 15:45:47 1283

原创谈AI/OT 的融合

是一个平台，旨在帮助开发者为物理 AI 系统大规模构建自定义世界模型。它为从数据管理到训练再到定制的每个开发阶段提供开放世界基础模型和工具。

2025-05-12 20:51:41 1137

原创迪士尼机器人BD-X 概况

的研究和幻想工程部门利用人工智能技术 (AI)开发的现实世界机器人，这是他们与 NVIDIA 和AI 实验室合作的一部分。最初的机器人开发不到一年，用两个操纵杆手动操作，但它们比迪士尼现有的电子动画系统更复杂，因为幻想工程师使用基于艺术家动画的强化学习，让机器人通过实时模拟在各种地形上导航时以模仿的动作移动。每个机器人都有两台 NVIDIA Jetson 电脑，头部和颈部有 4 个执行器，每条腿有 5 个执行器。每个单元都由 3D 打印的组件、传感器、摄像头和 LED 组成。

2025-05-08 11:32:21 1640

原创使用英伟达 Riva 和 OpenAI 构建 AI 聊天机器人

最多 275 个 TOPS15-60W起价 899 美元。

2025-05-07 15:21:36 1468

原创闲聊人工智能对媒体的影响

技术总是不断地改变信息的传播方式。互联网促进了社交媒体的蓬勃发展。网络媒体成为主流。大语言模型为代表的人工智能的出现，又会对媒体传播带来怎样的改变呢？媒体的演变反映了社会和技术的演变。人工智能(AI) 将继续对整个媒体行业产生变革性的影响。在这个行业中，其最重要的三大功能是和。

2025-04-22 08:48:08 1060

原创 AI时代，该做点什么？

传统的信息系统擅长处理语法/语义严格定义的数据，这些数据采取XML，JSON 格式定义，为了实现数据的共享，对数据格式和交互协议制定了各种标准。大语言模型就像钢笔，橡皮，字典类似，是一个万能文具盒，而使用这个工具盒的场景是碎片化的。大语言模型能够有效地提升人类的写作能力，人类不需要纠结文字表达的细节，只需要能简单的口语表达自己的想法，AI就可以生成十分专业的文章。按照你的想法，撰写文章。AI 使翻译的成本大幅度下降，大批量翻译国外优秀的著作和影视作品将使人们能消除语言的隔阂，更加全面，准确地了解世界。

2025-04-17 17:40:16 765

原创 AI 给我们带来了什么？

人们对大语言模型的看法是复杂而矛盾的。一方面，人们惊叹于AI技术的巨大威力及其对未来发展的深远影响；另一方面，又困惑于AI在实际应用中的具体落地场景。有人认为AI更适合企业服务（2B），有人则看好消费者市场（2C），还有人主张先2C后2B。一个被誉为“最伟大的发明”为何难以找到明确的应用方向？这是一个值得深思的问题。要回答这个问题，我们首先需要探讨AI究竟能做什么，以及它能为我们带来哪些实际价值。

2025-04-17 11:13:49 1206

原创 MAC Mini M4 上测试Detectron2 图像识别库

断断续续地做图像识别的应用，使用过各种图像识别算法，一开始使用openCV 做教室学生计数的程序。以后又使用YOLO 做医学伤口检测程序。最近，开始使用meta 公司的Detectron2.打算做OCR 文档结构分析

2025-04-14 14:52:25 831

原创 qwen-vl 实现OCR的测试

文本识别，也称为光学字符识别 (OCR)，可以将印刷文本或手写文本转换为易于编辑、搜索和分析的数字格式。它涉及分析文本图像并识别其中包含的字符和单词。深度学习彻底改变了文本识别，显著提升了准确性和性能。目前已有多种基于深度学习的文本识别方法。使用深度学习进行文本识别卷积神经网络 (CNN)：CNN 通常用于基于图像的文本识别。输入图像由卷积层驱动，提取特征并学习文本表征。然后，CNN 的输出被传递到循环神经网络 (RNN) 进行进一步处理和文本识别。

2025-04-11 20:15:30 2632

原创 AI 时代，我们该如何写作？

当ChatGPT/DeepSeek能在几秒钟内产出一篇文章，而且生成能力日益精进，你是否也曾思考，我还能做什么？但是很少有人评论。但是人类读者却少了。我之前写一些小众的自动化行业的内容，现在写AI技术领域的内容，可能人们对我写的博文不感兴趣。无论如何，这是令人沮丧的事情，我到底为什么写博客？为谁而写？写什么？如果自己写的文章仅仅是为了向AI 大语言模型训练语料的话。似乎没有什么意义在写了。

2025-03-29 21:02:09 1226

原创 MCP 学习笔记（1）

AI 时代的新鲜事层出不穷，MCP（Model Context Protocol）又火了起来。Anthropic 于 2024 年 11 月推出了，这是 LLM 与各种数据源之间数据交换的开放标准。该协议为 LLM 提供了一种简化的方法，可以与工具和服务集成以执行任务，例如在本地系统上搜索文件、访问 GitHub 存储库以编辑文件以及简化与外部平台的交互。如何理解模型上下文协议这个名称？我一直主张将context 翻译成“，MCP 翻译成大模型脉络协议。比较容易理解，MCP 协议是大模型应用中信息。

2025-03-28 14:28:02 1274

原创每个人的“大模型”

几乎每个人都在谈人工智能和大语言模型，其实，我们每一个人都拥有一个独一无二的“大语言模型”，就是我们的大脑。我们不妨称它为人类大模型（human LLM），相比而言，人工大模型称为人工智能大模型（AI LLM）。闲下来深入地思考人类大模型和AI 大模型之间的相似性和差别是非常有意思的事情，而且引发我们更深入的思考。

2025-03-20 15:29:26 1014

原创播客的未来

一个似乎迫在眉睫的趋势是播客小额支付的演变和兴起。不难想象，未来播客可以完全融入这些类型的多媒体体验，为听众创造更加身临其境、更具吸引力的体验。随着世界变得越来越互联，技术也不断发展，越来越多的人可能会将播客作为信息、娱乐和联系的来源。想象一个世界，你可以告诉你的人工智能助手你想要什么，它会推荐符合这个标准的播客。随着技术的不断发展以及对个性化和沉浸式媒体体验的需求不断增长，播客的受欢迎程度和影响力很可能会继续增长。未来十年，这种媒体将如何适应和发展，以及将出现哪些新趋势和创新，这将是一个有趣的话题。

2025-03-17 09:56:36 414

原创 Gradio ，一个实用的大模型界面

Gradio是的开源项目，GitHub 28k+ star。能够方便地构建AI应用的网页界面。最大的优点是简便。对于不熟悉前端的程序员，能够迅速地构建基于web的AI应用。

2025-03-15 15:46:35 635

原创 sparkTTS window 安装

下载cuda 12.4.

2025-03-10 21:40:29 3494 1

原创 Apple 播客统计数据

其次是社会和文化类别，播客数量超过 380 万集，其次是商业类别，播客数量为 340 万集。Apple Podcasts 吸引了许多年龄段的听众，但其听众中 35-54 岁年龄段的听众比例最高，为 43%。然而，这个年龄段的听众已经是收听播客的第二大人群。Apple Podcasts 是 2024 年第二受欢迎的播客收听应用程序，总市场份额为 26.9%。对于播客创作者来说，它提供了广泛的选择来放置他们的节目。Apple Podcasts 上有 71,131,238 集，但不同类别的集数不同。

2025-03-03 10:49:52 1706

原创 Python 调用 iTunes 搜索 API

尝试了许多种方法收集播客的数据，最后发现还是itunes 上的数据比较靠谱，spotify ，喜马拉雅，小宇宙这些播客平台相对比较封闭，文档也有限。listener notes 等播客搜索平台都是收费的。本博客记录使用Python 通过itunes search API 搜索播客信息的方式。

2025-03-02 11:00:06 832

原创全球播客数据（2024 年新数据）

在某种程度上可以预见的是，与许多媒体形式一样，疫情在 2020 年推高了播客数量。然而，新播客的数量最近有所下降。尽管如此，确切的数字可能会因多种因素而有很大差异，最明显的是包含不活跃的播客。2020 年与疫情相关的激增推动了播客领域的发展，但疫情前的上升轨迹仍然持续。一半的播客节目在发布后的第一周下载量不到 29 次。在过去十年的大部分时间里，新播客的数量逐年增加。然而，Audible 上的播客数量是无声读物的。并且播客的数量在不久的将来可能还会继续增长。播客行业的发展自然带来了播客数量的增加。

2025-02-26 20:10:58 1769

原创基于大语言模型的推荐系统（2）

本博文继续研究如何利用大语言模型（LLM）来构建播客推荐系统。DeepSeek 笔记：推荐的spotify listener 记录格式从上面的信息中，截取一部分重要的部分，构建一个用户记录。用户收听历史(UserListenHistory)关注的播客(UserFllowingPodcast）History ，Follow，Like 的列表可以数组的方式存储在听众表中播客表（Podcast）节目表（Epicodes）推荐算法使用Embedding 模型，

2025-02-26 10:49:55 1131

原创相似性搜索（2）

的主要用途是计算两个向量或矩阵之间的线性核（Linear Kernel），也就是它们的点积（dot product）。它在机器学习和数据科学中常用于衡量样本之间的相似性，尤其是在使用核方法（Kernel Methods）或支持向量机（SVM）时。如果你的数据是线性可分的，或者你需要一个高效的相似性度量方法，这里的输出是一个相似性矩阵，其中每个元素 (i,j)(i,j) 表示 XX 中第 ii 个样本与 YY 中第 jj 个样本的点积（即线性核值）。如果数据是非线性可分的，线性核可能无法捕捉复杂的模式。

2025-02-24 10:40:15 897 1

原创矢量数据库 Milvus

2022 年，Milvus 支持十亿级向量，2023 年更是稳定扩展到数百亿，为超过 300 家大型企业的大规模场景提供支持，包括 Salesforce、PayPal、Shopee、Airbnb、eBay、NVIDIA、IBM、AT&T、LINE、ROBLOX、Inflection 等。Milvus 捕获数据变化 (CDC) Milvus-CDC 可以捕获并同步 Milvus 实例中的增量数据，并通过在源实例和目标实例之间无缝传输业务数据来确保业务数据的可靠性，从而轻松实现增量备份和灾难恢复。

2025-02-23 11:22:47 1382

原创基于chroma 数据库和千问embedding 的相似性搜索

Vector DB 的一些示例包括：Chroma、Pinecone、Weaviate、Milvus、AwaDB、DeepLake、BagelDB 等。嵌入数据库，可用于存储嵌入及其元数据、嵌入文档和查询以及搜索嵌入。上面的例子中使用的是sentence-transformers。我们感兴趣的是使用openai 或者其它大模型实现embedding 是否更好，网络上介绍阿里的千问。Chroma 提供了自己的 Python 以及 JavaScript/TypeScript 客户端 SDK，可用于连接到 DB。

2025-02-23 10:17:47 930

原创基于大语言模型的推荐系统（1）

推荐系统是非常重要的，事实上，搜索引擎，电子商务，视频，音乐平台，社交网络等等几乎所有互联网应用的核心就是向用户推荐内容，商品，电影，音乐。推荐系统几乎无处不在。传统的推荐系统就是依据各种数学算法实现，伴随着推荐系统的发展，也催生了人工智能技术的发展。推荐技术的核心就是AI。这就不难理解，为什么像Google，Meta 这样的公司会如此重视发展AI技术。目前的许多推荐系统内部是基于各种神经网络，深度学习技术实现。例如Tiktok 的推荐系统就是基于tensorFlow 构建的AI 模型。

2025-02-21 15:53:35 1833

原创 TensorFlow LiteRT 概览

LiteRT（简称 Lite Runtime，以前称为 TensorFlow Lite）是 Google 面向设备端 AI 的高性能运行时。您可以找到适用于各种机器学习/AI 任务的 LiteRT 就绪模型，也可以使用 AI Edge 转换和优化工具将 TensorFlow、PyTorch 和 JAX 模型转换为 TFLite 格式并运行。

2025-02-19 09:20:25 1963

原创 Spotify AI 技术（1）使用 TensorFlow 和 TF-Agents

我们的许多音乐推荐问题都涉及为用户提供有序的项目集，以满足用户在那个时间点的收听偏好和意图。我们根据以前与应用程序的交互来提供当前的推荐，抽象地说，由于我们不断向用户推荐内容，因此我们面临着一个连续的决策过程。强化学习（RL）是一种成熟的顺序决策工具，可用于解决顺序推荐问题。我们决定探索如何使用 RL 为用户打造聆听体验。在我们开始训练代理之前，我们需要选择一个 RL 库，使我们能够轻松地构建原型、测试和部署我们的解决方案。在 Spotify，我们将TensorFlow。

2025-02-19 09:06:51 1355

原创利用人工智能增强可读性：自动为文本添加标点符号

在数字通信时代，文本的清晰度和可读性至关重要。无论是转录口语、处理原始文本数据还是改进用户生成的内容，标点符号在传达预期信息方面都起着至关重要的作用。但是，手动编辑文本以添加标点符号可能非常耗时且容易出错。这就是人工智能 (AI) 发挥作用的地方，它提供了一种强大的解决方案，可以自动将标点符号插入句子中。目前，利用大模型的能力，完全可以胜任添加标点符号的工作，不需要其它特别的处理程序。

2025-02-15 10:44:00 1225

原创解决whisper 本地运行时GPU 利用率不高的问题

3 最关键的是在model.transcribe的参数中设置 beam_size = 5，一下子GPU 的利用率到了20%，当beam_size = 8 时，GPU 利用率可达30%左右。我在windows 环境下本地运行whisper 模型，使用的是nivdia RTX4070 显卡，结果发现GPU 的利用率只有2%。beam size（又名 beam width）控制生成输出时每个步骤中探索的路径数。表示我的cuda 是可用的。2 使用小的whisper 模型，我使用。下面是我完整的测试程序。

2025-02-02 19:57:22 1727

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

开放流程自动化论坛OPAF白皮书

IEC61499-2-2012.pdf

信息物理系统建设指南（2020）

IEC 61499-1-2012.pdf

《梯形图的FPGA 实现》

（正版标准）ISO_IEC8825-1-2008.pdf

空空如也