- 博客(413)
- 资源 (20)
- 收藏
- 关注
原创 Word2Vec 揭秘:如何让计算机“理解“词语?
Word2Vec通过浅层神经网络将词语共现统计转化为低维向量,实现语义关系计算。它提供CBOW和Skip-gram两种训练模式,采用负采样和高频词降采样优化计算效率。训练后,词向量空间呈现"语义几何"特性,如"国王-男人+女人≈女王"。尽管存在一词一义、局部窗口等局限,Word2Vec奠定了现代NLP基础,为后续ELMo、BERT等模型发展铺路。其核心在于通过上下文预测任务,将语义关系编码为可计算的向量空间几何。
2026-03-18 18:37:12
230
原创 pgvector 向量数据库完全指南:PostgreSQL 生态的 AI 增强
pgvector是PostgreSQL的开源扩展,为关系型数据库添加向量相似度搜索能力。它完全集成在PostgreSQL内部,复用其存储引擎、事务机制和SQL接口,无需额外基础设施。pgvector支持两种主流索引算法:IVFFlat(适合批量导入)和HNSW(查询快、召回率高)。存储上利用PostgreSQL的TOAST机制,支持压缩和稀疏向量。作为扩展,pgvector添加了新的数据类型、操作符和函数,通过标准SQL即可进行向量操作。部署时可使用官方Docker镜像快速启动,适用于从开发到生产的环境。
2026-03-18 18:33:48
765
原创 Milvus 向量数据库完全指南:开源架构与生产级部署实战
Milvus是一款开源的云原生分布式向量数据库,采用存储计算分离架构,支持百亿级向量处理。其核心组件包括接入层、协调服务层、执行层和存储层,通过多实例部署实现高可用。数据模型采用Collection-Partition-Segment层级结构,支持多种索引算法如IVF_FLAT、HNSW等,满足不同场景下的性能需求。Milvus通过日志结构合并树优化存储,并支持水平扩展和异构计算加速,适用于大规模向量检索场景。
2026-03-18 18:09:10
540
原创 Pinecone 向量数据库完全指南:从原理到生产部署
Pinecone是一款全托管云原生向量数据库,专为机器学习应用提供高性能相似度搜索服务。其核心架构采用控制平面与数据平面分离设计,支持混合索引策略(HNSW、IVF、PQ等),实现毫秒级延迟的十亿级向量搜索。Pinecone提供零运维、高可用、实时更新的特性,支持元数据过滤与混合查询,并配备多语言SDK。用户可通过简单API快速创建索引、管理数据,无需关注底层基础设施。免费套餐适合开发测试,付费方案满足生产需求。Pinecone通过自动索引选择、内存-磁盘分层等技术优化性能,是构建AI应用的理想向量数据库解
2026-03-18 17:15:29
551
原创 数据库技术的演进与未来:从关系型到AI原生多模态时代
数据库技术从1960年代文件系统起步,经历了层次/网状模型阶段,1970年Codd提出关系模型成为现代数据库基石。1980-1990年代商业数据库兴起,2000年后NoSQL应对大数据挑战,2010年进入云原生时代。当前主流数据库分为关系型、NoSQL、NewSQL和云原生四大类,PostgreSQL增长迅速,云数据库占比超50%。AI正深度重构数据库,包括智能自治管理、向量数据库支持LLM应用等,形成从被动存储到智能引擎的转变,向量数据库成为AI基础设施的关键组件。
2026-03-18 14:25:25
881
原创 机器学习极简入门:从外卖预测到AI核心算法
作为人工智能的核心技术,机器学习正在悄无声息地重塑我们的生活:刷脸支付、短视频推荐、语音助手、自动驾驶……这些看似科幻的应用,背后都离不开机器学习。
2026-03-18 11:53:44
384
原创 技术实践:基于AI智能体的单人IT服务工作室搭建指南
1人公司低成本创业指南:AI时代IT服务新范式 2026年AI智能体元年来临,政策支持与技术进步使"1人公司"成为可行模式。本文提供年成本3万元的完整方案: 核心架构:创始人+6个AI数字员工(战略分析、技术开发、内容生产、情报搜集、项目管理、客户服务),年成本仅1.8-3万元,比传统团队节省96%。 落地步骤: 注册优选:深圳(综合最优)或海南(税收优惠) 品牌命名:如"硅基工坊",突出AI基因 数字员工配置:基于OpenClaw+CrewAI搭建全流程团队 获客渠
2026-03-16 09:56:47
909
原创 AI编程工具链四剑客:Claude Code × OpenClaw × Cursor × Trae 深度实战指南
2025-2026年AI编程工具市场进入"四国杀"时代,Cursor、Trae、Claude Code和OpenClaw各具特色。字节跳动的Trae凭借"All in One"智能体闭环、完全免费和本土化优势在国内市场表现突出,支持SOLO模式实现项目级代码生成与测试。Claude Code则专注于终端环境,提供交互式会话和批量文件处理能力。Cursor保持国际版优势,而OpenClaw开创开源智能体范式。四款工具形成互补:Trae适合快速原型和国内项目,Cursor
2026-03-13 16:50:19
1828
原创 OpenClaw:重新定义个人 AI 智能体的开源革命
深度剖析OpenClaw,使用方便的同时要备份数据以及注意安全性问题,token消耗很大请大家注意!
2026-03-13 13:03:48
955
原创 大模型向量数据库深度解析:从原理到本地化部署实战
向量数据库:核心原理与主流方案对比 本文系统介绍了向量数据库的技术原理和主流产品。向量数据库通过存储高维向量并支持相似度搜索(如余弦相似度、欧氏距离),成为AI应用的核心基础设施。与传统数据库不同,它采用近似最近邻(ANN)算法(如HNSW、IVF)实现高效检索。文章详细对比了8种主流方案:Milvus(企业级分布式)、Chroma(轻量易用)、pgvector(PostgreSQL扩展)、Faiss(高性能算法库)等,分析其架构特点、适用场景和规模限制。最后提供了本地部署指南,帮助开发者选择适合业务需求的
2026-03-10 18:49:08
134
原创 Decoder-only 架构深度解析:为什么 GPT 选择这条技术路线?
本文解析了当前主流大语言模型(如GPT-4、Llama等)普遍采用的Decoder-only架构。该架构由多层Decoder堆叠而成,核心特点是使用因果自注意力和自回归生成机制。与Encoder-only和Encoder-Decoder架构相比,Decoder-only通过三角掩码实现单向注意力,仅能访问当前位置及之前的信息,确保生成过程符合时间顺序。这种设计使其在文本生成、对话等任务中表现出色。文章通过可视化对比了不同架构的注意力机制,并提供了因果自注意力的代码实现,阐明了Decoder-only成为大模
2026-03-10 17:25:06
353
原创 大模型技术术语全景解析:从入门到精通的必备词汇表
随着 ChatGPT、Claude、通义千问等大模型的爆发式发展,AI 领域涌现了大量专业术语。对于开发者、产品经理或技术爱好者来说,理解这些术语是掌握大模型技术的基础。本文系统梳理了大模型领域核心概念、架构技术、训练方法、应用工程等维度的关键术语,帮助您建立完整的知识体系。大模型技术正处于快速发展期,新术语层出不穷。理解技术原理:深入阅读论文和技术报告高效沟通交流:与同行、社区准确讨论问题指导工程实践:做出合理的技术选型和架构设计跟踪前沿动态:快速理解新模型、新方法的核心创新。
2026-03-10 16:15:33
486
原创 pip install 原理详解:从 PyPI 到 site-packages 的完整之旅
本文深入解析了pip install命令的工作原理,揭示了Python包管理的完整流程。pip安装过程分为六个关键步骤:包名解析、索引查询、依赖解析、文件下载、构建解压和最终安装。文章详细介绍了版本约束语法、镜像源配置、Wheel文件优先级选择,以及依赖解析中的回溯算法处理版本冲突。同时讲解了pip缓存机制、下载优化策略,以及Wheel和源码构建的区别。通过理解这些底层机制,开发者能更高效地使用pip并解决安装过程中的问题。
2026-03-10 16:07:50
213
原创 通义千问开源模型全景解析:从 Qwen2.5 到 Qwen3 的架构演进
阿里巴巴通义千问系列已成为全球最大开源模型族群,截至2025年已开源200多款模型,衍生模型超10万。该系列采用Transformer+MoE混合架构,实现参数规模与计算效率的平衡。核心创新包括: 全尺寸覆盖(0.5B-235B参数)和全模态支持 MoE架构实现稀疏激活(如235B模型仅激活22B参数) 首创"思考/非思考"双模推理机制 丰富专门化模型矩阵(代码、视觉、数学等) 完善的部署支持(含苹果芯片优化版本) 旗舰模型Qwen3-235B性能达全球顶尖水平,在Chatbot Are
2026-03-10 15:30:03
2217
原创 国内主流大模型架构全景:Transformer 一统天下,非 Transformer 架构悄然崛起
国内大模型主要采用Transformer架构,但其高计算复杂度和内存占用问题催生了非Transformer路线的探索。岩芯数智的Yan架构通过MCSD和类脑激活机制实现高效训练和推理,性能优于同等参数Transformer模型,并已成功应用于机器人、医疗等领域。中科院的"瞬悉1.0"采用类脑脉冲神经网络,数据效率极高且适配国产算力。国际上的Mamba、RWKV等架构也为国内研究提供了参考。未来,Transformer仍将主导,但非Transformer路线在端侧、垂直领域和混合架构中将快
2026-03-10 15:20:34
662
原创 从RNN到Transformer:彻底改变深度学习的架构革新
本文深入比较了Transformer与RNN两种序列建模架构的本质区别。RNN通过循环连接处理序列,虽参数共享但存在梯度消失、难以并行等问题。Transformer则完全依赖自注意力机制,通过并行计算捕获全局依赖,解决了RNN的核心瓶颈。文章详细解析了Transformer的核心组件,包括多头注意力、位置编码等,并从计算方式、长距离依赖等维度进行对比。尽管Transformer面临计算复杂度高的挑战,但其并行化、全局建模等优势使其成为深度学习的主流架构,催生了BERT、GPT等预训练模型的爆发。Transf
2026-03-10 14:50:05
430
原创 算法效率的“度量衡“:一文读懂时间复杂度
摘要: 时间复杂度衡量算法执行时间随数据规模增长的变化趋势,用大O表示法描述。常见复杂度从优到劣依次为O(1)、O(log n)、O(n)、O(n²)、O(2ⁿ)等。O(1)最快,不受数据量影响;O(log n)适用于二分查找等高效算法;O(n²)在数据量大时性能急剧下降。优化代码时应避免嵌套循环,善用哈希表等数据结构降低复杂度。掌握时间复杂度能帮助预判程序性能,是程序员必备的核心概念。
2026-03-10 14:40:56
394
原创 国家网络安全事件报告管理办法
国家网络安全事件报告管理办法》的正式实施,标志着我国网络安全事件管理进入"快速响应"时代。1小时、2小时、4小时的时限要求,对网络运营者的应急响应能力提出了更高要求。建议各企业立即对照《办法》开展合规自查,完善应急预案,避免因迟报、漏报而面临法律风险。网络安全不仅是技术问题,更是法律责任。参考来源国家互联网信息办公室《国家网络安全事件报告管理办法》国家网络安全通报中心官方解读。
2026-03-10 14:13:07
421
原创 大模型文件离线部署指南
50GB文件如何用4.7GB光盘离线安装服务器 在生产服务器(特别是涉密环境)中,当需要将50GB大文件通过DVD光盘传输时,可采用分卷压缩+刻录方案: 分卷压缩: WinRAR/7-Zip:将文件分割为4.7GB分卷(约需12张DVD) Linux:用split命令分割文件 光盘刻录: 按顺序刻录分卷文件 每张光盘标注清晰序号 服务器还原: 按编号将所有分卷复制到服务器 使用对应工具合并还原完整文件 注意事项: 设置分卷大小为4.5GB确保刻录成功 低速刻录提高可靠性 保持原始文件名不变 服务器需预留足够
2026-03-10 11:01:15
412
原创 使用 VS Code 打造Vue 3 开发神器
本文整理了VSCode开发Vue 3项目的10个必备插件清单,包括:1)Vue官方插件Volar提供语法支持;2)Vue 3 Snippets快速生成代码模板;3)Auto Import自动导入;4)Path Intellisense智能路径补全;5)Prettier代码格式化;6)Error Lens行内错误提示;7)ESLint代码规范检查;8)Material Icon Theme美化文件图标;9)Vue Peek组件跳转;10)别名路径跳转工具。文章还提供了批量安装命令和推荐配置,帮助开发者打造高效
2026-03-06 17:54:55
631
原创 PyCharm2025安装开发插件
本文详细介绍了PyCharm开发环境的配置流程:1)下载安装PyCharm(注意路径避免中文和空格);2)安装通义灵码等实用插件;3)配置Python解释器;4)安装LLM开发相关依赖库(包括torch、transformers、langchain等核心库),推荐使用国内镜像源;5)处理依赖冲突的解决方案:通过pip check分析问题、强制重装特定版本、生成requirements.txt文件统一管理依赖。文中特别强调使用虚拟环境、固定版本号、选择国内镜像源等最佳实践,可有效预防90%的版本冲突问题。
2026-03-05 20:02:19
356
原创 AI 能力提升工具集
本文汇总了24款AI开发与学习工具,涵盖代码开发、算法训练、文档管理和面试准备等多个场景。核心工具包括:PyCharm/VSCode作为主力IDE,PyTorch/TensorFlow用于深度学习,HuggingFace生态支持LLM微调,LangChain构建Agent框架。国内替代方案有阿里魔搭社区替代HuggingFace、Gitee替代GitHub。环境配置推荐Anaconda管理Python环境,通义灵码和CodeGeeX提供AI编程辅助。学习资源包括LeetCode刷题、B站教程和飞书文档整理。
2026-03-05 18:23:42
265
原创 Anaconda3 配置python环境
摘要:本文介绍了Anaconda的安装与配置方法。建议从清华镜像下载较新版本安装包,并详细说明了环境变量设置步骤,包括初始化conda路径(Linux/Mac/Windows不同系统的命令)、验证安装及版本检查。同时提供了创建新Python环境的指令(如conda create -n myenv python=3.11)和常用操作命令,包括环境激活、版本查看等。对于Windows用户,推荐直接使用预配置好的Anaconda Prompt终端。
2026-03-05 17:23:10
201
原创 如何炼成 AI Agent 算法与工程专家 ?
这篇12周AI Agent专家培养计划为求职者提供了一条清晰的技能提升路径。计划分为三个阶段:前4周夯实LLM基础与算法能力,中间4周专攻AI Agent核心技术(任务规划、记忆机制等),最后4周聚焦工程落地与项目实践。课程内容完全匹配岗位JD要求,包括Transformer架构、LangChain框架、模型部署优化、云原生系统设计等核心技能。特别设计了一个综合性项目,涵盖多工具调用、记忆模块、多Agent协作等实战功能,可直接写入简历。每日建议投入5小时(理论+代码+项目+算法),通过12周系统训练,学员
2026-03-04 14:37:42
386
原创 Notepad++意外关闭临时文件
摘要:记录因意外关机导致Notepad++临时文件丢失的情况。文中提供了几个可能找回文件的目录路径:系统临时文件夹中的Notepad++目录、Windows系统临时文件夹以及用户备份目录。作者最终在某个路径下成功找回文件,并祝愿其他遇到类似问题的用户好运。全文简洁明了,主要分享了文件恢复的经验和潜在路径。(98字)
2025-12-16 15:08:15
471
原创 七步完成OCR服务私有化
在完全离线的 ARM + 昇腾 910B 服务器上,系统为 openEuler 22.03 aarch64,驱动 CANN 8.0.2,不依赖公网 pip/docker 镜像源,按顺序执行即可把 PaddleOCR 跑在 NPU 上并暴露 RESTful 接口。
2025-11-28 12:45:32
600
原创 [BUG]MarkupSafe==3.0.2
【摘要】在Windows环境下为Flask项目下载离线安装包时,执行pip download指令出现"找不到MarkupSafe==3.0.2版本"错误。错误源于包名格式不匹配,需手动修改下载的whl文件名:将"MarkupSafe-3.0.2-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl"简化为"MarkupSafe-3.0.2-cp311-cp311-linux_aarch64.
2025-09-22 16:55:59
459
原创 最新生成式人工智能服务已备案信息(2025.8)
国家互联网信息办公室关于发布生成式人工智能服务已备案信息的公告,官网是分开的,笔者辛苦合并到一起。https://www.cac.gov.cn/2024-04/02/c_1713729983803145.htm
2025-09-18 17:50:25
1114
原创 五步完成麒麟操作系统安装时钟同步服务NTP
本文介绍了配置NTP时钟同步服务器的步骤:首先检测NTP服务器1.1.1.1的123/UDP端口是否可用;然后安装ntp服务并启用;接着配置/etc/ntp.conf文件,设置优先服务器;重启NTP服务后手动同步时间,最后使用date命令验证时间准确性。整个过程确保系统时间与NTP服务器保持同步。
2025-09-17 12:58:41
880
原创 六步完成麒麟操作系统挂载本地REPO源
摘要:本文详细介绍了挂载yum本地源的步骤:1)检查ISO镜像是否挂载;2)拷贝镜像文件到指定目录;3)安装createrepo工具;4)创建本地repo;5)配置repo文件;6)清理缓存并测试。关键操作包括创建Packages目录、生成repodata、配置local.repo文件等,最后通过yum命令验证安装。适用于需要搭建本地yum源的场景。
2025-08-28 17:25:04
522
原创 但书条款与格式条款
但书条款: 但书条款是指在法律条文中,对一般规定作出例外或补充说明的条款。通常以“但”字开头,表示在特定情况下不适用一般规定。例如,《民法典》第465条第二款规定:“依法成立的合同,仅对当事人具有法律约束力,但是法律另有规定的除外。格式条款: 格式条款是指当事人为了重复使用而预先拟定,并在订立合同时未与对方协商的条款。例如,保险公司提供的保险合同条款、银行的贷款合同条款等。《民法典》第496条第一款规定:“格式条款是当事人为了重复使用而预先拟定,并在订立合同时未与对方协商的条款。
2025-02-12 18:08:47
888
原创 背靠背协议
背靠背协议,又称背靠背条款,是指在合同中约定付款方的付款时间、金额、方式等以第三方给付付款方为条件的条款。简单来说,就是合同中规定“他给我钱,我才付你钱”。这种条款在建设工程领域尤为常见,例如承包人和分包人在分包合同中约定,承包人在收到业主支付的工程款后再向分包人支付工程价款。背靠背协议在合同领域中是一种常见的条款,其核心在于将付款义务的履行与第三方的付款情况挂钩。虽然这种条款在一定程度上可以转移风险,但也存在一定的法律风险和不确定性。
2025-02-12 17:54:09
1664
原创 中小企业划型标准规定
中小企业划型标准规定为中小企业提供了明确的分类标准,有助于政策制定和实施,促进中小企业的发展。企业在进行相关业务时,应参照上述标准进行自我定位和规划。
2025-02-12 17:54:00
1368
原创 大模型量化、裁剪、蒸馏技术解析
量化适用于需要快速推理和低功耗的场景,如边缘计算设备或实时系统。裁剪适用于对模型大小有严格限制的场景,如存储空间有限的设备。蒸馏特别适用于需要高性能但计算资源有限的场景,如移动设备或嵌入式系统。
2025-02-10 17:50:54
1487
原创 DeepSeek开源模型综述与业内对比
DeepSeek开源的四个模型在各自领域都展现出了强大的竞争力。在推理速度和质量上超越了多个行业顶尖模型,适合大规模文本处理任务。在创意写作和推理任务中表现出色,能够与OpenAI的o1系列相媲美。在推理基准测试中表现优异,且计算效率更高,适合资源受限的环境。Janus-Pro在多模态理解任务和视觉生成任务中表现突出,超越了部分行业头部模型。这些模型的开源为全球开发者提供了高性能、低成本的AI解决方案,推动了人工智能技术的进一步发展。
2025-02-06 17:27:13
2060
原创 浅谈 DeepSeek
OpenAI 和微软的指控:OpenAI 和微软联合调查后声称,DeepSeek 使用了 OpenAI 的模型进行违规蒸馏,并取消了 DeepSeek 的 OpenAI API 账号。资源分配:根据硬件配置选择合适的模型版本。欧洲国家的限制:英国、法国和德国等欧洲国家对 DeepSeek 表示了关注,并开始限制其在政府设备上的使用,同时评估其数据安全性和隐私问题。舆论抹黑:社交媒体和网络上出现了大量对 DeepSeek 的负面讨论,部分美国媒体和科技界人士质疑 DeepSeek 的技术来源和安全性。
2025-02-05 16:39:06
1803
原创 春节期间最值得去的十大旅游景点
西安被誉为“中国年味最浓的城市”,春节期间的大唐不夜城、大唐芙蓉园灯会、城墙新春灯会等活动,让人仿佛穿越回盛世长安。潮汕地区是中国年味最浓的地方之一,春节期间有英歌舞巡游、舞龙舞狮等非遗活动,还能品尝到丰富的潮汕美食。以上是2025年春节期间最值得去的十大旅游景点,每个地方都有独特的年味和活动,适合不同需求的游客。泉州是闽南文化的发源地,春节期间的花灯、高甲戏表演、祈福活动等,让这里充满了浓厚的年味。大理是南方避寒游的热门选择,春节期间气候宜人,可以游览洱海、古城,感受白族的民俗文化。
2025-01-20 18:49:51
1026
原创 两种常见的采购方式
询价和招投标都是采购活动中重要的采购方式,它们在目的、流程、评审标准、供应商选择范围、合同签订以及监督和管理等方面各有特点。招投标适用于大型、复杂的采购项目,通过综合评审选择最优供应商;询价则适用于标准统一、价格透明的货物采购项目,以价格为主要考量因素,快速完成采购任务。在实际采购活动中,采购人应根据项目的具体情况和需求,选择合适的采购方式,以实现采购目标。
2025-01-17 10:32:00
1374
IPHONE 手机直播相关配置
2012-07-12
python3.7.5.tar.gz
2021-09-02
dbeaver-ce-7.1.3-x86_64-setup.exe
2020-08-04
Google SDK完整版上
2011-07-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅