- 博客(209)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 Faiss:大规模向量相似度检索
Faiss的全称是,是Meta(原Facebook)AI研究院针对大规模向量相似度检索问题开发的开源工具库。高性能:使用C++编写,底层做了大量优化(如SIMD指令、GPU并行计算),对10亿量级的索引可以做到毫秒级检索多语言支持:虽然核心是C++,但提供了简洁易用的Python接口,对Python开发者非常友好索引类型丰富:支持Flat、IVF、HNSW等多种索引结构,可根据数据量和精度需求灵活选择GPU加速:部分索引支持GPU构建和查询,速度比CPU版快10-100倍。
2026-03-22 12:05:37
617
原创 分词核心逻辑+BERT实操全指南
方式1:临时追加单个词汇jieba.add_word("自然语言处理", freq=1)# 方式2:批量加载自定义词典文件(my_dict.txt,格式:词汇 词频)text = "自然语言处理是人工智能的核心方向"print("自定义分词结果:", tokens)自定义分词结果: ['自然语言处理', '是', '人工智能', '的', '核心', '方向']LLM的Tokenizer核心输出是Token序列(最小语义单元)和Token ID序列(词汇表索引);
2026-03-09 13:26:43
546
原创 静态Embedding v.s. 动态上下文Embedding:NLP词向量的本质差异与落地全解
一个词在词汇表中对应唯一、固定的向量,预训练完成后就不再变化,和词出现的上下文语境完全无关。简单说:不管「苹果」出现在「我吃了一个苹果」还是「我买了一部苹果手机」里,静态Embedding都会给它输出完全相同的向量。没有固定的词-向量映射关系,同一个词会根据它所在的上下文语境,动态生成不同的语义向量。简单说:「苹果」在水果语境和手机语境里,会生成两个完全不同的向量,精准匹配当前语境的语义。核心必问:静态Embedding和动态Embedding最本质的区别是什么?标准答案:核心区别是。
2026-03-08 22:27:29
621
原创 字节跳动RAG实践手册
字节跳动的RAG系统通常采用分层架构设计,主要包括数据层、索引层、检索层和生成层,如下图所示:fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;用户界面生成层检索层索引层数据层数据层(Data):负责存储和管理外部知识库中的数据,包括结构化数据(如数据库中的表格)、半结构化数据(如XML、JSON文件)和非结构化数据(如文本文件、PDF文档)
2026-03-02 15:25:00
1170
原创 LLM Powered Autonomous Agents,大语言模型赋能的自主智能体
ReAct的全称是(思考+行动),由Google Research团队于2022年在论文《ReAct: Synergizing Reasoning and Acting in Language Models》中提出。让LLM像人类解决问题一样,“边想边做”——通过交替进行“思考(梳理思路、明确下一步)”和“行动(执行操作、获取反馈)”,逐步逼近问题答案,而不是一次性输出最终结果。
2026-02-26 11:44:48
1162
原创 Building Systems with the ChatGPT API(基于 ChatGPT API 构建系统)
Prompt Injection,即提示词注入,是攻击者通过构造精心设计的恶意提示词,干扰、篡改甚至完全覆盖大语言模型的预设系统指令和执行逻辑,让模型违背开发者的原始设计意图,执行非授权操作、生成有害内容或泄露敏感信息的一种攻击方式。大语言模型对用户输入的“无差别语义理解”特性——常规LLM应用中,模型会同时接收开发者设置的系统指令system,定义模型的角色、功能、行为边界)和用户输入user。
2026-02-21 11:40:20
1001
原创 ChatGPT Prompt Engineering for Developers(面向开发者的Prompt工程)
本文介绍了优化大型语言模型(LLM)提示词的两大核心原则:编写清晰具体的指令和给予模型充分思考时间。通过使用分隔符、结构化输出、条件检查和示例演示等策略,可以显著提升模型输出质量。文章还探讨了模型可能产生"幻觉"的局限性,并通过"从产品说明书生成营销文案"的实例,展示了提示词迭代优化的完整流程:从初始版本到针对文本长度问题的优化方案,最终实现简洁有效的输出。研究表明,结构化输出既能约束模型边界,又能提升人类使用效率,而精准控制输出长度仍需进一步优化分词处理机制。
2026-02-03 22:41:04
982
原创 Python变量命名规则
Python 变量命名规范指南本文系统讲解了 Python 变量命名的核心原则,分为三部分:硬性规则:必须包含字母/数字/下划线,区分大小写,避免关键字"三要"原则:命名要体现实际作用、要自解释、函数名要明确功能"三不要"原则:不要自造缩写、不要忽略英文语法、不要滥用下划线文章强调变量命名直接影响代码可读性和维护性,推荐使用蛇形命名法(snake_case),并针对函数名、类名等不同场景给出命名建议。通过正反例对比,帮助开发者写出更专业、易维护的代码。
2025-09-12 11:32:19
2705
原创 Lazy Loading:高效资源管理的艺术
🎉是一种非常实用的技术,它通过“按需加载”的方式,有效节省了内存和初始化时间。虽然它可能会增加磁盘 I/O 开销,但在处理大规模数据或资源受限的场景中,懒加载的优势非常明显。
2025-02-24 10:34:12
1322
原创 大模型参数量计算说明(B、bit、byte、bytes、参数量、llama3、GB、GiB)
关键字:B、bit、byte、bytes、参数量、llama3、GB、GiB
2025-02-07 16:42:23
4453
原创 VSCode注释高亮(# NOTE;# TODO;# FIXME;#XXX;# HACK;# BUG)
# NOTE;# TODO;# FIXME;#XXX;# HACK;# BUG
2025-01-17 11:43:29
1276
原创 vim基本命令(vi、工作模式、普通模式、插入模式、可视模式、命令行模式、复制、粘贴、插入、删除、查找、替换)
vi、工作模式、普通模式、插入模式、可视模式、命令行模式、复制、粘贴、插入、删除、查找、替换
2025-01-13 23:40:02
2969
原创 Linux常用命令大全(内置命令、硬件相关、解压/压缩相关、Python相关、安装软件相关、vim相关、screen相关、传输文件/文件夹相关、docker相关、Git相关)
内置命令、硬件相关、解压/压缩相关、Python相关、安装软件相关、vim相关、screen相关、传输文件/文件夹相关、docker相关、Git相关
2025-01-13 22:00:53
421
原创 Python中的装饰器(decorator、修饰器、上下文管理器、wrapper、wraps、classmethod、staticmethod、property、contextmanager)
decorator、修饰器、上下文管理器、wrapper、wraps、classmethod、staticmethod、property、contextmanager、__enter__、__exit__
2025-01-06 15:07:05
1469
原创 理解Transformer(Tokenizer、one-hot、Token、Word2Vec、词嵌入、词向量、Embedding、Q、K、V、自注意力,交叉注意、多头注意力、位置编码、掩码)
关键词:Tokenizer、one-hot、Token、Word2Vec、词嵌入、词向量、Embedding、Q、K、V、自注意力,交叉注意、多头注意力、位置编码、掩码
2024-09-24 12:03:27
4750
4
原创 YOLO-World源码实战:三种微调方式(normal fine-tuning、prompt tuning、Re-parameterized fine-tuning)。
YOLO-World源码实战:包含三种微调方式(normal fine-tuning、prompt tuning、Re-parameterized fine-tuning)的使用示例和真实代码。
2024-07-04 13:57:08
13594
162
原创 argparse常用语法解析与示例代码(action=store_true、choices=[ ]、nargs=?/+/*)
action=store_true、choices=[ ]、nargs=?/+/*
2024-07-01 13:50:16
1193
原创 Python中的pathlib和Path(面向对象的文件系统路径操作库)
一种内置的面向对象的文件系统路径操作库,本篇文章介绍了Path中的常见的属性和方法,并给出了代码示例。
2024-06-06 11:06:32
6884
原创 YOLOv8初学者手册(Detect、Segment、Classify、OBB、Pose)
关键词:Detect、Segment、Classify、OBB、Pose
2024-04-29 17:56:00
15342
原创 Windows常用快捷键(效率、组合键、文字编辑、文件、Home、End、Delete)
关键字:效率、组合键、文字编辑、文件、Home、End、Delete
2024-04-04 22:17:23
14896
3
原创 正则表达式@Python(Regular Expression、Re、Regex、正则、查找、替换、通配符、模式、DOTALL、Multiline、M、re.DOTALL、re.M)
关键词:Regular Expression、Re、Regex、正则、查找、替换、通配符、模式、DOTALL、Multiline、M、re.DOTALL、re.M
2024-03-30 15:38:44
1766
原创 〔理论与代码分析〕Fast-SCNN:Fast Semantic Segmentation Network(语义分割、经典网络、速度、高效、实时)
理论与代码分析:Fast-SCNN:Fast Semantic Segmentation Network关键词:语义分割、经典网络、速度、高效、实时
2024-03-15 11:58:57
3643
原创 如何在VSCode中带有参数的Debug(name、program、$file、args、pickArgs、指定虚拟环境)
关键字:name、program、$file、args、pickArgs、指定虚拟环境
2024-02-23 11:53:35
17516
4
原创 〔Part2〕YOLOv5:原理+源码分析--训练技巧(warm-up、AutoAnchor、hyper、GA、AMP、autocast、gradscaler、dist、DDP、node)
关键字:warm-up、warm up、autoanchor、auto、anchor、hyper、ga、evolve、amp、autocast、gradscaler、float、fp16、fp32、dist、dp、ddp、node、syncBN、通讯协议
2024-02-21 12:02:11
3898
1
原创 AMP训练(Automatic mixed precision、training、autocast、GradScaler、scale、unscale、DP、DDP)
关键词:Automatic mixed precision、training、autocast、GradScaler、scale、unscale、DP、DDP
2024-02-07 17:33:40
4549
原创 shell脚本基础语法(.sh ./ sh bash source shell)
关键词:.sh ./ sh bash source shell
2024-02-06 16:53:36
4427
原创 〔Part1〕YOLOv5:原理+源码分析(配置文件、网络模块、损失函数、跨网格匹配策略)
1. 配置文件2. 网络模块3. 损失函数4. 跨网格匹配策略
2024-02-05 11:20:35
8787
1
原创 PyTorch2ONNX-分类模型:速度比较(固定维度、动态维度)、精度比较
PyTorch2ONNX-分类模型:速度比较1. 固定维度 v.s. 动态维度 v.s. PyTorch2. 单Batch v.s. 多Batch3. 精度比较
2024-01-29 16:49:34
2759
原创 labelImg 修改不同类别的颜色(点大小、标签大小、框角)+ 打包为.exe文件 + 解决闪退bug
KeyWords:点大小、标签大小、框角
2023-12-14 20:30:34
3701
1
原创 RGB颜色大全(HEX、对照表、Matplotlib、plt、好看的颜色)
KeyWords:HEX、对照表、Matplotlib、plt、好看的颜色
2023-12-14 20:27:24
35331
2
原创 常用脚本-持续更新(文件重命名、视频抽帧、拆帧、删除冗余文件、yolo2xml、转换图片格式、修改xml)
常用脚本-持续更新(文件重命名、视频抽帧、拆帧)
2023-11-23 15:53:21
1261
原创 目标检测评价指标说明(MS COCO、Metrics、AP、mAP、AR、IoU、置信度、Confidence、TP、FP、TN、FN、pycocotools)
目标检测评价指标说明关键词:MS COCO、Metrics、AP、mAP、AR、IoU、置信度、Confidence、TP、FP、TN、FN、pycocotools
2023-10-25 11:10:54
11635
6
原创 Office技巧(持续更新)(Word、Excel、PPT、PowerPoint、连续引用、标题、模板、论文)
Office技巧(持续更新)Key Word:Word、Excel、PPT、PowerPoint、连续引用、标题、模板、论文
2023-10-23 11:46:26
1626
《2. Seaborn及练习案例》配套数据集
2023-04-21
《1. 机器学习前置知识》配套数据集
2023-04-08
AlexNet.zip
2021-10-04
VSCode 运行 Python 时报错用不同颜色区分。
2023-08-16
Edge浏览器点击超链接后如何跳回?
2022-05-16
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅