Le0v1n-CSDN博客

原创 Faiss：大规模向量相似度检索

Faiss的全称是，是Meta（原Facebook）AI研究院针对大规模向量相似度检索问题开发的开源工具库。高性能：使用C++编写，底层做了大量优化（如SIMD指令、GPU并行计算），对10亿量级的索引可以做到毫秒级检索多语言支持：虽然核心是C++，但提供了简洁易用的Python接口，对Python开发者非常友好索引类型丰富：支持Flat、IVF、HNSW等多种索引结构，可根据数据量和精度需求灵活选择GPU加速：部分索引支持GPU构建和查询，速度比CPU版快10-100倍。

2026-03-22 12:05:37 617

原创分词核心逻辑+BERT实操全指南

方式1：临时追加单个词汇jieba.add_word("自然语言处理", freq=1)# 方式2：批量加载自定义词典文件（my_dict.txt，格式：词汇词频）text = "自然语言处理是人工智能的核心方向"print("自定义分词结果：", tokens)自定义分词结果： ['自然语言处理', '是', '人工智能', '的', '核心', '方向']LLM的Tokenizer核心输出是Token序列（最小语义单元）和Token ID序列（词汇表索引）；

2026-03-09 13:26:43 546

原创静态Embedding v.s. 动态上下文Embedding：NLP词向量的本质差异与落地全解

一个词在词汇表中对应唯一、固定的向量，预训练完成后就不再变化，和词出现的上下文语境完全无关。简单说：不管「苹果」出现在「我吃了一个苹果」还是「我买了一部苹果手机」里，静态Embedding都会给它输出完全相同的向量。没有固定的词-向量映射关系，同一个词会根据它所在的上下文语境，动态生成不同的语义向量。简单说：「苹果」在水果语境和手机语境里，会生成两个完全不同的向量，精准匹配当前语境的语义。核心必问：静态Embedding和动态Embedding最本质的区别是什么？标准答案：核心区别是。

2026-03-08 22:27:29 621

原创字节跳动RAG实践手册

字节跳动的RAG系统通常采用分层架构设计，主要包括数据层、索引层、检索层和生成层，如下图所示：fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;用户界面生成层检索层索引层数据层数据层（Data）：负责存储和管理外部知识库中的数据，包括结构化数据（如数据库中的表格）、半结构化数据（如XML、JSON文件）和非结构化数据（如文本文件、PDF文档）

2026-03-02 15:25:00 1170

原创 LLM Powered Autonomous Agents，大语言模型赋能的自主智能体

ReAct的全称是（思考+行动），由Google Research团队于2022年在论文《ReAct: Synergizing Reasoning and Acting in Language Models》中提出。让LLM像人类解决问题一样，“边想边做”——通过交替进行“思考（梳理思路、明确下一步）”和“行动（执行操作、获取反馈）”，逐步逼近问题答案，而不是一次性输出最终结果。

2026-02-26 11:44:48 1162

原创 Building Systems with the ChatGPT API（基于 ChatGPT API 构建系统）

Prompt Injection，即提示词注入，是攻击者通过构造精心设计的恶意提示词，干扰、篡改甚至完全覆盖大语言模型的预设系统指令和执行逻辑，让模型违背开发者的原始设计意图，执行非授权操作、生成有害内容或泄露敏感信息的一种攻击方式。大语言模型对用户输入的“无差别语义理解”特性——常规LLM应用中，模型会同时接收开发者设置的系统指令system，定义模型的角色、功能、行为边界）和用户输入user。

2026-02-21 11:40:20 1001

原创 ChatGPT Prompt Engineering for Developers（面向开发者的Prompt工程）

本文介绍了优化大型语言模型（LLM）提示词的两大核心原则：编写清晰具体的指令和给予模型充分思考时间。通过使用分隔符、结构化输出、条件检查和示例演示等策略，可以显著提升模型输出质量。文章还探讨了模型可能产生"幻觉"的局限性，并通过"从产品说明书生成营销文案"的实例，展示了提示词迭代优化的完整流程：从初始版本到针对文本长度问题的优化方案，最终实现简洁有效的输出。研究表明，结构化输出既能约束模型边界，又能提升人类使用效率，而精准控制输出长度仍需进一步优化分词处理机制。

2026-02-03 22:41:04 982

原创 Python变量命名规则

Python 变量命名规范指南本文系统讲解了 Python 变量命名的核心原则，分为三部分：硬性规则：必须包含字母/数字/下划线，区分大小写，避免关键字"三要"原则：命名要体现实际作用、要自解释、函数名要明确功能"三不要"原则：不要自造缩写、不要忽略英文语法、不要滥用下划线文章强调变量命名直接影响代码可读性和维护性，推荐使用蛇形命名法(snake_case)，并针对函数名、类名等不同场景给出命名建议。通过正反例对比，帮助开发者写出更专业、易维护的代码。

2025-09-12 11:32:19 2705

原创 tmux使用说明（会话、screen、 nohup、&）

关键字：会话、screen、 nohup、&

2025-07-02 14:18:22 868

原创将docker容器打包为.tar包

关键字：docker、.tar、docker load -i、images、container

2025-03-03 15:49:09 1154

原创 Lazy Loading：高效资源管理的艺术

🎉是一种非常实用的技术，它通过“按需加载”的方式，有效节省了内存和初始化时间。虽然它可能会增加磁盘 I/O 开销，但在处理大规模数据或资源受限的场景中，懒加载的优势非常明显。

2025-02-24 10:34:12 1322

原创 LLM基础概念（RAG、微调流程、Prompt）

Keywords：LLM基础概念（RAG、微调流程、Prompt）

2025-02-20 15:58:53 2097 1

原创大模型参数量计算说明（B、bit、byte、bytes、参数量、llama3、GB、GiB）

关键字：B、bit、byte、bytes、参数量、llama3、GB、GiB

2025-02-07 16:42:23 4453

原创 VSCode注释高亮（# NOTE；# TODO；# FIXME；#XXX；# HACK；# BUG）

# NOTE；# TODO；# FIXME；#XXX；# HACK；# BUG

2025-01-17 11:43:29 1276

原创 vim基本命令（vi、工作模式、普通模式、插入模式、可视模式、命令行模式、复制、粘贴、插入、删除、查找、替换）

vi、工作模式、普通模式、插入模式、可视模式、命令行模式、复制、粘贴、插入、删除、查找、替换

2025-01-13 23:40:02 2969

原创 Linux常用命令大全（内置命令、硬件相关、解压/压缩相关、Python相关、安装软件相关、vim相关、screen相关、传输文件/文件夹相关、docker相关、Git相关）

内置命令、硬件相关、解压/压缩相关、Python相关、安装软件相关、vim相关、screen相关、传输文件/文件夹相关、docker相关、Git相关

2025-01-13 22:00:53 421

原创 mermaid大全（语法、流程图、时序图、甘特图、饼图、用户旅行图、类图）

语法、流程图、时序图、甘特图、饼图、用户旅行图、类图

2025-01-12 17:35:09 18228 1

原创 Python中的装饰器（decorator、修饰器、上下文管理器、wrapper、wraps、classmethod、staticmethod、property、contextmanager）

decorator、修饰器、上下文管理器、wrapper、wraps、classmethod、staticmethod、property、contextmanager、__enter__、__exit__

2025-01-06 15:07:05 1469

原创理解Transformer（Tokenizer、one-hot、Token、Word2Vec、词嵌入、词向量、Embedding、Q、K、V、自注意力，交叉注意、多头注意力、位置编码、掩码）

关键词：Tokenizer、one-hot、Token、Word2Vec、词嵌入、词向量、Embedding、Q、K、V、自注意力，交叉注意、多头注意力、位置编码、掩码

2024-09-24 12:03:27 4750 4

原创 YOLO-World源码实战：三种微调方式（normal fine-tuning、prompt tuning、Re-parameterized fine-tuning）。

YOLO-World源码实战：包含三种微调方式（normal fine-tuning、prompt tuning、Re-parameterized fine-tuning）的使用示例和真实代码。

2024-07-04 13:57:08 13594 162

原创 argparse常用语法解析与示例代码（action=store_true、choices=[ ]、nargs=?/+/*）

action=store_true、choices=[ ]、nargs=?/+/*

2024-07-01 13:50:16 1193

原创 Python中的pathlib和Path（面向对象的文件系统路径操作库）

一种内置的面向对象的文件系统路径操作库，本篇文章介绍了Path中的常见的属性和方法，并给出了代码示例。

2024-06-06 11:06:32 6884

原创 YOLOv8初学者手册（Detect、Segment、Classify、OBB、Pose）

关键词：Detect、Segment、Classify、OBB、Pose

2024-04-29 17:56:00 15342

原创 Windows常用快捷键（效率、组合键、文字编辑、文件、Home、End、Delete）

关键字：效率、组合键、文字编辑、文件、Home、End、Delete

2024-04-04 22:17:23 14896 3

原创正则表达式@Python（Regular Expression、Re、Regex、正则、查找、替换、通配符、模式、DOTALL、Multiline、M、re.DOTALL、re.M）

关键词：Regular Expression、Re、Regex、正则、查找、替换、通配符、模式、DOTALL、Multiline、M、re.DOTALL、re.M

2024-03-30 15:38:44 1766

原创「持续更新」英语词汇积累

记录在日常工作和学习中遇到的一些单词术语。

2024-03-15 14:47:50 723 2

原创〔理论与代码分析〕Fast-SCNN：Fast Semantic Segmentation Network（语义分割、经典网络、速度、高效、实时）

理论与代码分析：Fast-SCNN：Fast Semantic Segmentation Network关键词：语义分割、经典网络、速度、高效、实时

2024-03-15 11:58:57 3643

原创如何在VSCode中带有参数的Debug（name、program、$file、args、pickArgs、指定虚拟环境）

关键字：name、program、$file、args、pickArgs、指定虚拟环境

2024-02-23 11:53:35 17516 4

原创〔Part2〕YOLOv5：原理+源码分析--训练技巧（warm-up、AutoAnchor、hyper、GA、AMP、autocast、gradscaler、dist、DDP、node）

关键字：warm-up、warm up、autoanchor、auto、anchor、hyper、ga、evolve、amp、autocast、gradscaler、float、fp16、fp32、dist、dp、ddp、node、syncBN、通讯协议

2024-02-21 12:02:11 3898 1

原创 AMP训练（Automatic mixed precision、training、autocast、GradScaler、scale、unscale、DP、DDP）

关键词：Automatic mixed precision、training、autocast、GradScaler、scale、unscale、DP、DDP

2024-02-07 17:33:40 4549

原创 shell脚本基础语法（.sh ./ sh bash source shell）

关键词：.sh ./ sh bash source shell

2024-02-06 16:53:36 4427

原创〔Part1〕YOLOv5：原理+源码分析（配置文件、网络模块、损失函数、跨网格匹配策略）

1. 配置文件2. 网络模块3. 损失函数4. 跨网格匹配策略

2024-02-05 11:20:35 8787 1

原创 PyTorch2ONNX-分类模型：速度比较（固定维度、动态维度）、精度比较

PyTorch2ONNX-分类模型：速度比较1. 固定维度 v.s. 动态维度 v.s. PyTorch2. 单Batch v.s. 多Batch3. 精度比较

2024-01-29 16:49:34 2759

原创 [学习笔记] ONNX 基础知识

ONNX 基础（全是理论，没啥实际作用）

2024-01-24 14:37:26 13615 4

原创什么是 metadata（元数据、meta、metadata、诠释资料、元资料）

元数据、meta、metadata、诠释资料、元资料

2024-01-23 14:50:36 7100

原创 labelImg 修改不同类别的颜色（点大小、标签大小、框角）+ 打包为.exe文件 + 解决闪退bug

KeyWords：点大小、标签大小、框角

2023-12-14 20:30:34 3701 1

原创 RGB颜色大全（HEX、对照表、Matplotlib、plt、好看的颜色）

KeyWords：HEX、对照表、Matplotlib、plt、好看的颜色

2023-12-14 20:27:24 35331 2

原创常用脚本-持续更新（文件重命名、视频抽帧、拆帧、删除冗余文件、yolo2xml、转换图片格式、修改xml）

常用脚本-持续更新（文件重命名、视频抽帧、拆帧）

2023-11-23 15:53:21 1261

原创目标检测评价指标说明（MS COCO、Metrics、AP、mAP、AR、IoU、置信度、Confidence、TP、FP、TN、FN、pycocotools）

目标检测评价指标说明关键词：MS COCO、Metrics、AP、mAP、AR、IoU、置信度、Confidence、TP、FP、TN、FN、pycocotools

2023-10-25 11:10:54 11635 6

原创 Office技巧（持续更新）（Word、Excel、PPT、PowerPoint、连续引用、标题、模板、论文）

Office技巧（持续更新）Key Word：Word、Excel、PPT、PowerPoint、连续引用、标题、模板、论文

2023-10-23 11:46:26 1626

《3. KNN及练习案例》配套数据集

1. dating.txt 2. FacebookLocation.zip

2023-04-26

《2. Seaborn及练习案例》配套数据集

1. nba_2017_nba_players_with_salary.csv（公开数据集） 2. 链家北京租房数据.csv（私有数据集）

2023-04-21

《1. 机器学习前置知识》配套数据集

《1. 机器学习前置知识》配套数据集，数据集目录： 1. IMDB-Movie-Data.csv 2. Sarcasm_Headlines_Dataset.json 3. starbucks_directory.csv 4. stock_day.csv 5. UBER.csv 6. UBER.h5

2023-04-08

AlexNet.zip

使用AlexNet论文实现[猫狗数据集]分类。压缩包内含[model.py][split_data.py][train.py][inference.py][test.py][AlexNet.pth][几张推理用的图片]。 Note：不包含猫狗数据集！下载前请看博客，配合博客内容使用。

2021-10-04

VSCode 运行 Python 时报错用不同颜色区分。

2023-08-16

Edge浏览器点击超链接后如何跳回？

2022-05-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人