大模型
文章平均质量分 96
源泉的小广场
专注大模型、隐私计算技术领域以及商业化
展开
-
【大模型周边篇】深度学习模型知识蒸馏Torch实践
知识蒸馏、大模型、模型蒸馏、模型减小、logits 知识蒸馏、特征图知识蒸馏、hint 知识蒸馏、teacher-student kd model、师生架构原创 2024-11-07 13:48:48 · 908 阅读 · 0 评论 -
【大模型理论篇】模型蒸馏、大模型变小、移动端小规模大模型SLM、小模型趋势讨论
大模型、大模型蒸馏、知识蒸馏、小模型压缩、大模型尺寸、边缘部署、小模型推理、小模型性能、SLM、知识、logits、软目标、师生模型、teacher-student model、gemma、量化蒸馏、自然语言处理、基于响应知识蒸馏、基于特征知识蒸馏、基于关系知识蒸馏原创 2024-11-05 14:11:12 · 710 阅读 · 0 评论 -
【大模型理论篇】大模型能力评估、框架工具、评估指标、OpenAI Evals、大模型中文评测示例等
大模型评估、大模型测评、大模型能力评测、大模型评估框架、大模型评估工具、open ai evals、大模型中文评估、分类能力、阅读理解能力、知识抽取能力、表格数据理解能力原创 2024-10-29 14:29:21 · 1313 阅读 · 0 评论 -
【隐私计算篇】全同态加密应用场景案例(隐私云计算中的大模型推理、生物识别等)
隐私计算、全同态、全同态加密、大模型、全流程加密、密算云、全流程密算、全匿踪、端云协同、隐私云、隐私云计算、生物识别、基因数据、医疗隐私、隐私计算应用案例原创 2024-10-28 05:00:00 · 1361 阅读 · 0 评论 -
【大模型理论篇】大模型压缩技术之注意力层剪枝以及与MLP层联合剪枝
大模型、压缩、大模型压缩、量化、剪枝、注意力层冗余、注意力层丢弃、mlp层、attention层、冗余分析、相似度度量、加速比、块丢弃、大模型提速、减少参数原创 2024-10-23 12:59:50 · 1237 阅读 · 0 评论 -
【大模型实战篇】构建大模型分词器并应用于Transformer库
大模型、分词器、构建分词器、从零构建分词器、tokenizer、BPE、WordPiece、Unigram、实战、Transformer、huggingface、编码器、解码器原创 2024-10-22 20:01:42 · 1061 阅读 · 0 评论 -
【大模型理论篇】主流大模型的分词器选择及讨论(BPE/BBPE/WordPiece/Unigram)
大模型、分词器、分词、tokenizer、BPE、BBPE、wordpiece、词元化、unigram、sentencepiece、词粒度、tiktoken、主流大模型分词器、gpt分词器、gpt tokenizer原创 2024-10-22 15:13:40 · 1473 阅读 · 0 评论 -
【大模型实战篇】大模型分词算法Unigram及代码示例
大模型、分词、预处理、词元化、unigram、bpe、wordpiece、T5、tokenize、单一模型、SentencePiece原创 2024-10-22 05:30:00 · 1014 阅读 · 0 评论 -
【大模型实战篇】大模型分词算法WordPiece分词及代码示例
大模型、数据预处理、tokenize、分词、词元化、标记化、word piece、bert、wordpiece-bpe差异、bpe、词对得分原创 2024-10-21 17:17:40 · 1243 阅读 · 0 评论 -
【大模型实战篇】大模型分词算法BPE(Byte-Pair Encoding tokenization)及代码示例
大模型、数据预处理、词元化、Tokenization、分词、子词分词器、BPE分词、字节级BPE、Byte-Pair Encoding tokenization、GPT-2、特殊词元、合并规则学习原创 2024-10-21 15:58:52 · 1517 阅读 · 0 评论 -
【大模型理论篇】大模型生成之解码策略(涉及束搜索、长度及重复惩罚、温度调节、Top-K及Top-P采样、对比解码、解码策略优化等)
贪心搜索、概率采样、束搜索、长度惩罚、重复惩罚、温度调节、Top-K采样、Top-P采样、对比解码、解码策略优化、非自回归解码、早退机制、级联解码、推测解码原创 2024-10-20 00:43:09 · 977 阅读 · 0 评论 -
【大模型技术分享】全方位解读大模型:多样知识点的深度探讨与技术分享小结
底层思想、模型架构、数据清洗、数据预处理、分词、模型微调、人类对齐、部署推理、提示词工程、智能体、检索增强生成、计算加速优化、GPU资源、安全性、生成式模型原理、大模型产品、应用及运营、多模态原创 2024-10-18 15:40:07 · 1039 阅读 · 0 评论 -
【大模型理论篇】思维链(Chain Of Thought)、Auto-CoT、 Diverse Prompts、思维树(Tree Of Thought)、思维树提示语等概念解析及相应提示语示例
提示语、大模型、llm、提示语工程、cot、tot、chain of thought、tree of thought、思维链、思维树、推理链原创 2024-10-18 08:46:21 · 1295 阅读 · 0 评论 -
【大模型理论篇】大模型中的强化学习RLHF(PPO)、DPO(Direct Preference Optimization)等概念的理解与解析
大模型、大模型预训练、大模型对齐、人类对齐、RLHF、强化学习、ppo、dpo、近端策略优化、直接偏好优化、Human Alignment、Direct Preference Optimization、Proximal Policy Optimization原创 2024-10-16 13:05:27 · 1175 阅读 · 0 评论 -
【大模型实战篇】deep-ml项目深度学习关键模块代码练习题库及部分题目解法的分析
深度学习、机器学习、线性代数、python、源码、编程实践、问题解决原创 2024-10-14 13:36:56 · 1036 阅读 · 0 评论 -
【大模型理论&实战篇】Agentic RAG(智能体RAG) 以及Multi-Source RAG(多数据源RAG)等关于RAG技术的新进展及Function Calling示例
RAG、Agentic RAG、Multi-source RAG、MSRAG、智能体、智能体RAG、代理RAG、检索增强生成、多数据源RAG、多源数据RAG、function calling、工具agent、大模型、智能rag原创 2024-10-08 23:42:36 · 1103 阅读 · 0 评论 -
【大模型实战篇】创建有效的大模型提示词Prompt(提示词工程)
大模型、提示词、提示词工程、LLM、prompts、有效提示词、好的提示词、提示词关键要素、思维链、提示链、上下文、few shots learning原创 2024-10-08 19:26:35 · 1696 阅读 · 0 评论 -
【大模型理论篇】大模型相关的周边技术分享-关于《NN and DL》的笔记
神经网络、深度学习、Neural network、deep learning、dropout、梯度弥散、梯度消失、损失函数、激活函数、sigmoid、softmax、反向传播、交叉熵、超参数选择、梯度下降、集Beam Search、集束搜索、解码原创 2024-10-07 22:53:54 · 1018 阅读 · 0 评论 -
【大模型理论篇】精简循环序列模型(minGRU/minLSTM)性能堪比Transformer以及对循环神经网络的回顾
RNN、精简RNN、minLSTM、minGRU、Transformer 、序列长度、并行化循环序列模型、 S4、Mamba 、Aaren、循环神经网络精简、大模型、计算加速,梯度弥散、BPTT、时间独立原创 2024-10-06 23:55:17 · 1417 阅读 · 0 评论 -
【隐私计算&大模型】MPC安全多方计算矩阵乘法算子的原理分析及模型推理应用介绍(涉及SPDZ、GMW、ABY、ABY2.0、ABY3、Cheetah、CipherGPT、VOLE、模型推理等)
安全多方计算、多方安全计算、MPC、矩阵乘法、乘法原理分析、模型推理、SPDZ、GMW、ABY、ABY2.0、ABY3、Cheetah、CipherGPT、COT、VOLE、Chameleon、模型推理、大模型推理、安全推理、大模型训练、安全训练、Iron、多项式乘法、CipherGPT原创 2024-10-04 13:36:29 · 892 阅读 · 0 评论 -
【大模型实战篇】大模型GPU推理测试(Qwen2.5-7B为例)以及Qwen2.5存在的幻觉问题发现
大模型推理、大模型、推理、Qwen2.5-7B、模型精度、显存资源、显存预估、显卡监控、大模型推理幻觉、modelscope、国产huggingface、GPU推理、transformers升级原创 2024-09-23 20:04:06 · 1856 阅读 · 0 评论 -
【大模型实战篇】一种关于大模型高质量数据的处理方法-无标注数据类别快速识别及重复数据检测(加权向量-卷积神经网络-聚类算法结合)
大模型、高质量数据、加权词向量、聚类、热门问题识别、卷积神经网络、kmeans、cnn、textcnn、文本特征抽取、无监督算法、大模型快速数据预处理原创 2024-09-21 23:58:07 · 1389 阅读 · 0 评论 -
【大模型实战篇】关于Bert的一些实操回顾以及clip-as-service的介绍
bert、大模型、bert微调、fine tuning、bert中文向量化、向量编码、对话机器人、向量匹配、文本找图、图找文本、clip模型、多模态、bert实操、文本图片检索、faiss原创 2024-09-21 22:42:18 · 1362 阅读 · 0 评论 -
【大模型实战篇】高质量数据过滤及一种BoostedBaggingFilter处理方法的介绍
大模型、BoostedBaggingFilter、Boosted Bagging Filter、高质量数据、数据过滤、数据预处理、集成算法过滤、启发式规则、分类器算法、分类器过滤原创 2024-09-13 11:47:49 · 1357 阅读 · 0 评论 -
【大模型&隐私计算】大模型的安全由隐私计算来保护(涉及联邦学习、可信执行环境、差分隐私、多方安全计算、同态加密、端云协同、GPU安全加速等技术)
大模型、隐私计算、隐私保护、大模型参数处理、大模型关键参数识别、多方安全计算、差分隐私、TEE、横纵向联邦学习、加密推理、隐私微调原创 2024-09-11 15:58:30 · 2343 阅读 · 2 评论 -
【大模型理论篇】ToB的大模型系统非常有必要引入搜索推荐算法能力(回顾BPR、W&D、DeepFM、ALS等经典算法)
大模型、toB系统、LLM、推荐算法、排序算法、Learn to rank、ALS、Wide and Deep、BPR、DeepFM、贝叶斯排序、数据要素、大模型医疗、大模型准确性、RAG、搜索增强、提升大模型准确性原创 2024-09-11 15:10:26 · 1130 阅读 · 0 评论 -
【大模型理论篇】大模型周边自然语言处理技术(NLP)原理分析及数学推导(Word2Vec、TextCNN、Gated TextCNN(门控text-cnn)、FastText)
大模型、LLM、预训练模型、自然语言处理、大模型周边技术、高质量数据、低成本、大模型实战、预训练实战、word2vec、skip gram、cbow、门控text-cnn、门控textcnnGated TextCNN、负采样、分层softmax原创 2024-09-05 23:47:24 · 1135 阅读 · 0 评论 -
【大模型实战篇】大模型显存资源计算以及GPU如何选择
大模型、GPU、大模型显存资源计算、LLM、模型资源估算、计算公式、大模型资源因素、显存计算器、数值精度、GPU选型、大模型部署原创 2024-09-05 17:46:58 · 2661 阅读 · 1 评论 -
【大模型实战篇】RoPE旋转位置编码PyTorch代码分析
大模型、llm、pytorch代码实现、旋转位置编码、长序列旋转位置编码、位置编码外推、代码分析、旋转实现、缩放因子、freq频率计算原创 2024-09-02 16:48:38 · 1807 阅读 · 2 评论 -
【大模型理论篇】RoPE旋转位置编码底层数学原理分析
大模型、位置编码、Transformer、旋转位置编码、RoPE、Rotary Positional Encoding、数学原理、数学推导、旋转矩阵、相对位置、绝对位置、词元相似性、位置相关性原创 2024-08-30 19:49:24 · 4622 阅读 · 3 评论 -
【大模型理论篇】自注意力机制计算加速工程优化技巧(Flash Attention/PagedAttention)
flash attention、pagedattention、大模型、大模型性能优化、大模型计算加速、工程优化、分页注意力、快速注意力、vllm、大模型推理、大模型内存高效利用、内存优化原创 2024-08-28 10:46:15 · 1068 阅读 · 0 评论 -
【大模型理论篇】通用大模型架构分类及技术统一化
大模型、llm、大模型架构、llm architecture、架构统一、通义千问、qwen、glm、chatglm、智谱、rms norm、pre norm、self-attention、decoder-only、encoder-decoder、prefix-decoder原创 2024-08-27 16:55:41 · 2200 阅读 · 0 评论 -
【大模型理论篇】大模型微调之指令微调(Instruction Fine-Tuning)
指令微调、大模型、instruction fine-tuning、监督微调、微调技术、大模型微调、llm fine tune、指令数据集、prompt、微调实战、Alpaca、llama2微调原创 2024-08-27 00:11:40 · 3721 阅读 · 0 评论 -
【大模型理论篇】Mixture of Experts(混合专家模型, MOE)
大模型、transformer、混合专家模型、MoE、mixture of experts、稀疏性、模型算力、LLM、SMoE、gemini、mixtral、万亿参数大模型、门控机制、专家混合原创 2024-08-25 10:45:42 · 2947 阅读 · 1 评论 -
【大模型理论篇】基于3D可视化视角理解GPT
大模型、3D可视化、transformer、self attention、可视化原理分析、gpt、gpt3、nano gpt原创 2024-08-23 00:14:43 · 1357 阅读 · 0 评论 -
【大模型理论篇】Transformer KV Cache原理深入浅出
大模型、transformer、注意力机制、计算加速、kv cache、kv 缓存、推理加速、llama、内存分析、计算量分析原创 2024-08-22 15:50:46 · 2621 阅读 · 0 评论 -
【大模型理论篇】强化学习RL与大模型智能体
大模型、智能体、LLM、Agent、强化学习、Q-learning、DAN、policy gradient、Reinforcement learning、autogpt、ToolLLM Agent、RL、自动处理原创 2024-08-21 17:15:03 · 1476 阅读 · 0 评论 -
【大模型理论篇】LLaMA3结构关键模块分析
LLaMA、RMS Norm、SwiGLU、RoPE、GQA、分组查询注意力、旋转位置编码、大模型原创 2024-08-20 16:37:04 · 1541 阅读 · 0 评论 -
【大模型理论篇】关于LLaMA 3.1 405B以及小模型的崛起
LLama3、405B、大模型、预训练、后训练、大模型数据清洗、合成数据、SFT、模型蒸馏、小模型、开源大模型、退火、量化推理、模型架构、transformer原创 2024-08-20 11:30:30 · 1697 阅读 · 1 评论 -
【大模型理论篇】大模型时代下Bert去哪啦?
bert、自然语言处理、transformer、encoder、gpt、decoder、nlu、nlg、微调、fine-tuning原创 2024-08-20 00:18:14 · 1674 阅读 · 0 评论
分享