大语言模型
文章平均质量分 94
L念安dd
闲事不管饭吃三碗
展开
-
DataWhale Task04:手搓一个LLM Eval 241001
简单的LLM评测框架,该框架是一个双阶段的评测体系,我们称之为TinyEval,包含了LLM通用评测的核心功能,支持生成式、判别式、选则式评测问题,框架主要包含inference与eval部分,目的是为了帮助大家更好的力即LLM评测的原理与实现。原创 2024-10-01 20:13:44 · 1085 阅读 · 0 评论 -
DataWhale Task03:手搓一个Agent
手搓一个Agent原创 2024-09-27 23:34:28 · 795 阅读 · 0 评论 -
DataWhale Task02:从零预训练一个tiny-llama 20923
从 JSON 数据集中提取文本,使用 SentencePiece 进行 BPE 分词器的训练,并生成词汇表,Tokenizer 类为文本的编码和解码提供了简洁的接口。它基于 SentencePiece 进行操作,并且支持处理 BOS、EOS 和 PAD 这样的特殊标记。通过这个类,可以方便地将字符串转换为适合模型处理的 token ID 列表,或者将模型的输出结果解码为可读的文本。构建了一个完整的数据预处理和加载管道,特别适合于大规模语言模型的训练原创 2024-09-23 22:12:03 · 878 阅读 · 0 评论 -
DataWhale Task01:LLama3模型讲解240917
其实是关于Qwen模型的讲解,区别不大。tiny-llama3重点在于一个完整的模型训练体验,而qwen-blog偏重当前decoder架构下llm各个模块的讲解原创 2024-09-17 23:30:51 · 945 阅读 · 0 评论