《通义千问：阿里巴巴的 AI 大模型深度解析》

最新推荐文章于 2025-03-09 11:37:38 发布

黑色叉腰丶大魔王

最新推荐文章于 2025-03-09 11:37:38 发布

阅读量3.5k

点赞数 11

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_47266126/article/details/144053580

版权

通义千问作为阿里云自主研发的大语言模型，代表了阿里巴巴在人工智能领域的重要突破和技术实力123. 它能够基于用户的自然语言输入，通过强大的自然语言理解和语义分析能力，在众多领域和任务中为用户提供高质量的服务和帮助，展现出了广泛的应用前景和巨大的商业价值123.

发展历程

2019 年起，阿里巴巴集团开始进行大模型研究1.
2023 年 4 月 7 日，阿里云宣布 “通义千问” 开始邀请测试，此次测试主要面向企业用户1.
2023 年 4 月 11 日，通义千问在阿里云峰会上正式发布，同时阿里巴巴宣布所有产品未来将接入该大模型进行全面改造1.
2023 年 8 月 3 日，通义千问旗下 70 亿参数通用模型 Qwen-7b 和对话模型 Qwen-7b-chat 上架魔搭开源，支持用户在消费级显卡上部署和运行模型1.
2023 年 9 月 13 日，通义千问大模型首批通过备案，正式向公众开放1.
2023 年 10 月 31 日，阿里云在 2023 云栖大会上正式升级发布通义千问 2.0，模型参数达到千亿级别，并推出基于通义大模型训练的 8 大行业模型1.
2024 年 6 月 7 日，阿里通义千问 Qwen2 大模型发布，并在 Hugging Face 和 ModelScope 上同步开源，其涵盖 5 个尺寸的预训练和指令微调模型，上下文长度支持进一步扩展1.
2024 年 4 月 28 日，通义千问开源 1100 亿参数模型 Qwen1.5-110b，成为全系列首个千亿级参数开源模型，并在多项基准测评中取得优异成绩.

模型架构与技术特点

基于 Transformer 框架：通义千问模型采用了 Transformer 框架，并在其基础上进行了多项优化和改进。例如，选择了不受限的嵌入方法，以获得更好的性能；采用 RoPE（Rotary Positional Embedding）为位置编码，并使用 FP32 精确度的逆频率矩阵，提高了模型的性能表现和精确度1.
分组查询注意力方法（GQA）：在 Qwen1.5-110b 等模型中，采用了分组查询注意力方法，使得模型在推理时更加高效，能够更好地处理长序列数据，支持更长的上下文长度，如 110b 模型支持 32k 上下文长度，为处理复杂的多轮对话和长篇文本提供了有力支持3.
预训练与微调：通义千问的训练过程分为预训练和指令微调两个阶段。预训练阶段使用海量的文本数据，包括公共网络文档、百科全书、书籍、代码等，涵盖多种语言，以学习语言的共性知识和语义理解能力。在预训练的基础上，通过指令微调进一步优化模型在特定任务和领域上的性能，使其能够更好地满足各种实际应用的需求1.
高效的分词器：采用开源快速 BPE 分词器 tiktoken，并以 cl100k 为基础词库，同时为提高模型在多语言下游任务，特别是中文上的性能，增加了常用的中文字词以及其他语言的词汇来扩充词汇量，并把数字字符串拆成单个数字，最终词表大小为 152k，相比其他模型实现了更高的压缩效率，降低了模型服务成本1.
去除偏差与规范化：在模型的大多数层中移除了偏差，而在 QKV 注意力层中添加了偏差，以增强模型的外推能力；同时采用预规范化方法（Pre-Normalization）提高训练稳定性，并将传统层归一化方法替换为 RMSNorm；采用 Swiglu 激活函数，缩小了前馈网络的维度，提高了模型的训练和推理效率1.

模型功能

基础功能：具备语义理解与抽取、闲聊、上下文对话、生成与创作、知识与百科、代码、逻辑与推理、计算、角色扮演等 10 项基础能力，能够满足用户在各种场景下的多样化需求，如回答问题、生成文本、进行逻辑分析等1.
多模态支持：通义千问 2.0 版本支持文本回答、图片理解、文档解析三种模式，用户可以在网页端上传图片和文档并询问与之相关的问题，实现了对多模态信息的理解和处理，为用户提供更丰富、更全面的交互体验1.
特色功能百宝袋：预先提供了针对不同场景小应用的集合，包括创意文案、办公助理、学习助手、趣味生活等四大类型。例如，创意文案方面可以生成短视频剧本、祝福语、电影剧本等；办公助理方面可以撰写营销文案、生成 PPT 大纲等；学习助手方面可以解答学习问题、进行诗歌分析等；趣味生活方面可以提供高情商回复、健身计划等，方便用户快速上手并满足不同的个性化需求1.
AI 语音对话：通义千问 app 支持 AI 语音对话功能，用户可以直接通过语音向 AI 提问，AI 也会以语音形式回答，并可随时开启新话题，同时还提供温柔、幽默、严谨、亲切四种音色供用户选择，提升了用户与 AI 交互的便捷性和自然度1.

数据处理与质量保障

海量数据收集：通义千问的预训练数据共有 3 万亿 tokens，来源广泛，涉及多语言的公共网络文档、百科全书、书籍、代码等，但以中文和英文为主，为模型提供了丰富的知识储备，使其能够学习到不同领域、不同语言的语义和逻辑关系1.
数据预处理：为保证数据质量，开发团队制定了全面的预处理程序。包括从 HTML 中提取文本内容，并采用语言识别工具确定语种；使用重复数据删除技术，如规范化后的精确匹配重复数据删除方法，以及使用 Minhash 和 LSH 算法的模糊重复数据删除方法；结合规则和机器学习的方法过滤低质量数据，通过多种模型对内容进行评分；手动对各种来源的文本进行采样和审查等，确保模型在高质量的数据上进行训练1.

应用场景

行业应用：基于通义千问大模型，阿里云针对不同行业领域开发了通义灵码、通义智文、通义听悟、通义星尘、通义点金、通义晓蜜、通义仁心、通义法睿 8 个行业应用模型，广泛应用于电子商务、金融、医疗、教育、工业等多个行业，为企业提供个性化的解决方案，帮助企业提高生产效率、优化服务质量、创新业务模式等。例如，在电子商务中提供商品查询、推荐等服务；在金融领域提供投资建议；在医疗行业提供初步的医学诊断等13.
企业合作与创新：通义千问的开源模式吸引了众多企业和研究机构的参与，催生出了 150 多款新模型、新应用，如路面清洁机器人和心理健康大模型 MindChat 等，推动了大模型技术在各领域的创新实践和落地应用，促进了人工智能产业的发展1.
个人用户服务：为个人用户提供了便捷的智能助手，帮助用户解决各种问题，如学习中的困惑、生活中的琐事、工作中的任务等，提高了用户的生活和工作效率，丰富了用户的娱乐体验12.

开源与生态建设

通义千问积极推动开源生态建设，开源了多款不同参数规模的大语言模型以及多模态大模型，包括 18 亿、70 亿、140 亿、720 亿参数的大语言模型，以及视觉理解、音频理解等多模态大模型，实现了 “全尺寸、全模态” 开源，累计下载量超过 700 万，成为最受开发者欢迎的开源大模型之一，为开发者提供了丰富的资源和技术支持，降低了大模型的应用门槛，促进了人工智能技术的普及和发展1.