通义千问作为阿里云自主研发的大语言模型,代表了阿里巴巴在人工智能领域的重要突破和技术实力123. 它能够基于用户的自然语言输入,通过强大的自然语言理解和语义分析能力,在众多领域和任务中为用户提供高质量的服务和帮助,展现出了广泛的应用前景和巨大的商业价值123.
发展历程
- 2019 年起,阿里巴巴集团开始进行大模型研究1.
- 2023 年 4 月 7 日,阿里云宣布 “通义千问” 开始邀请测试,此次测试主要面向企业用户1.
- 2023 年 4 月 11 日,通义千问在阿里云峰会上正式发布,同时阿里巴巴宣布所有产品未来将接入该大模型进行全面改造1.
- 2023 年 8 月 3 日,通义千问旗下 70 亿参数通用模型 Qwen-7b 和对话模型 Qwen-7b-chat 上架魔搭开源,支持用户在消费级显卡上部署和运行模型1.
- 2023 年 9 月 13 日,通义千问大模型首批通过备案,正式向公众开放1.
- 2023 年 10 月 31 日,阿里云在 2023 云栖大会上正式升级发布通义千问 2.0,模型参数达到千亿级别,并推出基于通义大模型训练的 8 大行业模型1.
- 2024 年 6 月 7 日,阿里通义千问 Qwen2 大模型发布,并在 Hugging Face 和 ModelScope 上同步开源,其涵盖 5 个尺寸的预训练和指令微调模型,上下文长度支持进一步扩展1.
- 2024 年 4 月 28 日,通义千问开源 1100 亿参数模型 Qwen1.5-110b,成为全系列首个千亿级参数开源模型,并在多项基准测评中取得优异成绩.
模型架构与技术特点
- 基于 Transformer 框架:通义千问模型采用了 Transformer 框架,并在其基础上进行了多项优化和改进。例如,选择了不受限的嵌入方法,以获得更好的性能;采用 RoPE(Rotary Positional Embedding)为位置编码,并使用 FP32 精确度的逆频率矩阵,提高了模型的性能表现和精确度1.
- 分组查询注意力方法(GQA):在 Qwen1.5-110b 等模型中,采用了分组查询注意力方法,使得模型在推理时更加高效,能够更好地处理长序列数据,支持更长的上下文长度,如 110b 模型支持 32k 上下文长度,为处理复杂的多轮对话和长篇文本提供了有力支持3.
- 预训练与微调:通义千问的训练过程分为预训练和指令微调两个阶段。预训练阶段使用海量的文本数据,包括公共网络文档、百科全书、书籍、代码等,涵盖多种语言,以学习语言的共性知识和语义理解能力。在预训练的基础上,通过指令微调进一步优化模型在特定任务和领域上的性能,使其能够更好地满足各种实际应用的需求1.
- 高效的分词器:采用开源快速 BPE 分词器 tiktoken,并以 cl100k 为基础词库,同时为提高模型在多语言下游任务,特别是中文上的性能,增加了常用的中文字词以及其他语言的词汇来扩充词汇量,并把数字字符串拆成单个数字,最终词表大小为 152k,相比其他模型实现了更高的压缩效率,降低了模型服务成本1.
- 去除偏差与规范化:在模型的大多数层中移除了偏差,而在 QKV 注意力层中添加了偏差,以增强模型的外推能力;同时采用预规范化方法(Pre-Normalization)提高训练稳定性,并将传统层归一化方法替换为 RMSNorm;采用 Swiglu 激活函数,缩小了前馈网络的维度,提高了模型的训练和推理效率1.
模型功能
- 基础功能:具备语义理解与抽取、闲聊、上下文对话、生成与创作、知识与百科、代码、逻辑与推理、计算、角色扮演等 10 项基础能力,能够满足用户在各种场景下的多样化需求,如回答问题、生成文本、进行逻辑分析等1.
- 多模态支持:通义千问 2.0 版本支持文本回答、图片理解、文档解析三种模式,用户可以在网页端上传图片和文档并询问与之相关的问题,实现了对多模态信息的理解和处理,为用户提供更丰富、更全面的交互体验1.
- 特色功能百宝袋:预先提供了针对不同场景小应用的集合,包括创意文案、办公助理、学习助手、趣味生活等四大类型。例如,创意文案方面可以生成短视频剧本、祝福语、电影剧本等;办公助理方面可以撰写营销文案、生成 PPT 大纲等;学习助手方面可以解答学习问题、进行诗歌分析等;趣味生活方面可以提供高情商回复、健身计划等,方便用户快速上手并满足不同的个性化需求1.
- AI 语音对话:通义千问 app 支持 AI 语音对话功能,用户可以直接通过语音向 AI 提问,AI 也会以语音形式回答,并可随时开启新话题,同时还提供温柔、幽默、严谨、亲切四种音色供用户选择,提升了用户与 AI 交互的便捷性和自然度1.
数据处理与质量保障
- 海量数据收集:通义千问的预训练数据共有 3 万亿 tokens,来源广泛,涉及多语言的公共网络文档、百科全书、书籍、代码等,但以中文和英文为主,为模型提供了丰富的知识储备,使其能够学习到不同领域、不同语言的语义和逻辑关系1.
- 数据预处理:为保证数据质量,开发团队制定了全面的预处理程序。包括从 HTML 中提取文本内容,并采用语言识别工具确定语种;使用重复数据删除技术,如规范化后的精确匹配重复数据删除方法,以及使用 Minhash 和 LSH 算法的模糊重复数据删除方法;结合规则和机器学习的方法过滤低质量数据,通过多种模型对内容进行评分;手动对各种来源的文本进行采样和审查等,确保模型在高质量的数据上进行训练1.
应用场景
- 行业应用:基于通义千问大模型,阿里云针对不同行业领域开发了通义灵码、通义智文、通义听悟、通义星尘、通义点金、通义晓蜜、通义仁心、通义法睿 8 个行业应用模型,广泛应用于电子商务、金融、医疗、教育、工业等多个行业,为企业提供个性化的解决方案,帮助企业提高生产效率、优化服务质量、创新业务模式等。例如,在电子商务中提供商品查询、推荐等服务;在金融领域提供投资建议;在医疗行业提供初步的医学诊断等13.
- 企业合作与创新:通义千问的开源模式吸引了众多企业和研究机构的参与,催生出了 150 多款新模型、新应用,如路面清洁机器人和心理健康大模型 MindChat 等,推动了大模型技术在各领域的创新实践和落地应用,促进了人工智能产业的发展1.
- 个人用户服务:为个人用户提供了便捷的智能助手,帮助用户解决各种问题,如学习中的困惑、生活中的琐事、工作中的任务等,提高了用户的生活和工作效率,丰富了用户的娱乐体验12.
开源与生态建设
通义千问积极推动开源生态建设,开源了多款不同参数规模的大语言模型以及多模态大模型,包括 18 亿、70 亿、140 亿、720 亿参数的大语言模型,以及视觉理解、音频理解等多模态大模型,实现了 “全尺寸、全模态” 开源,累计下载量超过 700 万,成为最受开发者欢迎的开源大模型之一,为开发者提供了丰富的资源和技术支持,降低了大模型的应用门槛,促进了人工智能技术的普及和发展1.