自2022年11月ChatGPT发布以来,国内大模型如雨后春笋般,层出不穷。据智东西统计,截止至2023年5月29日,国内至少有55个类GPT大模型已经推出或马上面世。互联网/云服务大厂、AI企业、传统行业公司、大数据公司以及算法公司几乎全部入局。
在这场百模大战中,大模型的发展已从“通用”迈入“垂类”。
1.垂类大模型加速发展,对数据服务能力带来新挑战
从演进路径上看,垂类模型是在通用大模型基础上训练而来的。垂类模型强调垂直领域的Know-How,需要增强该领域的知识数据以及针对特定任务的微调。行业不同,场景不同,指令微调的区别也极大。比如传媒更关注新闻生产的真实性、实时性及知识服务的内容安全、主流意识形态;金融领域更关注风控、可信以及研报生成的效果等。因此,垂类大模型对数据的权威性、质量、规模、多样性、及时性、安全性等要求提出了更高的挑战。例如,要求领域知识具有权威性;在质量方面,要求能够提高模型精度与可解释性,帮助减少收敛到最优解的时间,即减少训练时长;在规模方面,要求保证质量的前提下,训练数据量越大,大模型的推理能力就越强;在多样性方面,要求训练数据集尽可能丰富、全面,能够提高模型泛化能力,过于单一的数据会非常容易让模型过于拟合训练数据;在及时性方面,要求实时更新的数据尽快得到利用;在安全性方面,绝大部分机构是要本地化部署,以避免类似三星使用ChatGPT遭遇商业泄密事件的再次发生,同时还要考虑数据分级与合规。
2.高质量数据是大模型不断优化的稀缺要素
在大模型“百花齐放”的背景下,民生证券在研报中指出,“单纯发布一个大模型的门槛没有市场想象中的那么高”,“有大模型不难,难的是有一个能持续迭代,性能不断提升的优质大模型”。一些观点也提到,高质量数据才是垂大模型发展的稀缺要素:
(1).训练大模型需要高质量、大规模、多样性的数据集;
(2).优质中文数据集稀缺,数字中国战略将促进数据要素市场完善,助力数据集发展。近期欧洲议会议员《人工智能法案》提案、网信办《生成式人工智能服务管理办法(征求意见稿)》、《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》对大模型训练数据的版权披露、合法性、高质量数据要素供给提出要求。
我们常见的数据质量评估维度有规范性、完整性、准确性、一致性、时效性和可访问性。什么样的数据才是高质量数据?高质量的数据都具备哪些特点:
准确性:是否准确,事实性回答要求完全一致,开放性问答要求语义相近;
完备性:是否涵盖了所有要点、有总结、有分析、有扩展等;
连贯性:是否表达流畅、有条理、有逻辑性;
安全性:是否包含粗鲁、侮辱性等词汇;
专业性:不口水话,不啰嗦,书面用语,专业表达;
敏感性:是否涉及到国家领导人、政治领域、党政领域、敏感事件等负面信息。
不同用户在不同场景下对数据服务的要求是不同的。我们认为数据质量水平高低取决于使用数据的场景和数据消费者的需求。如果数据满足数据消费者应用需求的目的就是高质量的;反之,如果不满足消费者应用需求的目的,就是低质量的。