“人生若只如初见,何事秋风悲画扇。”
“嘈嘈切切错杂弹,大珠小珠落玉盘。”
“万里悲秋常作客,百年多病独登台。”
中文的美感,源于文人墨客对万里江山无限的眷念,也源于中华文明数千年的文化积淀。而如今,在人工智能时代里,想要让中文在不同行业、不同场景发挥更大价值,难免要对算力、算法模型、数据集等诸多因素进行全面突破。
近日,鹏城实验室联合技术团队,首次实现基于“鹏城云脑Ⅱ”和全场景AI计算框架MindSpore的自动混合并行模式,实现在2048卡算力集群上的大规模分布式训练,开发出业界首个2000亿参数中文预训练生成语言模型“鹏程.盘古”大模型。这一模型的发布,不仅意味将产业在超大模型训练和应用方面再次突破,其也为大量数据缺乏的行业与中小型企业铺下接入智能时代的轨道,推动数字经济发展速度的进一步提升。
那么超大规模的NLP模型对于行业而言意味着什么呢?类似模型的持续出现,能否真正让中文这一世界上最具神秘色彩和美感的语言为更多领域所应用呢?
数据的指数级增长,超大模型的发展契机
自进入互联网时代以来,数据量的爆炸式增长就从未止息过。十三五期间我国提出了“实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。”在此背景下,体量大、类型繁多、价值密度低、处理要求高的大数据技术开始蓬勃发展,基于大数据而来的各项技术持续完善。
十四五期间,我国进一步将云计算、大数据、人工智能等列为数字经济重点产业。东风既起,诸多产业的智能化转型已提上日程,国内外巨头企业相继建立人工智能平台,将技术与产业结合进行创新生态的打造和落地。
数据之于模型,如土壤之于大树。没有数据的模型如无根之草,风过即枯。模型之所以能够实现预测推理,其所提供的信息主要来源于两个层面,一个是训练所用数据集,二则是其构造、学习、推理等过程中获得的先验信息。因此,数据的精准度和数据量对于模型的影响可见一斑。
以中文为基础的NLP模型而言,由于文本处理的复杂性存在,很多行业都面临数据不足的问题,比如数据的多样性、细粒度、数据维度等多个层面的不足以为模型提供更多帮助,从而出现模型过拟合等问题,使得模型在训练样本上效果极佳,但在测试数据集上泛化效果却很差。
对于中小公司而言