预训练基础模型与数据集准备全解析
1. 对比预训练与自然语言监督
在计算机视觉领域,如今有许多顶尖模型。而将大语言模型技术与视觉相结合的早期方法之一,就是对比预训练和自然语言监督。从2006年的ImageNet到2022年Stable Diffusion使用的LAION - 5B等现代和经典图像数据集,其标签都是由自然语言组成的。由于图像包含现实世界中的物体,标签必然比单个数字更细致,这种问题框架被称为自然语言监督。
假设有一个包含数千万张图像的大型数据集,每张图像都配有标题。标题不仅能命名物体,还能提供更多关于图像内容的信息。例如“Stella坐在黄色沙发上”或“Pepper,澳大利亚小狗”,这些简短的描述比单纯描述物体能提供更多上下文。可以使用预训练模型(如编码器)将语言处理成密集向量表示,再用图像编码器将图像处理成另一个密集向量表示,然后将它们组合在一个可学习的矩阵中,这就是对比预训练。Alex Radford团队提出的对比语言 - 图像预训练(CLIP)模型,能让我们同时学习图像和语言之间的关系。当然,CLIP并非唯一使用自然语言监督的视觉 - 语言预训练任务,2019年中国研究团队提出的视觉 - 语言BERT模型也有类似目标。此后,视觉 - 语言基础模型的联合训练变得非常流行,Flamingo、Imagen和Stable Diffusion等都有出色表现。
2. 2023年4月的顶级语言模型
 语言建模是与基础模型密切相关的重要任务。以下是不同数据集上的语言模型基准测试结果: 
 | 数据集 | 最佳模型 | 是否基于Transformer | 性能 | 
 | — | — | — | — | 
 | WikiText - 103
                      
                          
                        
                            
                            
                          
                          
                            
                  
                订阅专栏 解锁全文
                
            
      
          
                
                
                
                
              
                
                
                
                
                
              
                
                
              
            
                  
					6702
					
被折叠的  条评论
		 为什么被折叠?
		 
		 
		
    
  
    
  
            


            