大模型
文章平均质量分 93
WiSirius
这个作者很懒,什么都没留下…
展开
-
多模态:Seed-story故事生成
伴随图像生成和文本生成的迅速发展,多模态故事生成以交错的方式生成叙事文本和生动形象为特征,已成为一种有价值的故事生成方式具有广泛应用的实际任务。该任务的主要难点在于文本和图像之间复杂的相互作用,以及生成连贯的且上下文相关的长序列的能力。github:文章提出Seed-story,一种利用多模态大语言模型生成扩展的多模态故事。原创 2024-08-12 11:22:41 · 830 阅读 · 0 评论 -
多模态:Nougat详解
科学知识主要存储在书籍和科学期刊中,通常以PDF的形式。然而PDF格式会导致语义信息的损失,特别是对于数学表达式。文章提出Nougat,一种视觉transformer模型,它执行OCR任务,用于将科学文档处理成标记语言。Nougat尝试用一个端到端的方式来实现过去无数小模型+策略配合的结果。推理速度慢。虽然过去的pipeline设计多个模型,但每个模型都非常轻量化,组合起来的参数量甚至不到Nougat的1/10。定制化难。数据集构建成本高。(但是nougat的数据工程确实也很惊艳,非常值得学习!!原创 2024-07-09 18:34:22 · 1030 阅读 · 0 评论