zzfive-CSDN博客

原创 Scaling Law解析

幂律规律有失灵的情况，即大模型中的涌现，前期算力增加，模型性能是按上述分析的规律逐渐提高，但是当算力提高到一定程度后，模型性能会突然陡增，目前来话，幂律规律只在涌现发生前有效，当具体算力提升到多少会发生涌现，目前还不知道，只能通过实践后统计发现，但一定会发生涌现。固定住计算量，随着计算量的增大，对应的最优模型参数量也越来越大，对应的最优数据量也越来越大，在对数域看就是成线性关系。不同模型架构可能也符合幂律关系，如上图中的LSTMs，同样参数量时，transformers的性能比LSTMs更好。

2024-04-06 00:00:12 847

原创 SiT技术报告阅读

在该框架内，探索了许多关键设计选择之间的权衡：连续或离散时间模型的选择、插值的选择、模型预测的选择以及采样器的选择。DiT团队最近刚好发布了基于DiT架构研究扩散模型插值技术的论文，简称为SiT，论文行文较难理解，感兴趣的读者推荐阅读官方的技术报告，见顶部链接，本文也主要基于技术报告进行初略的解释，因为内容涉及较多公式变换，如有错误，请告知。对应于由不同时间相关函数加权的普通去噪目标的扩散模型的不同模型预测，训练了所有三个模型并给出了下面的结果。相同时，扩散和基于流的方法共享相同的时间演化过程已被证明；

2024-03-12 00:37:42 1030

原创 Stable Diffusion 3报告

将 Stable Diffusion 3 的输出图像与其他各种开放模型（包括 SDXL、SDXL Turbo、

2024-03-05 22:24:20 940 1

原创 SORA技术报告

文档链接：https://openai.com/research/video-generation-models-as-world-simulators。

2024-02-24 23:01:00 739

原创 NUWA论文阅读

本文提出了一个统一的多模态预训练模型，称为NUWA，可以为各种视觉合成任务生成新的或操纵现有的视觉数据(即图像和视频)。为了在不同场景下同时覆盖语言、图像和视频，设计了一种3D Transformer编码器-解码器框架，该框架不仅可以将视频作为3D数据处理，还可以将文本和图像分别作为1D和2D数据处理。为了考虑视觉数据的性质，降低计算复杂度，提出了一种3D Nearby Attention(3DNA)机制。在8个下游任务上评估了N UWA。

2023-10-04 16:10:43 440

原创 Tune-A-Video论文阅读

为了复制文本到图像 (T2I) 生成的成功，最近的工作使用大规模视频数据集来训练文本到视频 (T2V) 生成器。尽管他们的结果很有希望，但这种范式的计算成本很高。本工作提出了一种新的 T2V 生成设置——One-Shot Video Tuning，仅需要一个文本-视频对。本文中模型为了进一步学习连续运动，引入了Tune-A-Video，它涉及定制的时空注意机制和有效的一次性调整策略。本文做出两个关键观察：1）T2I 模型可以生成仍然代表动词术语的图像；

2023-09-24 21:12:30 700

原创 GODIVA论文阅读

从文本生成视频任务是极具挑战性的任务，由于其训练的高计算需求和答案无限性难以评估。当前的工作通常在简单或小型数据集上进行实现，泛化能力非常有限。本工作提出了GODIVA，一种开放域文本到视频的预训练模型，可以使用三维稀疏注意机制以自回归的方式从文本中生成视频。在 Howto100M 上预训练模型，这是一个包含超过 13600 万个文本-视频对的大规模文本-视频数据集。实验表明，GODIVA 不仅可以在下游视频生成任务上进行微调，而且在zero-shot的文本上也具有良好的零样本能力。

2023-09-17 17:31:33 450 3

原创【知识图谱搭建到应用】--知识存储--04

前面几篇在讲述骗理论的内容，本片主要描述如何将清洗过的结构化数据存储在转换成三元组并存储起来，并于后续使用。

2023-06-05 22:07:49 761

原创【知识图谱搭建到应用】--知识表示--02

有众多的图数据库、原生数据库能用存储RDF三元组数据，并且上前也说了RDF序列化有多种保存格式，往往会存在格式之间的转换，rdflib这个pyhon库可以解析基本所有的RDF三元组格式，并且再将其序列化为其他的格式，实现RDF文件格式的转换。如，一个城市的人口是随时间变化的，这意味着每当查询人口时，都带有一个隐式的条件，即日期；知识图谱中基础是“三元组”，可理解为主-谓-宾，两头是两个实体，中间是两者之间的关系，而在三元组的基础上因为关系的存在构成可表示负责知识的语义网，但本质的关系单元还是三元组。

2023-06-05 21:15:38 1171 1

原创【知识图谱搭建到应用】--知识搜集与建模--03

对于知识图谱，最基本的、基础的就是知识；知识图谱中的知识，其实不是什么难以理解、高深莫测的内容，可以是对某一件事情的说明，可以是某一事物的特征，可以是两者之间的关系，直白说知识就是对某一领域或整个开发域中存在事物的“记录”，并且一般是事实性的记录，因为只有真的知识才是有效的。若针对某一垂直领域构建知识图谱，知识收集和建模应该是相辅相成的；项目或工作开始初期，肯定是有一个目标是，比如问答系统就是能覆盖具体事物、具体属性、具体关系等，从业务层面抽离出一个知识架构；

2023-05-15 22:19:32 117 1

原创【知识图谱搭建到应用】--序言--01

从我个人和开这篇专栏的角度来说，最开始接触到知识图谱是因为需要开发一个基于知识的问答系统，虽然因为生成式范式的根本原因使得ChatGPT在知识回答方面目前还存在大大小小的问题，但后续这个问题肯定也会被解决，像知识抽取、问答等传统NLP领域就真的不需要在专门花精力去做了。可是这次不同，ChatGPT其功能之强大，使用之便利，落地之快速，都是之间的热点技术所不及的，越来越多的人将之称为第四次工业革命，其对我们的日常生活、工作方式都已产生巨大的影响。本专栏开展过程中有以下几点期望。

2023-04-30 22:55:09 490