思辨绘本/青少英语
任选一门*1课时
基于文本的图像生成模型具有惊人的效果,可以说是目前最流行的讨论AI研究领域,专家和外行都可以看热闹。
如果让照片动起来,效果会不会更好?
近期Google投稿ICLR 2023年的一篇论文在生成模型行业掀起了另一波浪潮。除了让照片动起来,文章中提出的Phenaki在文本描述中还可以添加模型,使视频内容更加丰富。
例如,输入文本:
A photorealistic teddy bear is swimming in the ocean at San Francisco.
一只逼真的泰迪熊在旧金山的海里游泳。
The teddy bear goes under water.
泰迪熊进入水中。
The teddy bear keeps swimming under the water with colorful fishes.
泰迪熊一直在水里游泳,旁边有五颜六色的鱼
A panda bear is swimming under water.
大熊猫在水下游泳
假设说前面还算合理,看到最后泰迪熊熊变成大熊猫,真是绷不住。
再举一个例子,仍然可以完美地恢复剧本。
Side view of an astronaut is walking through a puddle on mars
航天员在火星上穿过水坑的侧影
The astronaut is dancing on mars
在火星上跳舞的宇航员
The astronaut walks his dog on mars
宇航员带着他的狗在火星上散步
The astronaut and his dog watch fireworks
宇航员和他的狗看烟火
一人一狗,外太空,看着有点感动的事。
与文本引导的图像生成模型相比,视频生成的会计成本更高,高质量的文本-视频培训数据更少,输入的视频长度不均匀,更难直接从文本中生成视频。
为了解决这个问题,Phenaki介绍了一种用于学习视频表达的新模型,在离散后压缩视频tokens进行表征,tokenizer在时间维度中使用因果注意(causal attention)处理不同长度的视频,然后使用预训练的双向掩码Transformer模型对文本进行编码,直接生成视频。
为了解决数据问题,研究人员提出了一种联合大量文本-图像语料库和少量文本-视频语料库的联合训练方法,以实现更好的泛化性能。
与之前的视频生成方法相比,Phenaki支持随机领域的文本故事,情节可以随时间变化,可以生成随机长度的视频。
这也是论文研究第一次从可变文本提醒中生成视频,文本中提出的视频编码器/解码器在时间和空间上的质量优于其他模型。
从文本到视频
从本质上讲,虽然视频是一个图像序列,但要产生一个长而连贯的视频并不容易。
图像领域并不缺乏训练数据,例如LAION-5B, FFT4B数据包括数十亿的文本-图像数据对,而文本-视频数据集如WebVid只有1000万个视频,远远不足以支持开放领域的视频生成。
在计算能力方面,训练和推理图像生成模型很快就把GPU性能已经耗尽,能否挤出计算空间留给视频生成解码器也是一个需要解决的问题。
在理想的前提下,视频生成模型必须能够生成具有随机长度的视频。同时,它有能力以当前时刻的文本提醒为条件,这些文本提醒将随着时间的推移而改变。
这种能力可以明显区分视频和移动图像,为艺术、设计、内容创作等现实世界的创造性应用开辟道路。
在此之前,有条件的视频生成是基于故事的(story based conditional video generation)这是一个从未被探索过的领域,这是第一篇针对这一目标的论文。
要想运用传统的深度学习方法,就不可能直接从数据中学习视频生成,因为没有基于故事的数据可以学习。
为了实现这一目标,研究人员Phenaki设计模型有两个组件,一个编码器-解码器模型用于将视频压缩成离散的模型embeddings,以及一个Transformer模型,文本embeddings翻译成视频tokens,文本向量由预训练模型组成T5X进行编码。
1、编码器-解码器视频模型:C-VIVIT
在这个模块中要解决的关键问题是如何获得视频的压缩表征。以前关于文本转视频的工作没有对每一帧图像进行编码,但对视频长度有限制;如果不使用固定长度的视频编码器,则无法生成可变长度的视频。
C-ViViT是ViViT因果结合专门调整了视频生成任务的模型结构,可以在时间和空间维度上压缩视频,在时间维度上保持自我回归,从而允许随机长度的视频从自我回归中生成。
首先是时间和空间Transformer中删掉[CLS]标记,然后计算空间编码器计算的所有空间token使用时间Transfomrer,与ViViT中对[CLS]单次标记Transformer不同的操作。
最重要的是,ViViT编码器需要一个固定长度的视频输入,因为它及时使用它all-to-all注意。把它变成因果注意后,C-ViViT编码器将成为自回归,允许输入帧的总数可变。
2、使用双向Transformers从文本中生成视频
文本到视频的任务可以被视为sequence-to-sequence问题是预测与输入文本向量对应的视频tokens
大部分的seq-to-seq从回归中使用模型Transformer,根据编码的文本特征依次预测图像或视频tokens,即采样时间与序列长度成线性相关,对于长视频的生成是不可接受的。
Phenaki选择双向掩码Transformer,采样时间通过小而固定的采样步骤来减少,而不考虑不同的视频序列长度和双向采样时间Transfomrer它可以同时预测不同的视频tokens
在每个训练步骤中,首先从0到1随机选择一个掩码比例,并根据视频长度随机标注特殊代码[MASK]更换一部分token
然后根据给定的文本向量和未掩码视频tokens,通过最小化掩码token学习模型参数的交叉熵损失。
在推理过程中,首先把所有的视频放在首位tokens用特殊词标记[MASK],然后,在每个推理步骤中,根据文本向量和未掩码的视频(预测)tokens,平行预测所有被掩码(未知)的视频token
在每个取样步骤中,选择一个预测token比例,其余tokens下一步将再次掩码和预测。
对于长视频的推理和自返回生成,使用预训练(classifier-free)控制生成与文本条件的一致性。
第一个视频一旦生成,就可以使用了C-ViViT对最后一段视频中最终K个生成的帧进行编码,其他帧自动递归推理。
用C-ViViT计算编码器token初始化MaskGIT,并继续生成剩余的视频标记,需要文本输入。
在视频推理过程中,文本条件可以是相同的,也可以是不同的,这也使得模型能够动态地在以前和当前文本条件的视觉内容之间建立视觉过渡,有效地生成一个由输入文本描述的视觉故事。
最后,研究人员在1500万FPS文本-视频对,5000万文本-图像对,以及4亿混合语料库LAION-400M最后进行训练Phenaki模型参数为18亿。
batch size在512的情况下训练100万步,不到5天,其中80%的训练数据来自视频数据集。
在视觉定性评价中,可以看到模型对视频中的人物和背景动态有很高的控制水平,可以通过文本提醒(如普通视频、卡通或铅笔画)来调整外观和视频风格
在定量比较方面,Phenaki在zero-shot在设置下实现与其他模型相当的生成质量。
在考虑训练数据的影响时,不难发现在只使用视频训练模型和使用更多的图像数据训练模型之间存在性能测量。
参考资料:
思辨绘本/青少英语
任选一门*1课时