发布时间:12-23
编辑:Google
Google应用多模态大型语言模型解决视频生成任务
Google指出,即使是目前最先进的视频生成模型,也只能生成小幅度的动作,在生成大动作的时候,就会出现明显的破绽。Google探索大型语言模型在视频生成领域的应用,开发出VideoPoet,这是一个能够执行各种视频生成、任务的大型语言模型,研究人员指出,诸如Imagen Video等视频生成模型,都是以扩散模型为基础。
由于大型语言模型目前在各个领域,包括语言、程序代码和声音等,都具有极强的处理能力,Google认为大型语言因为在多种模态上优秀的学习能力,已经成为重要的技术标准。因此不同于该领域的其他模型,VideoPoet将视频生成能力集成到单一大型语言模型中,而非依赖各项针对性任务训练的独立组件。
视频生成任务采用大型语言模型的优势,在于可以利用现有的高效训练基础设施,但研究人员也指出,大型语言模型的本质上是处理离散的标记(Token),而这对于生成视频是一个挑战。因此研究人员开发了专用的视频和音频标记器(Tokenizer),将视频和音频剪辑片段编码为离散的标记串行,而这个离散的标记串行也能够被转换回原始表示。
VideoPoet借由使用多种标记器,学习处理视频、图像、音频和文本等不同模态。当模型根据特定上下文条件生成相对应的标记后,这些标记就可以通过标记器转换回可查看的表示形式,生成视频和音频内容。
VideoPoet适应短视频格式默认生成纵向视频,并在进行视频风格化时,能够预测光流(Optical Flow)以及深度资讯(下图)。同时VideoPoet也可以生成音频,通过先从模型生成2秒的音频片段,接着就可在没有文本指引的情况下,预测接下来的音频。而这也让VideoPoet单一模型,就可生成视频和配音。
VideoPoet能以前一秒的视频预测下1秒的视频,以连续预测的方式达到生成更长视频的目的,而这种方法不只可以有效延长视频,而且经过多次迭代后仍能保持视频主体的外观不变。VideoPoet生成的视频也能够以互动的方式编辑,像是改变视频中物体的运动,使其执行不同的动作,且编辑会从视频的第一个影格,或是中段的影格开始,提供了高度可编辑控制性。用户也可以通过文本提示,添加需要的摄影机运动方式,借此精确地控制摄影机的移动。
经过评估,VideoPoet能够良好的执行视频生成任务,在多项基准测试中,VideoPoet较其他模型表现更好。研究人员要求评估者根据偏好选择,在文本准确度方面,平均24%-35%VideoPoet的范例被认为更符合指令描述,而其他模型的比例则为8%-11%。评估者还更倾向选择VideoPoet范例,认为其中41%-54%范例呈现出更有趣的运动方式,相较于其他模型比例只有11%-21%(下图)。
VideoPoet的研究贡献在于展示大型语言模型的能力,也具有生成高度竞争力视频的能力,特别是在高品质的动作表现方面。研究人员指出,对于未来研究,他们的框架会朝向支持任意形式生成任意形式内容的方向发展。
我对产品很感兴趣,请尽快联系我!
请问我所在的地区有商家吗?
我想详细了解购买流程!
购买该产品享受八折优惠,还能得到技术支持?
我想购买请电话联系我!
购买所需要的费用有哪些?
产品很好,请尽快联系我详谈!
声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布
发布
电话
微博
公众号
回顶部