Google 新AI 技术根据视频像素和文本提示为视频创建声音

发布时间：06-30 编辑：Google

拥有能够为你创建视频的 AI 是一回事，但如果你希望它们还包含声音呢？Google 的 DeepMind 团队现在表示，他视频到音频V2A（Video to Audio V2A）技术，可以根据文本提示和视频像素生成音乐、音效和语音等音轨。系统还能够仅使用视频像素创建音频，因此如果不想使用文本提示也可以不需要。

640_wx_fmt=webp&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1.webp.png

最近的这类新闻可能会让声音制作人们在座位上感到不安，但 V2A 似乎让人更加绝望，能够与自动视频生成服务一起工作，生成视频的同时就生成了音频。

文本提示方面很有趣，因为除了能够输入“正面提示”来引导音频朝你想要的方向发展外，还可以添加“负面提示”，告诉 AI 避免某些内容。这意味着你以为任何一段视频生成潜在无限数量的不同音轨。

例如，这段视频是使用提示“在舞台上的一名鼓手，周围是闪烁的灯光和欢呼的人群”生成的。

工作原理

V2A 利用基于扩散的模型进行音频生成，DeepMind 发现这是生成与视频片段无缝对齐的引人入胜且逼真的音频的最有效方法。该过程首先将视频输入编码为压缩表示。然后，扩散模型在用户提供的视觉数据和自然语言提示的指导下，从随机噪声中迭代细化音频。这允许 V2A 生成与视频所需的情绪、语气和内容非常匹配的音频。

为了进一步提高质量并让用户更好地控制生成的音频，DeepMind 加入了额外的训练数据，例如 AI 生成的音频注释和对话记录。通过从这些额外的上下文中学习，V2A 可以更好地将特定声音与相应的视觉场景相关联，同时还可以响应注释或脚本中提供的信息。

应用和潜在影响

V2A的潜在应用是广泛而多样的。它可用于：

为无声电影生成配乐：V2A 可以通过添加动态配乐和音效来增强观看体验，从而为经典无声电影注入新的活力。

增强档案素材：通过添加相关音效和对话，可以使历史视频和纪录片更具吸引力和信息量。

从头开始创建整部电影：V2A 允许创作者仅使用文本提示和 AI 生成具有完美同步音频和视觉效果的整部电影，从而彻底改变电影制作。

提高可访问性：V2A 可用于生成视频的音频描述，使视障人士更容易访问它们。

个性化音频体验：V2A 可以允许用户根据自己的喜好自定义现有视频的音频。

然而，V2A 的广泛采用也可能对电影、电视和其他涉及视听制作的行业产生重大影响。如果人工智能能够大规模生成高质量的音频和视频内容，那么人们担心这些领域的人类创作者和专业人士会被取代工作。Deep Mind意识到了这些问题，并致力于采取负责任的人工智能开发方法。

V2A 会与传统音频制作正面交锋

特征	DeepMind V2A	传统音频制作
速度	分钟或小时	数天或数周
成本	可能要低得难以想象	比较昂贵
灵活性	适应性强	受限于人类的技能和经验
可扩展性	轻松处理大量视频	耗时费力