当前位置:首页  音频新闻  硬件新闻  音频新闻音频正文

Google 新AI 技术根据视频像素和文本提示为视频创建声音

发布时间:06-30 编辑:Google

拥有能够为你创建视频的 AI 是一回事,但如果你希望它们还包含声音呢?Google 的 DeepMind 团队现在表示,他视频到音频V2A(Video to Audio V2A)技术,可以根据文本提示和视频像素生成音乐、音效和语音等音轨。系统还能够仅使用视频像素创建音频,因此如果不想使用文本提示也可以不需要。

Google 新AI 技术根据视频像素和文本提示为视频创建声音




640_wx_fmt=webp&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1.webp.png






最近的这类新闻可能会让声音制作人们在座位上感到不安,但 V2A 似乎让人更加绝望,能够与自动视频生成服务一起工作,生成视频的同时就生成了音频




文本提示方面很有趣,因为除了能够输入“正面提示”来引导音频朝你想要的方向发展外,还可以添加“负面提示”,告诉 AI 避免某些内容。这意味着你以为任何一段视频生成潜在无限数量的不同音轨。




例如,这段视频是使用提示“在舞台上的一名鼓手,周围是闪烁的灯光和欢呼的人群”生成的。



 



工作原理


V2A 利用基于扩散的模型进行音频生成,DeepMind 发现这是生成与视频片段无缝对齐的引人入胜且逼真的音频的最有效方法。该过程首先将视频输入编码为压缩表示。然后,扩散模型在用户提供的视觉数据和自然语言提示的指导下,从随机噪声中迭代细化音频。这允许 V2A 生成与视频所需的情绪、语气和内容非常匹配的音频。




为了进一步提高质量并让用户更好地控制生成的音频,DeepMind 加入了额外的训练数据,例如 AI 生成的音频注释和对话记录。通过从这些额外的上下文中学习,V2A 可以更好地将特定声音与相应的视觉场景相关联,同时还可以响应注释或脚本中提供的信息。






应用和潜在影响


V2A的潜在应用是广泛而多样的。它可用于: 


为无声电影生成配乐:V2A 可以通过添加动态配乐和音效来增强观看体验,从而为经典无声电影注入新的活力。 




增强档案素材:通过添加相关音效和对话,可以使历史视频和纪录片更具吸引力和信息量。 




从头开始创建整部电影:V2A 允许创作者仅使用文本提示和 AI 生成具有完美同步音频和视觉效果的整部电影,从而彻底改变电影制作。 




提高可访问性:V2A 可用于生成视频的音频描述,使视障人士更容易访问它们。 




个性化音频体验:V2A 可以允许用户根据自己的喜好自定义现有视频的音频。




然而,V2A 的广泛采用也可能对电影、电视和其他涉及视听制作的行业产生重大影响。如果人工智能能够大规模生成高质量的音频和视频内容,那么人们担心这些领域的人类创作者和专业人士会被取代工作。Deep Mind意识到了这些问题,并致力于采取负责任的人工智能开发方法。


V2A 会与传统音频制作正面交锋


特征DeepMind V2A传统音频制作
速度分钟或小时数天或数周
成本可能要低得难以想象比较昂贵
灵活性适应性强受限于人类的技能和经验
可扩展性轻松处理大量视频耗时费力



Google DeepMind 承认 V2A 目前有一些限制——音频的质量目前依赖于视频的质量,并且在生成语音时的“唇语同步”也不完美——但他们表示正在进一步研究,以解决这些问题。


Google公司致力于收集来自不同创作者和电影制作人的反馈,实施合成水印以防止滥用,并在考虑任何公开发布之前进行严格的安全评估。



立即咨询低价
您可以根据下列意向选择快捷留言

我对产品很感兴趣,请尽快联系我!

请问我所在的地区有商家吗?

我想详细了解购买流程!

购买该产品享受八折优惠,还能得到技术支持?

我想购买请电话联系我!

购买所需要的费用有哪些?

产品很好,请尽快联系我详谈!

*姓名:
*电话:
留言:
*验证码:

声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布

最新音频交流