当前位置:首页  音频新闻  厂商动态  新品快讯音频正文

AudioCraft测评:Meta新开源AI音频工具,文本变音乐真的可行吗?

发布时间:08-19 编辑:Cedric聊AI

8月2日,Meta正式开源了一款名为AudioCraft的AI音频和音乐生成工具。该工具声称可以直接从文本描述和参考音乐生成高质量的音频和音乐。AudioCraft包含MusicGen、AudioGen和EnCodec三个模型,分别实现音乐生成、音频生成和自定义音频模型构建。

AudioCraft测评:Meta新开源AI音频工具,文本变音乐真的可行吗?






音乐生成是当前大家最为关心的功能之一。那么AudioCraft的MusicGen模型功能是否堪用呢?让我们来看看它的具体测评报告。

1e30e924b899a901a3e282e58141ac770008f574.webp.jpg

AudioCraft官方网站:

https://audiocraft.metademolab.com/index.html


AudioCraft Github地址:

https://github.com/facebookresearch/audiocraft


MusicGen体验方式

有以下3种方式可以来体验MusicGen:


1. 通过Hugging Face Space的网页直接体验:

体验链接:


https://huggingface.co/spaces/facebook/MusicGen


Hugging Face Space操作界面

操作流程相对直观:左侧填写音乐描述,中部可选择上传参考音频,点击“Generate”即可。但注意,由于大量用户体验,你可能需要排队等待,时间可超过20分钟。这个模式下生成的音乐长度固定为15秒,并默认使用“musicgen-melody”模型。

2. 使用Google的Colab进行更深度体验:


Colab项目链接:

https://colab.research.google.com/drive/1JlTOjB-G0A2Hz3h8PK63vLZk4xdCI5QB?usp=sharing


点击代码部分的运行“▷”按钮,等待运行完成,将下方运行日志拉到最下面,倒数几行中有一行是“Running on public URL: ...”,点击后面的链接打开测试页面。



Colab部分代码运行日志

与Hugging Face Space相似,但在这里,你有更多的自由度来选择模型和参数。除了“musicgen-melody”模型以外,还有“musicgen-small”,“musicgen-medium”和“musicgen-large”,这三个模型只能用于文字描述生成音乐。使用越大的模型,生成的音乐越丰富,但消耗的算力越大,时间也越长。此外,最长的音乐生成时长可达120秒,为音乐爱好者提供了更丰富的选择空间。



Colab Gradio操作界面

输入完描述并设置完参数后,可以点击“Submit”开始生成音乐。点击“Interrupt”按钮可以提前终止生成。音乐生成完后可以试听和点击下载。



Colab Gradio生成音乐界面

3. 本地运行MusicGen:适用于拥有高性能独立显卡的用户


这种方式下,你需要具备一些编程背景。你需要在本地有Python环境, 以及Microsoft Visual C++ 14.0 或更高版本的编译工具。将全部代码下载到本地,之后运行“pip install -U audiocraft”安装所需要的库,如果当中下载中断,可以再次运行相同代码。

同时还需要根据你电脑的显卡安装PyTorch(例如“pip install torch==2.0.1+cu118”),不知道具体装什么版本的可以先安装默认的,再根据报错信息调整。Linux操作系统还可以安装Triton从而优化运行(“pip install triton”)。最后需要安装运行工具Jupyter Notebook“pip install jupyter”。


全部安装完成后,打开Jupyter Notebook,运行/demos/musicgen_demo.ipynb脚本,分别设定使用的模型与相关参数,最后在运行模式“续写音乐”,“文字生成音乐”或者“音频+文字生成音乐”中选择一个,并且在对应的位置输入相关的文字描述和音频位置。





需要修改的参数与运行的代码

设置完相关参数后分别按顺序运行使用模型、 参数设置、运行模式这三段代码,即可生成音乐。


注,使用本地生成音乐建议使用16G显存以上的显卡,我实测8G显卡只能使用medium的模型生成大约2分钟不到的音乐。


生成效果评测


这是大家最为关注的部分。我尝试了多次生成,最终选择了一段较为满意的作品分享。这段音乐的描述为“peace and smooth rhythm piano with C major and Andante speed”,选用的是large模型,生成了2分钟的作品。


AudioCraft_2分钟

02:00

来自Cedric聊AI

该段音乐可谓“勉强及格”,基本符合prompt的要求,但总体感觉比较单调乏味,不够丰满流畅。初次试听,我认为它在某种程度上符合了我的期待,但仍有改进空间。与绘画不同,音乐的生成更为复杂,要考虑旋律、和声、节奏等多种因素,因此对于描述的准确性要求更高。


音乐改编的话,我使用了他的sample,你可以听一下原版和根据prompt“An 80s driving pop song with heavy drums and synth pads in the background”改编的版本。我觉得只有10秒的效果还可以。


综合评价


Google的Colab提供了一个简便的体验方式,不需专业知识,非常友好。但就音乐生成效果来说,AudioCraft或许能为专业人士提供一些灵感,但对于普通用户可能仍需要时间去适应和学习,尤其是在精准描述音乐的乐器、节奏、风格这些专业术语方面。然而,对于需要音乐背景的自媒体创作者,AudioCraft可以确保避免侵权问题,这也是其不可忽视的优势。同时,生成时间与鉴定时间较长,应用场景的局限,可能也是生成式音乐工具的要考虑的。


最后,AudioGen和Encodec这两款AudioCraft工具,目前只能通过第三种本地运行方式进行体验。如果你对AI音频生成领域感兴趣,欢迎下载试用,并与我分享你的真实感受。


Meta开源AudioCraft,无疑推动了AI音频生成技术的发展。我们期待看到更多创新机构加入这一领域,共同打造出易用且功效显著的音频AI系统。文本转音乐能否实现,仍需时间检验;而AudioCraft目前可以说是踏出了积极的第一步。


未来,我还将为大家呈现更多的AI工具测评与介绍,如果您喜欢本篇内容,请点赞支持,并关注我以获取更多更新!


声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布

最新音频交流