发布时间:08-19
编辑:Cedric聊AI
AudioCraft测评:Meta新开源AI音频工具,文本变音乐真的可行吗?
音乐生成是当前大家最为关心的功能之一。那么AudioCraft的MusicGen模型功能是否堪用呢?让我们来看看它的具体测评报告。
AudioCraft官方网站:
https://audiocraft.metademolab.com/index.html
AudioCraft Github地址:
https://github.com/facebookresearch/audiocraft
MusicGen体验方式
有以下3种方式可以来体验MusicGen:
1. 通过Hugging Face Space的网页直接体验:
体验链接:
https://huggingface.co/spaces/facebook/MusicGen
Hugging Face Space操作界面
操作流程相对直观:左侧填写音乐描述,中部可选择上传参考音频,点击“Generate”即可。但注意,由于大量用户体验,你可能需要排队等待,时间可超过20分钟。这个模式下生成的音乐长度固定为15秒,并默认使用“musicgen-melody”模型。
2. 使用Google的Colab进行更深度体验:
Colab项目链接:
https://colab.research.google.com/drive/1JlTOjB-G0A2Hz3h8PK63vLZk4xdCI5QB?usp=sharing
点击代码部分的运行“▷”按钮,等待运行完成,将下方运行日志拉到最下面,倒数几行中有一行是“Running on public URL: ...”,点击后面的链接打开测试页面。
Colab部分代码运行日志
与Hugging Face Space相似,但在这里,你有更多的自由度来选择模型和参数。除了“musicgen-melody”模型以外,还有“musicgen-small”,“musicgen-medium”和“musicgen-large”,这三个模型只能用于文字描述生成音乐。使用越大的模型,生成的音乐越丰富,但消耗的算力越大,时间也越长。此外,最长的音乐生成时长可达120秒,为音乐爱好者提供了更丰富的选择空间。
Colab Gradio操作界面
输入完描述并设置完参数后,可以点击“Submit”开始生成音乐。点击“Interrupt”按钮可以提前终止生成。音乐生成完后可以试听和点击下载。
Colab Gradio生成音乐界面
3. 本地运行MusicGen:适用于拥有高性能独立显卡的用户
这种方式下,你需要具备一些编程背景。你需要在本地有Python环境, 以及Microsoft Visual C++ 14.0 或更高版本的编译工具。将全部代码下载到本地,之后运行“pip install -U audiocraft”安装所需要的库,如果当中下载中断,可以再次运行相同代码。
同时还需要根据你电脑的显卡安装PyTorch(例如“pip install torch==2.0.1+cu118”),不知道具体装什么版本的可以先安装默认的,再根据报错信息调整。Linux操作系统还可以安装Triton从而优化运行(“pip install triton”)。最后需要安装运行工具Jupyter Notebook“pip install jupyter”。
全部安装完成后,打开Jupyter Notebook,运行/demos/musicgen_demo.ipynb脚本,分别设定使用的模型与相关参数,最后在运行模式“续写音乐”,“文字生成音乐”或者“音频+文字生成音乐”中选择一个,并且在对应的位置输入相关的文字描述和音频位置。
需要修改的参数与运行的代码
设置完相关参数后分别按顺序运行使用模型、 参数设置、运行模式这三段代码,即可生成音乐。
注,使用本地生成音乐建议使用16G显存以上的显卡,我实测8G显卡只能使用medium的模型生成大约2分钟不到的音乐。
生成效果评测
这是大家最为关注的部分。我尝试了多次生成,最终选择了一段较为满意的作品分享。这段音乐的描述为“peace and smooth rhythm piano with C major and Andante speed”,选用的是large模型,生成了2分钟的作品。
AudioCraft_2分钟
02:00
来自Cedric聊AI
该段音乐可谓“勉强及格”,基本符合prompt的要求,但总体感觉比较单调乏味,不够丰满流畅。初次试听,我认为它在某种程度上符合了我的期待,但仍有改进空间。与绘画不同,音乐的生成更为复杂,要考虑旋律、和声、节奏等多种因素,因此对于描述的准确性要求更高。
音乐改编的话,我使用了他的sample,你可以听一下原版和根据prompt“An 80s driving pop song with heavy drums and synth pads in the background”改编的版本。我觉得只有10秒的效果还可以。
综合评价
Google的Colab提供了一个简便的体验方式,不需专业知识,非常友好。但就音乐生成效果来说,AudioCraft或许能为专业人士提供一些灵感,但对于普通用户可能仍需要时间去适应和学习,尤其是在精准描述音乐的乐器、节奏、风格这些专业术语方面。然而,对于需要音乐背景的自媒体创作者,AudioCraft可以确保避免侵权问题,这也是其不可忽视的优势。同时,生成时间与鉴定时间较长,应用场景的局限,可能也是生成式音乐工具的要考虑的。
最后,AudioGen和Encodec这两款AudioCraft工具,目前只能通过第三种本地运行方式进行体验。如果你对AI音频生成领域感兴趣,欢迎下载试用,并与我分享你的真实感受。
Meta开源AudioCraft,无疑推动了AI音频生成技术的发展。我们期待看到更多创新机构加入这一领域,共同打造出易用且功效显著的音频AI系统。文本转音乐能否实现,仍需时间检验;而AudioCraft目前可以说是踏出了积极的第一步。
未来,我还将为大家呈现更多的AI工具测评与介绍,如果您喜欢本篇内容,请点赞支持,并关注我以获取更多更新!
我对产品很感兴趣,请尽快联系我!
请问我所在的地区有商家吗?
我想详细了解购买流程!
购买该产品享受八折优惠,还能得到技术支持?
我想购买请电话联系我!
购买所需要的费用有哪些?
产品很好,请尽快联系我详谈!
声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布
发布
电话
微博
公众号
回顶部