当前位置:首页电脑音频新闻资讯软件新闻音频正文

Hanabi AI OpenAudio S1语音合成工具

发布时间：06-07 编辑：Hanabi AI

Hanabi AI 推出了 OpenAudio S1，一款全新的语音合成工具，他们表示该工具将情感作为 AI 配音和语音生成模型核心，可提供前所未有的实时的情感和音调控制,使用户能够像与人类演员合作一样自然地指导语音表现，调整语音、节奏和情感。

OpenAudio S1 由具有 40 亿个参数的端到端架构提供支持，并在各种文本和音频数据集上进行了广泛的训练。这种先进的配置让 S1 模型可以非常准确地捕捉到情感的细微差别和人声的微妙之处。

在正式发布前，OpenAudio S1 已提交至 Hugging Face 的 TTS Arena ，该平台类似于昔日的“Hot or Not”网站，但专为文本转语音（TTS）语音合成设计。与评分人物照片不同，用户需对两款不同语音合成引擎的输出结果进行一对一对比投票。

TTS Arena 工作原理如下：

输入您的文本并选择“合成”。

听两个不同的TTS模型合成相同的内容。

投票选出听起来更好的模型。

在排行榜上追踪模特的整体排名。你也可以在网站上创建帐户并创建自己的排行榜。

Hanabi AI与我们分享这一信息，因为OpenAudio S1目前是TTS Arena上领先的文本转语音引擎。

根据 Hugging Face 的 TTS Arena 第三方基准测试，OpenAudio S1 在关键基准测试中表现非常突出，在关键领域的优于 ElevenLabs、OpenAI 和 Cartesia：

表现力：S1 提供更细致的情感表达和音调变化，能以电影般的深度处理讽刺、喜悦、悲伤和恐惧等微妙之处。

超低延迟：S1 提供低于 100 毫秒的延迟，非常适合即时响应时间至关重要的实时应用程序，如游戏、语音助手和直播内容创建。Cartesia 和 OpenAI 等竞争对手仍然会遇到更高的延迟，导致在实时交互设置中响应不那么自然、更机器人化。

实时精细可控：借助 S1，用户不仅可以使用（生气）或（声音颤抖）等简单提示，还可以使用各种更细致或更具创意的指令，例如“自信但隐藏恐惧”。这允许为各种上下文和角色量身定制非常灵活和富有表现力的语音生成。

最先进的语音克隆：准确复制说话人的节奏和音色。

多语言、多人对话的流利度：S1 可在 11 种语言中完美执行任务，擅长在多语言环境中处理多人对话环境，支持不同语言之间的无缝过渡，而不会失去语气的一致性。

OpenAudio S1允许你使用多种标记对脚本进行“标注”，包括情感、语调，以及笑声或叹息等特定标记。系统会将这些标记作为提示，生成更具真实感的语音合成结果。

Hanabi AI 创始人兼首席执行官 Shijia Liao 表示：

“声音是传达情感最有力的方式之一，但它也是最微妙、最难复制的，同时也是让机器真正具有人性的关键。但长期以来，它一直局限于文本转语音的思维模式。归根结底，机器生成的语音与人类语音的区别在于情感的真实性。这不仅关乎你说什么，还关乎你怎么说。OpenAudio S1是首个赋予创作者像与真人演员合作一样，具有指导配音能力的 AI 语音模型。”

如果你尝试了TTS Arena或OpenAudio S1，请留下评论，并告诉我们你对当前语音合成状态的看法！

定价与可用性：

OpenAudio S1现已在Fish.Audio上线，可免费试用，订阅高级版：$15/月或$120/年。你还可访问GitHub上的OpenAudio开源TTS代码库。

官网：https://fish.audio/https://www.synthtopia.com/content/2025/06/05/tts-arena-site-is-like-hot-or-not-for-voice-synthesis/