VibeVoice 是一个开源的 语音合成(Text-to-Speech, TTS)与语音识别(ASR)AI 框架,目标是为研究、开发者和创作者提供高质量、可扩展的多说话人语音生成工具。它不同于传统简单 TTS,专注以下几个前沿能力:
🎙️ 核心特点
-
✅ 长篇连续语音生成
能从文本合成 超长音频(可达 ~90 分钟以上),保持说话风格一致、不漂移、自然连贯。 -
👥 多说话人对话支持
最多支持 4 个不同说话者 的对话交替生成,非常适合 播客、对白、访谈 类型的内容。 -
🌐 跨语言与表达能力
提供中文与英文支持,并能在对话中自然切换语言表达,同时生成带情感的语调与甚至 AI 即兴歌声 示例。 -
🚀 低延迟实时 TTS(Realtime 模式)
除了大模型长篇输出,它还包含支持 实时语音生成的轻量版模型(VibeVoice-Realtime-0.5B),可对单讲话者文本进行快速流式输出。 -
⚙️ 先进技术架构
采用 超低帧率连续语音标记器(Acoustic/Semantic Tokenizers 约 7.5 Hz)和 next-token diffusion + 大语言模型(LLM)联合生成结构,在保证音质的同时提升长序列效率。 -
📚 开放研究体验
项目代码、预训练模型、示例和文档都在 GitHub 上开放,使用 MIT 许可证(自由研究与开发)。