VibeVoice | 灵狐导航主题专业版（foxnav pro)

VibeVoice 是一个开源的 语音合成（Text-to-Speech, TTS）与语音识别（ASR）AI 框架，目标是为研究、开发者和创作者提供高质量、可扩展的多说话人语音生成工具。它不同于传统简单 TTS，专注以下几个前沿能力：

✅ 长篇连续语音生成
能从文本合成 超长音频（可达 ~90 分钟以上），保持说话风格一致、不漂移、自然连贯。
👥 多说话人对话支持
最多支持 4 个不同说话者 的对话交替生成，非常适合 播客、对白、访谈 类型的内容。
🌐 跨语言与表达能力
提供中文与英文支持，并能在对话中自然切换语言表达，同时生成带情感的语调与甚至 AI 即兴歌声 示例。
🚀 低延迟实时 TTS（Realtime 模式）
除了大模型长篇输出，它还包含支持 实时语音生成的轻量版模型（VibeVoice-Realtime-0.5B），可对单讲话者文本进行快速流式输出。
⚙️ 先进技术架构
采用 超低帧率连续语音标记器（Acoustic/Semantic Tokenizers 约 7.5 Hz）和 next-token diffusion + 大语言模型（LLM）联合生成结构，在保证音质的同时提升长序列效率。
📚 开放研究体验
项目代码、预训练模型、示例和文档都在 GitHub 上开放，使用 MIT 许可证（自由研究与开发）。