VibeVoice - 技术发现报告

VibeVoice 是微软开源的前沿语音 AI 模型家族，涵盖长语音识别（ASR）、长文本转语音（TTS）和实时语音合成（Realtime TTS），核心创新在于 7.5 Hz 超低帧率连续语音分词器和 next-token diffusion 框架，支持最长 60 分钟 ASR 和 90 分钟 TTS 的单次端到端处理。

VibeVoice - 技术发现报告

基本信息

名称： VibeVoice
官方地址： https://vibevoice.github.io （项目主页）
GitHub 仓库： https://github.com/microsoft/VibeVoice
当前版本： 无固定版本号标签，以滚动更新方式发布（最近推送 2026-04-18）
License： MIT
主要编程语言： Python
首次发布日期： 2025-08-25（GitHub 仓库创建日期，最初发布 TTS 模型）
创建者/维护团队： Microsoft（微软）语音 AI 研究团队

一句话定位

VibeVoice 是微软开源的前沿语音 AI 模型家族，涵盖长语音识别（ASR）、长文本转语音（TTS）和实时语音合成（Realtime TTS），核心创新在于 7.5 Hz 超低帧率连续语音分词器和 next-token diffusion 框架，支持最长 60 分钟 ASR 和 90 分钟 TTS 的单次端到端处理。

核心特性

超长音频单次处理 — VibeVoice-ASR 支持单次处理最长 60 分钟连续音频（64K token 上下文窗口），VibeVoice-TTS 支持单次生成最长 90 分钟连续语音（最多 4 个说话人），无需手动切片，完整保留上下文语义和说话人一致性。
连续语音分词器（Continuous Speech Tokenizers） — 核心创新，包含声学分词器（Acoustic Tokenizer）和语义分词器（Semantic Tokenizer），以 7.5 Hz 超低帧率运行，高效压缩音频信息同时保持高保真度，显著提升长序列处理效率。
Next-Token Diffusion 框架 — 结合 LLM（基于 Qwen2.5）理解文本上下文和对话流，扩散模型（Diffusion Head）生成高保真声学细节，实现高质量、富有表现力的语音合成。
结构化 ASR 输出 — VibeVoice-ASR 单次推理同时完成语音识别、说话人日志（Diarization）和时间戳标注，输出结构化的"谁（Who）、何时（When）、说了什么（What）"信息，支持 50+ 种语言和自定义热词（Hotwords）。
实时流式 TTS — VibeVoice-Realtime-0.5B 轻量级模型（0.5B 参数），首声音延迟约 200-300 毫秒，支持流式文本输入和约 10 分钟长语音生成，适合实时对话 AI 和边缘部署。
vLLM 推理加速 — ASR 模型支持 vLLM 加速推理，适合批量处理和规模化部署场景。

社区生态

GitHub Stars： 40,264（截至 2026-04-19）
Contributors： 微软语音 AI 研究团队主导，社区活跃参与（Fork 数 4,668）
最近更新日期： 2026-04-18（GitHub 最近推送），项目处于高度活跃状态
社区讨论热度： 高。Reddit r/LocalLLaMA 社区积极讨论，知乎、掘金等中文社区有大量评测和教程文章。社区已基于 VibeVoice-ASR 构建了智能语音输入法 Vibing（支持 macOS 和 Windows）。
学术认可： VibeVoice-TTS 论文被 ICLR 2026 接收为 Oral 报告。
平台集成： VibeVoice-ASR 已集成到 Hugging Face Transformers v5（2026-03-06 起），可通过 transformers 库直接调用；同时可在 Azure AI Foundry 上部署。

技术栈定位

所属领域： 语音 AI，涵盖语音识别（ASR）和文本转语音（TTS）
解决的核心问题： 传统语音模型处理长音频时需要分段切片导致上下文丢失、说话人混淆和语义断裂。VibeVoice 通过超低帧率连续分词器和 next-token diffusion 框架实现端到端的长语音理解和生成。
替代/竞品技术：
OpenAI Whisper（ASR）— 开源 ASR 基准，但需分段处理，无结构化说话人分离
ElevenLabs（TTS）— 商业 TTS 服务，质量出色但闭源收费
ChatTTS（TTS）— 开源中文 TTS，长语音和多说话人能力有限
Fish Speech（TTS）— 开源多语言 TTS，支持语音克隆
Google USM（ASR）— Google 多语言 ASR 模型
依赖的上游技术： PyTorch、Hugging Face Transformers、vLLM、Qwen2.5（LLM 基座）、扩散模型
下游使用者/集成方： Hugging Face Transformers 用户、Azure AI Foundry 用户、ComfyUI 用户、Vibing 输入法用户、语音应用开发者

重要事件

⚠️ 注意： 2025-09-05，微软因发现 TTS 代码被滥用（生成虚假音频等不当用途），临时从仓库移除了 VibeVoice-TTS 代码。后续已恢复开源，但项目明确声明"仅限研究和开发目的，不建议在商业或实际应用中未经进一步测试和开发直接使用"。

📌 学术认可： VibeVoice-TTS 论文被 ICLR 2026 接收为 Oral 报告。

关键链接汇总

官方资源

VibeVoice GitHub 仓库 — 源码、文档、Issue
VibeVoice 项目主页 — 官方演示、论文、功能介绍

模型下载

VibeVoice-ASR - Hugging Face — ASR 模型权重
VibeVoice-TTS - Hugging Face — TTS 模型权重
VibeVoice-Realtime-0.5B - Hugging Face — 实时 TTS 模型权重
VibeVoice-Realtime-0.5B - ModelScope — 国内镜像

教程资源

VibeVoice-ASR Playground — 在线体验
VibeVoice-Realtime Colab — 实时 TTS 快速体验
vLLM ASR 推理指南 — vLLM 加速推理文档

社区资源

Vibing 语音输入法 — 基于 VibeVoice-ASR 的智能语音输入法（macOS / Windows）
Reddit r/LocalLLaMA 讨论 — 社区评测和讨论
知乎 - 微软开源 VibeVoice-ASR — 中文社区介绍
VibeVoice Community Fork — 社区维护 fork

信息来源

GitHub - microsoft/VibeVoice — README、项目结构、历史记录 — 获取日期：2026-04-19
GitHub API - microsoft/VibeVoice — Stars（40,264）、Forks（4,668）、Issues（125）等元数据 — 获取日期：2026-04-19
Hugging Face - VibeVoice-Realtime-0.5B — 模型规格、延迟数据 — 获取日期：2026-04-19
知乎 - 微软开源语音识别模型 VibeVoice-ASR — ASR 特性、参数量、语言支持 — 获取日期：2026-04-19
ToSea Blog - Microsoft VibeVoice Guide — 综合介绍和竞品对比 — 获取日期：2026-04-19