🎉 Fish Audio 团队推出 Fish Agent v0.1 + Fish Speech 1.4 技术报告 🚀
Fish Agent
核心新特性:
- 真正的端到端架构 - 无语义分层
- 零样本声音克隆
- 紧凑的 3B 参数规模, 便于开发
- 支持文本和音频输入
- 超快的 200ms 首包延迟(TTFA, Time To First Audio)
模型地址:
https://huggingface.co/fishaudio/fish-agent-v0.1-3b
在线体验:
https://huggingface.co/spaces/fishaudio/fish-agent
Fish Speech 1.4 技术报告
主要创新点:
-
双自回归架构 (Dual-AR):
- 引入了由”慢变换器”和”快变换器”组成的串行快慢双自回归架构
- 慢变换器处理全局语言结构和语义内容
- 快变换器处理详细的声学特征, 优化 codebook 使用
-
不依赖音素转换:
- 利用 LLM 直接进行语言特征提取
- 避免了传统的 grapheme-to-phoneme (G2P) 转换
- 简化了合成管道, 增强了多语言支持
-
FireFly-GAN (FF-GAN):
- 基于分组有限标量向量量化(GFSQ)的新型声码器架构
- 实现了接近 100% codebook 利用率
- 在保持高质量输出的同时提高了压缩比
性能优势:
-
多语言支持:
- 在 720,000 小时的多语言数据上训练
- 包括英语、中文各 300,000 小时, 以及其他语系各 20,000 小时
- 能够自然处理混合语言内容
-
推理性能:
- 在 RTX 4060 上可达到 1:5 的实时率
- 在 RTX 4090 上可达到 1:15 的实时率
- 延迟仅 150ms, 远低于其他 TTS 系统
-
实验结果:
- 词错率(WER)为 6.89%, 优于基准模型
- 说话人相似度接近真实语音
- 主观平均意见得分(MOS)达到 4.05