-
-
Notifications
You must be signed in to change notification settings - Fork 2.4k
[Feature]建议支持 VoxCPM TTS #8944
Copy link
Copy link
Open
Labels
area:providerThe bug / feature is about AI Provider, Models, LLM Agent, LLM Agent Runner.The bug / feature is about AI Provider, Models, LLM Agent, LLM Agent Runner.enhancementNew feature or requestNew feature or request
Description
Metadata
Metadata
Assignees
Labels
area:providerThe bug / feature is about AI Provider, Models, LLM Agent, LLM Agent Runner.The bug / feature is about AI Provider, Models, LLM Agent, LLM Agent Runner.enhancementNew feature or requestNew feature or request
Type
Fields
Give feedbackNo fields configured for issues without a type.
Description / 描述
目前,AstrBot 已支持 OpenAI TTS、Fish Audio、Azure TTS 以及 GPT-SoVITS-Inference(GSVI)等多种 TTS 后端。这些方案都很优秀,但语音合成技术发展迅速。VoxCPM 作为近期涌现的开源模型,带来了独特的优势,尤其能为追求更高质量、更强表现力和多语言能力的用户提供显著帮助。可惜的是VoxCPM并非OpenAI格式(
我希望AstrBot能为 对 VoxCPM(最好也支持 VoxCPM2)增加原生支持,作为一个新的 TTS 提供方。VoxCPM 是一种无需分词器(tokenizer-free)的端到端系统,直接生成连续语音表征。其对 AstrBot 有价值的核心特性包括:
多语言与方言:支持 30 种语言和 9 种中文方言(如四川话、粤语等)。
语音克隆:仅需 3~5 秒音频即可实现零样本克隆。
高保真音质:可输出 48kHz 的录音室级音频。
实时流式合成:在 RTX 4090 上 RTF(实时因子)约 0.3,延迟很低。
上下文感知韵律:能根据文本自动推断合适的语调与情感表达。
商业友好:采用 Apache-2.0 许可证。
Use Case / 使用场景
正如上述所说,VoxCPM的功能与TTS一致,但是在某些地方会更加优秀(
Willing to Submit PR? / 是否愿意提交PR?
Code of Conduct