Skip to content

[Feature]建议支持 VoxCPM TTS #8944

Description

@LiuAliez-os

Description / 描述

目前,AstrBot 已支持 OpenAI TTS、Fish Audio、Azure TTS 以及 GPT-SoVITS-Inference(GSVI)等多种 TTS 后端。这些方案都很优秀,但语音合成技术发展迅速。VoxCPM 作为近期涌现的开源模型,带来了独特的优势,尤其能为追求更高质量、更强表现力和多语言能力的用户提供显著帮助。可惜的是VoxCPM并非OpenAI格式(
我希望AstrBot能为 对 VoxCPM(最好也支持 VoxCPM2)增加原生支持,作为一个新的 TTS 提供方。VoxCPM 是一种无需分词器(tokenizer-free)的端到端系统,直接生成连续语音表征。其对 AstrBot 有价值的核心特性包括:

多语言与方言:支持 30 种语言和 9 种中文方言(如四川话、粤语等)。
语音克隆:仅需 3~5 秒音频即可实现零样本克隆。
高保真音质:可输出 48kHz 的录音室级音频。
实时流式合成:在 RTX 4090 上 RTF(实时因子)约 0.3,延迟很低。
上下文感知韵律:能根据文本自动推断合适的语调与情感表达。
商业友好:采用 Apache-2.0 许可证。

Use Case / 使用场景

正如上述所说,VoxCPM的功能与TTS一致,但是在某些地方会更加优秀(

Willing to Submit PR? / 是否愿意提交PR?

  • Yes, I am willing to submit a PR. / 是的,我愿意提交 PR。

Code of Conduct

Metadata

Metadata

Assignees

No one assigned

    Labels

    area:providerThe bug / feature is about AI Provider, Models, LLM Agent, LLM Agent Runner.enhancementNew feature or request

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions