Skip to content

MOSS-TTS-Local 如何使用固定的speaker来合成音频呢? #195

Description

@zyy-fc

现在我有3个说话人的数据,我想通过微调的方式使得MOSS-TTS-Local模型能够学会这三个人的音色和韵律,然后推理的时候通过输入指定的speaker id来合成音频,请问该如何做呢?

如何区分多说话人呢?除了采用zero-shot的方式,有比如像CosyVoice3这种通过system prompt来设定的方式吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Fields

    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions