现在我有3个说话人的数据,我想通过微调的方式使得MOSS-TTS-Local模型能够学会这三个人的音色和韵律,然后推理的时候通过输入指定的speaker id来合成音频,请问该如何做呢? 如何区分多说话人呢?除了采用zero-shot的方式,有比如像CosyVoice3这种通过system prompt来设定的方式吗?
现在我有3个说话人的数据,我想通过微调的方式使得MOSS-TTS-Local模型能够学会这三个人的音色和韵律,然后推理的时候通过输入指定的speaker id来合成音频,请问该如何做呢?
如何区分多说话人呢?除了采用zero-shot的方式,有比如像CosyVoice3这种通过system prompt来设定的方式吗?