MOSS-TTS-Local 如何使用固定的speaker来合成音频呢？

现在我有3个说话人的数据，我想通过微调的方式使得MOSS-TTS-Local模型能够学会这三个人的音色和韵律，然后推理的时候通过输入指定的speaker id来合成音频，请问该如何做呢？

如何区分多说话人呢？除了采用zero-shot的方式，有比如像CosyVoice3这种通过system prompt来设定的方式吗？