多唱法和多人声训练能结合使用吗？

背景：多人声训练出来的模型演唱风格太单一，多次重新渲染效果差别不大，不如 synthesize v (之后简称 SV) 风格多变。这个问题可以通过多唱法弥补一些，但是多唱法目前的训练数据集结构和多人声数据集结构有冲突，不知能否解决。

问题：如何能同时利用到多唱法和多人声两种训练方式的优点，让模型的自动音高和唱法达到更好的效果？

希望开发人员能在百忙之中回复下信息～😊