背景:多人声训练出来的模型演唱风格太单一,多次重新渲染效果差别不大,不如 synthesize v (之后简称 SV) 风格多变。这个问题可以通过多唱法弥补一些,但是多唱法目前的训练数据集结构和多人声数据集结构有冲突,不知能否解决。 问题:如何能同时利用到多唱法和多人声两种训练方式的优点,让模型的自动音高和唱法达到更好的效果? 希望开发人员能在百忙之中回复下信息~😊