- 我看doc里支持pause tag,但是在mosi官网的studio模式里try了多遍(如图),都没有按预期的工作(有忽视tag的、有读成”乱码“的、有停顿下读出3.2的)。这是为何,官网的模型能力和文档里的有差异么?
- 另外,在我试过众多的tts模型(开源的、商业的),moss-tts的真人感是最强的(我的case里),谢谢你们的工作。这个真人感的一个维度,比如体现在即使没有标点符号,moss也会像人一样有inline的顿挫/小停顿。但是这也带来一个side effect,就是存在有的地方的顿挫不符合预期。不知道官方是否有意识到这个问题,是否有解决办法呢?(比如tag的方式)
3.类似1的问题,doc里支持 text_5 = "您好,请问您来自哪 zuo4 cheng2 shi4?" 这样的音调控制。但是我测试下来,不像1完全不work,但是并不稳定。有时会照指令读有时又不会
3.类似1的问题,doc里支持
text_5 = "您好,请问您来自哪 zuo4 cheng2 shi4?"这样的音调控制。但是我测试下来,不像1完全不work,但是并不稳定。有时会照指令读有时又不会