-
Notifications
You must be signed in to change notification settings - Fork 679
Description
Notice: In order to resolve issues more efficiently, please raise issue following the template.
(注意:为了更加高效率解决您遇到的问题,请按照模板提问,补充细节)
🐛 Bug
To Reproduce
Steps to reproduce the behavior (always include the command you ran):
微调数据样本是不是有长度限制,当我微调添加这样的一条样本时,{"key": "762ef99a-8a9b-4838-9006-d0847b0e4380", "source": "/home/cjr/SenseVoice/data/wav/762ef99a-8a9b-4838-9006-d0847b0e4380.wav", "source_len": 74, "target": "诶诶你好你好,我张老师那个化学老师的话,我给咱们排到周日的上午可以吗。嗯。周六晚上没空是吧,对周六晚上的话,这个老师当时跟我说他没有时间,但是周六周日上午可以。哦,然后对,然后我说我跟您商量,您看您是让他分开上,就比如我们周六晚上回来,老师也可以,也可以上课,他说。还是就是说一次性让他。就是周周内都可以,你看孩子啥时候有时间。周二周三周五基本这个化学老师都有空。您看看您看就是因为咱们不是晚上,嗯上课吗。您您看您看小孩。回来啊。周二、周三、周五。对,都可以安排的。周一啊,周一可以吗?周一的话要晚太晚了有点,周一得到11点了。我看一下下周,我看看下周。稍等。10点半开始吧。下周哎,下周可以我先排一下,您稍等排个十点半,我看从下周开始,对下周开始就可以,可以十点半,您看您看会这样,就是如果觉得周内咱们不是回来的晚嘛,可能孩子还得就是洗漱那些,要不你周内排个40分钟,然后周日上午排个80分钟,然后加起来也是两个小时。嗯,行,可以吧。嗯,这样上下来的话,孩子不会特别累,不然你让他一次性上太长了,他不怕他累。那周日的话,我从9点开始先这样化学先这样安排吧,然后那个物理正好被那个化学错开给他。物理星期六晚上他嗯,先试听一下,看能不能星期六晚上安排一下,可以可以那是吧,可以可以那我给他安排。那你看那个化学的话,我从我排到周日早上9点咋样。还是起早一点。嗯,9点就可以了。行行,那我化学那个物理的话,我再找一个女老师让她听一下周六。他周六这段时间没时间是吧,就是明后天。明后天。试听啊可以啊也可以是吧,明后天试听的话,是不是要晚一点,基本上在10点半。对对对,哦,那行那行,那我先找老师,然后看看老师有没有那个匹配的时间。哎,好嗯,行行行,然后像化学的话,我们就是这周这周天的话,上完一节课,我们把规划给他出出来。更了解一点。把什么把规划给小孩出出来哦,行行好好好,那我先排这个,嗯。好嘞好嘞,那你先忙,嗯嗯,拜拜拜拜拜拜。", "target_len": 812, "with_or_wo_itn": "<|withitn|>", "text_language": "<|zh|>", "emo_target": "<|NEUTRAL|>", "event_target": "<|Speech|>"}
训练加载的时候,识别不到这个样本,爆出来的numbers是0.
Code sample
Expected behavior
能正常训练
Environment
- OS (e.g., Linux):
- FunASR Version (e.g., 1.0.0):
- ModelScope Version (e.g., 1.11.0):
- PyTorch Version (e.g., 2.0.0):
- How you installed funasr (
pip, source): - Python version:
- GPU (e.g., V100M32)
- CUDA/cuDNN version (e.g., cuda11.7):
- Docker version (e.g., funasr-runtime-sdk-cpu-0.4.1)
- Any other relevant information: