目前我使用在线模型,想将人名作为热词进行使用,发现某些字识别不准如说“查询王洲的信息”,识别的接口返回王州。
我这自测对比60个人名,自测3次作为参考
未加载热词 正确识别人名 概率为 45% 45% 38%
加载热词 正确识别人名 概率为 65% 68% 63%
三个版本使用热词,评价人名热词提升率为44%左右,因此判断模型应该已加载成功,不知道这个概率是否正常
但是其中发现如 王洲,赵攻 ,方锐,分别识别为王州,赵公,方睿,总是识别不对
目前使用的模型为在线识别模型 配置变量如下
val modelDir = rootPath + "sherpa-onnx-streaming-zipformer-small-bilingual-zh-en-2023-02-16"
return OnlineModelConfig(
transducer = OnlineTransducerModelConfig(
encoder = "$modelDir/encoder-epoch-99-avg-1.int8.onnx",
decoder = "$modelDir/decoder-epoch-99-avg-1.onnx",
joiner = "$modelDir/joiner-epoch-99-avg-1.int8.onnx",
),
tokens = "$modelDir/tokens.txt",
modelType = "zipformer",
modelingUnit = "cjkchar",
val config = OnlineRecognizerConfig(
featConfig = getFeatureConfig(sampleRate = sampleRateInHz, featureDim = 80),
modelConfig = getModelConfig(type = onlineType)!!,
endpointConfig = getEndpointConfig(),
enableEndpoint = true,
hotwordsFile = p,
decodingMethod = "modified_beam_search",
hotwordsScore = 2.5f,
maxActivePaths = 8,
)
目前我使用在线模型,想将人名作为热词进行使用,发现某些字识别不准如说“查询王洲的信息”,识别的接口返回王州。
我这自测对比60个人名,自测3次作为参考
未加载热词 正确识别人名 概率为 45% 45% 38%
加载热词 正确识别人名 概率为 65% 68% 63%
三个版本使用热词,评价人名热词提升率为44%左右,因此判断模型应该已加载成功,不知道这个概率是否正常
但是其中发现如 王洲,赵攻 ,方锐,分别识别为王州,赵公,方睿,总是识别不对
目前使用的模型为在线识别模型 配置变量如下
val modelDir = rootPath + "sherpa-onnx-streaming-zipformer-small-bilingual-zh-en-2023-02-16"
return OnlineModelConfig(
transducer = OnlineTransducerModelConfig(
encoder = "$modelDir/encoder-epoch-99-avg-1.int8.onnx",
decoder = "$modelDir/decoder-epoch-99-avg-1.onnx",
joiner = "$modelDir/joiner-epoch-99-avg-1.int8.onnx",
),
tokens = "$modelDir/tokens.txt",
modelType = "zipformer",
modelingUnit = "cjkchar",