Skip to content

关于使用在线模型,热词识别不准的问题,望大佬指导 #3441

@KannaHime

Description

@KannaHime

目前我使用在线模型,想将人名作为热词进行使用,发现某些字识别不准如说“查询王洲的信息”,识别的接口返回王州。

我这自测对比60个人名,自测3次作为参考
未加载热词 正确识别人名 概率为 45% 45% 38%
加载热词 正确识别人名 概率为 65% 68% 63%
三个版本使用热词,评价人名热词提升率为44%左右,因此判断模型应该已加载成功,不知道这个概率是否正常
但是其中发现如 王洲,赵攻 ,方锐,分别识别为王州,赵公,方睿,总是识别不对
目前使用的模型为在线识别模型 配置变量如下
val modelDir = rootPath + "sherpa-onnx-streaming-zipformer-small-bilingual-zh-en-2023-02-16"
return OnlineModelConfig(
transducer = OnlineTransducerModelConfig(
encoder = "$modelDir/encoder-epoch-99-avg-1.int8.onnx",
decoder = "$modelDir/decoder-epoch-99-avg-1.onnx",
joiner = "$modelDir/joiner-epoch-99-avg-1.int8.onnx",
),
tokens = "$modelDir/tokens.txt",
modelType = "zipformer",
modelingUnit = "cjkchar",

    val config = OnlineRecognizerConfig(
        featConfig = getFeatureConfig(sampleRate = sampleRateInHz, featureDim = 80),
        modelConfig = getModelConfig(type = onlineType)!!,
        endpointConfig = getEndpointConfig(),
        enableEndpoint = true,
        hotwordsFile = p,
        decodingMethod = "modified_beam_search",
        hotwordsScore = 2.5f,
        maxActivePaths = 8,
    )

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions