问题描述
Token 估算值硬编码在多个文件中,导致速率限制不准确。
受影响的文件和位置
multi_tenant.py 行 113:estimated_output = 3000(LLM)
multi_tenant.py 行 313:estimated_output = 500(VLM)
multi_tenant.py 行 339:max_tokens = 500
deepseek_ocr_client.py 行 285, 352
问题
- 无法按不同模型调整估算值
- 同一个值 "3000" 在多处重复,维护困难
- 使用小模型时估算过高,并发受限;使用大模型时估算不足
解决方案
应该提取到 .env 配置:
LLM_ESTIMATED_OUTPUT_TOKENS
VLM_ESTIMATED_OUTPUT_TOKENS 等