Skip to content

Token estimation values hardcoded multiple places - inaccurate rate limiting #13

@BukeLy

Description

@BukeLy

问题描述

Token 估算值硬编码在多个文件中,导致速率限制不准确。

受影响的文件和位置

  • multi_tenant.py 行 113:estimated_output = 3000(LLM)
  • multi_tenant.py 行 313:estimated_output = 500(VLM)
  • multi_tenant.py 行 339:max_tokens = 500
  • deepseek_ocr_client.py 行 285, 352

问题

  • 无法按不同模型调整估算值
  • 同一个值 "3000" 在多处重复,维护困难
  • 使用小模型时估算过高,并发受限;使用大模型时估算不足

解决方案

应该提取到 .env 配置:

  • LLM_ESTIMATED_OUTPUT_TOKENS
  • VLM_ESTIMATED_OUTPUT_TOKENS

Metadata

Metadata

Assignees

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions