NVIDIA
diff --git a/‎tensorrt_llm/_torch/models/modeling_llama_min_latency.py
Lines changed: 1 addition & 0 deletions b/‎tensorrt_llm/_torch/models/modeling_llama_min_latency.py
Lines changed: 1 addition & 0 deletions
@@ -471,6 +471,7 @@ def __init__(
         if num_experts == 128 \
             and hidden_size == 5120 \
             and intermediate_size == 8192 \
+            and model_config.quant_config is not None \
             and model_config.quant_config.quant_mode.has_fp8_qdq() \
             and model_config.mapping.moe_tp_size == 8 \
             and model_config.mapping.moe_ep_size == 1 \