removing legacy backward compatibility (#313)

yannicks1 · web-flow · commit 377895d95baf · 2025-07-16T17:02:26.000-03:00
### removing legacy backward compatibility due to the requirement `vllm>=0.9.2` we can safely revert some changes by #245 . --------- Signed-off-by: Yannick Schnider <Yannick.Schnider1@ibm.com> Signed-off-by: Yannick Schnider <yannick.schnider1@ibm.com>
diff --git a/tests/spyre_util.py b/tests/spyre_util.py
@@ -543,13 +543,6 @@ def create_random_request(
         request_id: int, num_tokens: int,
         sampling_params: SamplingParams) -> EngineCoreRequest:
 
-    # Temporary until these parameters make it to a release version in vllm
-    extra_kwargs: dict[str, Any] = {}
-    if "data_parallel_rank" in EngineCoreRequest.__annotations__:
-        extra_kwargs["data_parallel_rank"] = None
-    if "pooling_params" in EngineCoreRequest.__annotations__:
-        extra_kwargs["pooling_params"] = None
-
     return EngineCoreRequest(request_id=str(request_id),
                              prompt_token_ids=[request_id] * num_tokens,
                              mm_inputs=None,
@@ -559,8 +552,9 @@ def create_random_request(
                              eos_token_id=None,
                              arrival_time=0,
                              lora_request=None,
-                             cache_salt=None,
-                             **extra_kwargs)
+                             data_parallel_rank=None,
+                             pooling_params=None,
+                             cache_salt=None)
 
 
 def skip_unsupported_tp_size(size: int, backend: str):
diff --git a/vllm_spyre/v1/worker/spyre_model_runner.py b/vllm_spyre/v1/worker/spyre_model_runner.py
@@ -3,7 +3,7 @@
 from collections import deque
 from collections.abc import Iterable
 from dataclasses import asdict, dataclass
-from typing import TYPE_CHECKING, Any, Optional, cast
+from typing import TYPE_CHECKING, Optional, cast
 
 import torch
 from torch import nn
@@ -426,10 +426,6 @@ def execute_model(
                 req, str) else self.requests[req]
             req_state.output_token_ids.extend(sampled_ids[i])
 
-        extra_kwargs: dict[str, Any] = {}
-        if "pooler_output" in ModelRunnerOutput.__dataclass_fields__:
-            extra_kwargs["pooler_output"] = None
-
         prompt_logprobs_dicts = self._get_prompt_logprobs_dict(
             logits=logits, model_inputs=model_input)
 
@@ -445,7 +441,7 @@ def execute_model(
             logprobs=(output.logprobs_tensors.tolists()
                       if output.logprobs_tensors else None),
             prompt_logprobs_dict=prompt_logprobs_dicts,
-            **extra_kwargs,
+            pooler_output=None,
         )
 
         return model_output
diff --git a/vllm_spyre/v1/worker/spyre_worker.py b/vllm_spyre/v1/worker/spyre_worker.py
@@ -5,7 +5,7 @@
 import platform
 import signal
 import time
-from typing import Any, Optional, Union, cast
+from typing import Optional, Union, cast
 
 import torch
 import torch.distributed as dist
@@ -319,11 +319,6 @@ def _warmup_spyre_dynamic_size(self, special_token_ids):
         warmup_tokens_tensor = valid_token_ids_tensor[torch.randint(
             0, len(valid_token_ids_tensor), (batch_size + 1, prompt_len))]
 
-        # TODO temporary until 'pooling_params' makes it to a release version
-        # in vllm
-        extra_kwargs: dict[str, Any] = {}
-        if "pooling_params" in NewRequestData.__dataclass_fields__:
-            extra_kwargs["pooling_params"] = None
         dummy_requests = [
             NewRequestData(
                 req_id="warmup-%d" % (i),
@@ -335,7 +330,8 @@ def _warmup_spyre_dynamic_size(self, special_token_ids):
                 block_ids=[0],  # not actually used
                 num_computed_tokens=0,
                 lora_request=None,
-                **extra_kwargs) for i in range(batch_size + 1)
+                pooling_params=None,
+            ) for i in range(batch_size + 1)
         ]
         add_dummy_request = dummy_requests.pop(-1)
 
@@ -473,12 +469,6 @@ def _warmup_spyre_fixed_size(self, prompt_len, num_decode_tokens,
         warmup_tokens_tensor = valid_token_ids_tensor[torch.randint(
             0, len(valid_token_ids_tensor), (batch_size, prompt_len))]
 
-        # TODO temporary until 'pooling_params' makes it to a release version
-        # in vllm
-        extra_kwargs: dict[str, Any] = {}
-        if "pooling_params" in NewRequestData.__dataclass_fields__:
-            extra_kwargs["pooling_params"] = None
-
         # Set up dummy requests for prefill steps
         dummy_requests = [
             NewRequestData(
@@ -491,7 +481,7 @@ def _warmup_spyre_fixed_size(self, prompt_len, num_decode_tokens,
                 block_ids=[0],
                 num_computed_tokens=0,
                 lora_request=None,
-                **extra_kwargs) for i in range(batch_size)
+                pooling_params=None) for i in range(batch_size)
         ]
 
         # Set up dummy cached_requests for decode steps