[Frontend] remove max_num_batched_tokens limit for lora (vllm-project…

…#7288)
jeejeelee · Aug 8, 2024 · 48abee9 · 48abee9
1 parent 7467096
commit 48abee9
Showing 1 changed file with 0 additions and 5 deletions.
diff --git a/vllm/config.py b/vllm/config.py
@@ -1377,11 +1377,6 @@ def verify_with_model_config(self, model_config: ModelConfig):
                            model_config.quantization)
 
     def verify_with_scheduler_config(self, scheduler_config: SchedulerConfig):
-        if scheduler_config.max_num_batched_tokens > 65528:
-            raise ValueError(
-                "Due to limitations of the custom LoRA CUDA kernel, "
-                "max_num_batched_tokens must be <= 65528 when "
-                "LoRA is enabled.")
         if scheduler_config.chunked_prefill_enabled:
             raise ValueError("LoRA is not supported with chunked prefill yet.")