modal-labs · aksh-at · Sep 24, 2023 · Sep 24, 2023
diff --git a/06_gpu_and_ml/vllm_inference.py b/06_gpu_and_ml/vllm_inference.py
@@ -22,6 +22,8 @@
 
 from modal import Image, Secret, Stub, method
 
+MODEL_DIR = "/model"
+
 
 # ## Define a container image
 #
@@ -45,15 +47,15 @@
 def download_model_to_folder():
     from huggingface_hub import snapshot_download
 
+    os.makedirs(MODEL_DIR, exist_ok=True)
+
     snapshot_download(
         "meta-llama/Llama-2-13b-chat-hf",
-        local_dir="/model",
+        local_dir=MODEL_DIR,
         token=os.environ["HUGGINGFACE_TOKEN"],
     )
 
 
-MODEL_DIR = "/model"
-
 # ### Image definition
 # We’ll start from a Dockerhub image recommended by `vLLM`, upgrade the older
 # version of `torch` to a new one specifically built for CUDA 11.8. Next, we install `vLLM` from source to get the latest updates.