examples/gke/tgi-llama-405b-deployment/config/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: tgi-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: tgi-server
  template:
    metadata:
      labels:
        app: tgi-server
        hf.co/model: meta-llama--Llama-3-405B-Instruct-FP8
        hf.co/task: text-generation
    spec:
      containers:
        - name: tgi-container
          image: us-docker.pkg.dev/deeplearning-platform-release/gcr.io/huggingface-text-generation-inference-cu121.2-2.ubuntu2204:latest
          resources:
            requests:
              nvidia.com/gpu: 8
          env:
            - name: MODEL_ID
              value: meta-llama/Llama-3.1-405B-Instruct-FP8
            - name: NUM_SHARD
              value: "8"
            - name: PORT
              value: "8080"
            - name: HUGGING_FACE_HUB_TOKEN
              valueFrom:
                secretKeyRef:
                  name: hf-secret
                  key: hf_token
          volumeMounts:
            - mountPath: /dev/shm
              name: dshm
            - mountPath: /data
              name: data
      volumes:
        - name: dshm
          emptyDir:
            medium: Memory
            sizeLimit: 1Gi
        - name: data
          emptyDir: {}
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-h100-80gb