Untitled

services:
  llm-server:
    stdin_open: true
    tty: true
    environment:
      - OLLAMA_MODEL=https://ollama.com/PetrosStav/gemma3-tools
      - OLLAMA_MODELS=/ssd/.ollama
      - OLLAMA_HOST=0.0.0.0:9000
      - OLLAMA_CONTEXT_LEN=4096
      - OLLAMA_LOGS=/root/.ollama/ollama.log
      - DOCKER_PULL=always
      - HF_TOKEN=${HF_TOKEN}
      - HF_HUB_CACHE=/root/.cache/huggingface
    volumes:
      - /ssd/cache/ollama:/root/.ollama
      - /ssd/cache:/root/.cache
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities:
                - gpu
    ports:
      - 9000:9000
    pull_policy: always
    image: dustynv/ollama:main-r36.4.0
    healthcheck:
      test: ["CMD", "curl", "-f", "http://0.0.0.0:9000/v1/models"]
      interval: 20s
      timeout: 60s
      retries: 45
      start_period: 15s