Продвинутый35 мин

Деплой LLM на VPS с vLLM и Docker

Запускайте собственный ChatGPT на сервере за $20/месяц

## Требования • VPS с GPU (рекомендуем Hetzner или Vultr) • Docker и Docker Compose • 16GB+ RAM ## Шаг 1: Подготовка сервера ```bash apt update && apt install -y docker.io docker-compose ``` ## Шаг 2: Docker Compose конфиг ```yaml version: '3.8' services: vllm: image: vllm/vllm-openai:latest runtime: nvidia ports: - "8000:8000" environment: - CUDA_VISIBLE_DEVICES=0 command: > --model TheBloke/Llama-2-7B-chat-AWQ --quantization awq --max-model-len 4096 ``` ## Шаг 3: Запуск ```bash docker-compose up -d ``` ## Тестирование ```bash curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "TheBloke/Llama-2-7B-chat-AWQ", "messages": [{"role": "user", "content": "Hello"}]}' ``` ## Мониторинг Используйте Grafana + Prometheus для отслеживания latency, throughput и GPU utilization.