Все гайды

Продвинутый35 мин
Деплой LLM на VPS с vLLM и Docker
Запускайте собственный ChatGPT на сервере за $20/месяц
## Требования
• VPS с GPU (рекомендуем Hetzner или Vultr)
• Docker и Docker Compose
• 16GB+ RAM
## Шаг 1: Подготовка сервера
```bash
apt update && apt install -y docker.io docker-compose
```
## Шаг 2: Docker Compose конфиг
```yaml
version: '3.8'
services:
vllm:
image: vllm/vllm-openai:latest
runtime: nvidia
ports:
- "8000:8000"
environment:
- CUDA_VISIBLE_DEVICES=0
command: >
--model TheBloke/Llama-2-7B-chat-AWQ
--quantization awq
--max-model-len 4096
```
## Шаг 3: Запуск
```bash
docker-compose up -d
```
## Тестирование
```bash
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "TheBloke/Llama-2-7B-chat-AWQ", "messages": [{"role": "user", "content": "Hello"}]}'
```
## Мониторинг
Используйте Grafana + Prometheus для отслеживания latency, throughput и GPU utilization.