name: model-deploy
description: Use this skill when users request to deploy LLMs (Qwen, DeepSeek, etc.) on specified GPU servers and start the model service. This skill can Download models using ModelScope; Start the vLLM inference service.

Model Deploy

在 GPU 服务器上使用 vLLM 部署大语言模型。目前仅支持在 vLLM 推理引擎上部署大模型

快速开始

在 ModelScope 平台,模型一般采用 <MODEL_ORG>/<MODEL_NAME> 来唯一识别,例如 Qwen/Qwen3.5-0.8B 而言,MODEL_ORG 为 Qwen,MODEL_NAME 为 Qwen3.5-0.8B。

Qwen 系列模型部署

对于 Qwen 系的模型部署,请使用 scripts/deploy.sh 部署脚本,该脚本的使用方式如下:

用法: [环境变量] deploy.sh <model_name>

示例:
  PORT=8001 \
  GPU_COUNT=4 \
  ./deploy.sh Qwen3.5-0.8B

环境变量:
  ENV_NAME        conda 环境名称 (默认: vllm)
  PORT            服务端口 (默认: 8000)
  GPU_COUNT       GPU 并行数 (默认: 1)
  PROXY           代理地址 (默认: http://{proxyaddress}:{port})
  MODEL_BASE_PATH 模型存储路径 (默认: /home/work/models)
变量 说明 默认值
MODEL_ORG 模型组织 Qwen
MODEL_NAME 模型名称 Qwen3.5-0.8B
ENV_NAME conda 环境 vllm
PORT 模型服务端口 8000
GPU_COUNT GPU 并行数 1
PROXY 代理地址 http://{proxyaddress}:{port}
MODEL_BASE_PATH 模型本地存储路径 /home/work/models

部署步骤

ssh ${TARGET_USER}@${TARGET_HOST} "cd $HOME/17 && PORT=8001 && ./deploy.sh Qwen3.5-0.8B"
curl -X POST http://127.0.0.1:8001/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
      "messages": [{"role": "user", "content": "你好"}],
      "max_tokens": 512
  }'

约束说明

常见问题