在 GPU 服务器上使用 vLLM 部署大语言模型。目前仅支持在 vLLM 推理引擎上部署大模型。
在 ModelScope 平台,模型一般采用 <MODEL_ORG>/<MODEL_NAME> 来唯一识别,例如 Qwen/Qwen3.5-0.8B 而言,MODEL_ORG 为 Qwen,MODEL_NAME 为 Qwen3.5-0.8B。
对于 Qwen 系的模型部署,请使用 scripts/deploy.sh 部署脚本,该脚本的使用方式如下:
用法: [环境变量] deploy.sh <model_name>
示例:
PORT=8001 \
GPU_COUNT=4 \
./deploy.sh Qwen3.5-0.8B
环境变量:
ENV_NAME conda 环境名称 (默认: vllm)
PORT 服务端口 (默认: 8000)
GPU_COUNT GPU 并行数 (默认: 1)
PROXY 代理地址 (默认: http://{proxyaddress}:{port})
MODEL_BASE_PATH 模型存储路径 (默认: /home/work/models)
| 变量 | 说明 | 默认值 |
|---|---|---|
| MODEL_ORG | 模型组织 | Qwen |
| MODEL_NAME | 模型名称 | Qwen3.5-0.8B |
| ENV_NAME | conda 环境 | vllm |
| PORT | 模型服务端口 | 8000 |
| GPU_COUNT | GPU 并行数 | 1 |
| PROXY | 代理地址 | http://{proxyaddress}:{port} |
| MODEL_BASE_PATH | 模型本地存储路径 | /home/work/models |
从用户请求中提取需要部署的:模型名称(MODEL_NAME),模型组织(MODEL_ORG),需要部署的服务器地址(TARGET_HOST),部署账号(TARGET_USER)等所需要的信息。
把 ./skills/model-deploy/scripts/deploy.sh 复制到目标服务器的指定路径下,例如 $HOME/wangwei17。
在目标服务器上给部署脚本增加可执行权限。
在目标服务器上执行部署脚本。必须采用如下的方式来部署:
ssh ${TARGET_USER}@${TARGET_HOST} "cd $HOME/17 && PORT=8001 && ./deploy.sh Qwen3.5-0.8B"
curl http://127.0.0.1:8001/v1/chat/completions 测试模型服务是否启动成功。curl -X POST http://127.0.0.1:8001/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [{"role": "user", "content": "你好"}],
"max_tokens": 512
}'
ssh ${TARGET_USER}@${TARGET_HOST} "${CMD}"。netstat -tlnp | grep <port>pip install vllm --upgradeexport https_proxy="http://{proxyaddress}:{port}"nvidia-smi 查看显存使用情况,找到满足显存需求的的 GPU 卡编号 GPU_FAN,然后运行 export CUDA_VISIBLE_DEVICES=$GPU_FAN 来指定部署使用的 GPU 卡,然后重新执行部署脚本。