Qwen3-VL-8B-Instruct推理测试transformer+sglang双版本
type
status
date
slug
summary
tags
category
icon
password
契机
Qwen3-VL-8B发布了,结合官方demo+github仓库issue,在h20显卡服务器上跑了一下,相当于qwen2.5-vl-8b还是有较大的提升。对官方demo进行了加强,输出了推理速度+显存占用+token统计等,跑是跑通了,有点小问题,小问题的处理应该也不麻烦,先记录下来。
说明
- github官方:https://github.com/QwenLM/Qwen3-VL
- huggingface官方:https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct
- transformer版本在535驱动+cuda12.1就可以运行,sglang版本需要在cuda12.3下运行
- 测试了transformer版本的图片+视频推理,sglang版本只测试了图片
环境搭建
transformer推理
图片推理
输出如下:
输入token数量: 2764
输出token数量: 128
推理时间: 5.6309秒
推理速度: 22.73 token/秒
最大显存占用(已分配): 17.18 GB
最大显存占用(已预留): 17.38 GB
模型输出: 这是一张充满温馨与宁静氛围的海滩照片,捕捉了人与宠物之间亲密互动的瞬间。
画面主体是一位年轻女性和一只金毛犬,他们正坐在沙滩上。女性侧身对着镜头,面带灿烂的笑容,她身穿一件蓝白相间的格子衬衫和深色裤子,左手腕上戴着一块白色手表。她正与狗狗互动,右手伸出,似乎在给狗狗一个高五或是在奖励它,左手则拿着一小块食物。
金毛犬温顺地坐在她面前,前爪抬起,与女性的手相触,姿态乖巧。它身上
可以看到输出是不完整的,视频版本的一样,但是在sglang版本里面输出是完整的
视频推理
输出如下:
输入token数量: 13428
输出token数量: 128
推理时间: 7.6084秒
推理速度: 16.82 token/秒
最大显存占用(已分配): 20.18 GB
最大显存占用(已预留): 21.05 GB
模型输出: 视频开始于一个控制室,一名穿着深色Polo衫和卡其色裤子的男子站在一个大型屏幕前,屏幕上显示着地球的图像和一些数据。他正在向观众讲解,手势生动,似乎在介绍某个项目或任务。背景中可以看到多个显示屏和控制面板,显示出这是一个高科技的环境。
接下来,画面切换到国际空间站(ISS)的外部图像,显示了其复杂的结构和太阳能电池板。随后,镜头转到空间站内部,两名宇航员站在一个充满设备和仪器的房间里,他们穿着宇航服,手持麦克风,似乎在
sglang版本
输出如下:
=== 推理性能统计 ===
推理时间: 5.97秒
输入token数: 10892 (文本token + 图像patch token)
输出token数: 349
推理速度: 58.45 tokens/秒
=== 显存占用(GB) ===
最大已分配显存: 0.24
最大预留显存(推荐参考): 0.31
当前活跃显存: 0.00
生成文本: 这是一张充满温馨与宁静氛围的海滩照片,捕捉了一个女孩与她的狗在日落时分互动的幸福瞬间。
- **主体人物与宠物**:
- 一位年轻女子坐在沙滩上,身体微微前倾,面带灿烂的笑容,眼神温柔地注视着她面前的狗狗。她留着棕色长发,身穿一件蓝黑相间的格子衬衫和深色裤子,左手腕上戴着一块白色手表,右手正拿着一小块食物。
- 一只金黄色的拉布拉多犬(或类似品种)坐在她对面,前爪抬起,似乎正在与女孩击掌或请求食物,姿态乖巧而专注。狗狗身上戴着一条带有彩色小花图案的蓝色胸背带,红色的牵引绳放在旁边的沙滩上。
- **场景与环境**:
- 场景位于一片广阔的沙滩上,背景是波光粼粼的大海,近处有一道正在破碎的海浪,远处海天相接处泛着温暖的金色光芒。
- 画面整体沐浴在柔和的金色夕阳中,光线从右后方照射过来,为女子的发丝和画面边缘镀上了一层金边,营造出温暖、梦幻的氛围。天空大部分是明亮的白色,与海面的金色形成对比。
- **构图与氛围**:
- 构图将人与狗置于画面中央偏右的位置,前景是细腻的沙滩纹理,富有层次感。
- 整体色调偏暖,以金色和蓝色为主,强调了夕阳下的宁静与喜悦,传达出人与宠物之间深厚的情感联系和共享美好时光的幸福感。
显存这里统计有问题,我实际在nvidia-smi看到大约在71912MiB左右
总结
- sglang需要12.3的cuda
- transformer输出不完整,sglang完整
- sglang没咋研究过,感觉显存占用太大了,应该有参数可以压
写到最后
Last update: 2025-10-18