Qwen3-VL-8B-Instruct推理测试transformer+sglang双版本

type

Post

status

Published

date

Oct 18, 2025

slug

251018-Qwen3-VL

summary

Qwen3-VL-8B发布了，结合官方demo+github仓库issue，在h20显卡服务器上跑了一下，相当于qwen2.5-vl-8b还是有较大的提升。对官方demo进行了加强，输出了推理速度+显存占用+token统计等，跑是跑通了，有点小问题，小问题的处理应该也不麻烦，先记录下来。

契机

⚙

说明

github官方：https://github.com/QwenLM/Qwen3-VL

huggingface官方：https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct

transformer版本在535驱动+cuda12.1就可以运行，sglang版本需要在cuda12.3下运行

测试了transformer版本的图片+视频推理，sglang版本只测试了图片

环境搭建

transformer推理

图片推理

输出如下：

输入token数量: 2764 输出token数量: 128 推理时间: 5.6309秒推理速度: 22.73 token/秒最大显存占用（已分配）: 17.18 GB 最大显存占用（已预留）: 17.38 GB

模型输出: 这是一张充满温馨与宁静氛围的海滩照片，捕捉了人与宠物之间亲密互动的瞬间。

画面主体是一位年轻女性和一只金毛犬，他们正坐在沙滩上。女性侧身对着镜头，面带灿烂的笑容，她身穿一件蓝白相间的格子衬衫和深色裤子，左手腕上戴着一块白色手表。她正与狗狗互动，右手伸出，似乎在给狗狗一个高五或是在奖励它，左手则拿着一小块食物。

金毛犬温顺地坐在她面前，前爪抬起，与女性的手相触，姿态乖巧。它身上

可以看到输出是不完整的，视频版本的一样，但是在sglang版本里面输出是完整的

视频推理

输出如下：

输入token数量: 13428 输出token数量: 128 推理时间: 7.6084秒推理速度: 16.82 token/秒最大显存占用（已分配）: 20.18 GB 最大显存占用（已预留）: 21.05 GB

模型输出: 视频开始于一个控制室，一名穿着深色Polo衫和卡其色裤子的男子站在一个大型屏幕前，屏幕上显示着地球的图像和一些数据。他正在向观众讲解，手势生动，似乎在介绍某个项目或任务。背景中可以看到多个显示屏和控制面板，显示出这是一个高科技的环境。

接下来，画面切换到国际空间站（ISS）的外部图像，显示了其复杂的结构和太阳能电池板。随后，镜头转到空间站内部，两名宇航员站在一个充满设备和仪器的房间里，他们穿着宇航服，手持麦克风，似乎在

sglang版本

输出如下：

=== 推理性能统计 === 推理时间: 5.97秒输入token数: 10892 (文本token + 图像patch token) 输出token数: 349 推理速度: 58.45 tokens/秒 === 显存占用（GB） === 最大已分配显存: 0.24 最大预留显存（推荐参考）: 0.31 当前活跃显存: 0.00 生成文本: 这是一张充满温馨与宁静氛围的海滩照片，捕捉了一个女孩与她的狗在日落时分互动的幸福瞬间。 - **主体人物与宠物**： - 一位年轻女子坐在沙滩上，身体微微前倾，面带灿烂的笑容，眼神温柔地注视着她面前的狗狗。她留着棕色长发，身穿一件蓝黑相间的格子衬衫和深色裤子，左手腕上戴着一块白色手表，右手正拿着一小块食物。 - 一只金黄色的拉布拉多犬（或类似品种）坐在她对面，前爪抬起，似乎正在与女孩击掌或请求食物，姿态乖巧而专注。狗狗身上戴着一条带有彩色小花图案的蓝色胸背带，红色的牵引绳放在旁边的沙滩上。 - **场景与环境**： - 场景位于一片广阔的沙滩上，背景是波光粼粼的大海，近处有一道正在破碎的海浪，远处海天相接处泛着温暖的金色光芒。 - 画面整体沐浴在柔和的金色夕阳中，光线从右后方照射过来，为女子的发丝和画面边缘镀上了一层金边，营造出温暖、梦幻的氛围。天空大部分是明亮的白色，与海面的金色形成对比。 - **构图与氛围**： - 构图将人与狗置于画面中央偏右的位置，前景是细腻的沙滩纹理，富有层次感。 - 整体色调偏暖，以金色和蓝色为主，强调了夕阳下的宁静与喜悦，传达出人与宠物之间深厚的情感联系和共享美好时光的幸福感。

显存这里统计有问题，我实际在nvidia-smi看到大约在71912MiB左右

总结

sglang需要12.3的cuda

transformer输出不完整，sglang完整

sglang没咋研究过，感觉显存占用太大了，应该有参数可以压

写到最后

是在往前走就好 bothsavage.github.io