Qwen3-VL-8B-Instruct推理测试transformer+sglang双版本

type
status
date
slug
summary
tags
category
icon
password
 

契机

Qwen3-VL-8B发布了,结合官方demo+github仓库issue,在h20显卡服务器上跑了一下,相当于qwen2.5-vl-8b还是有较大的提升。对官方demo进行了加强,输出了推理速度+显存占用+token统计等,跑是跑通了,有点小问题,小问题的处理应该也不麻烦,先记录下来。

说明

  • transformer版本在535驱动+cuda12.1就可以运行,sglang版本需要在cuda12.3下运行
  • 测试了transformer版本的图片+视频推理,sglang版本只测试了图片

环境搭建

 

transformer推理

图片推理

输出如下:

输入token数量: 2764 输出token数量: 128 推理时间: 5.6309秒 推理速度: 22.73 token/秒 最大显存占用(已分配): 17.18 GB 最大显存占用(已预留): 17.38 GB
模型输出: 这是一张充满温馨与宁静氛围的海滩照片,捕捉了人与宠物之间亲密互动的瞬间。
画面主体是一位年轻女性和一只金毛犬,他们正坐在沙滩上。女性侧身对着镜头,面带灿烂的笑容,她身穿一件蓝白相间的格子衬衫和深色裤子,左手腕上戴着一块白色手表。她正与狗狗互动,右手伸出,似乎在给狗狗一个高五或是在奖励它,左手则拿着一小块食物。
金毛犬温顺地坐在她面前,前爪抬起,与女性的手相触,姿态乖巧。它身上

可以看到输出是不完整的,视频版本的一样,但是在sglang版本里面输出是完整的

视频推理

输出如下:

输入token数量: 13428 输出token数量: 128 推理时间: 7.6084秒 推理速度: 16.82 token/秒 最大显存占用(已分配): 20.18 GB 最大显存占用(已预留): 21.05 GB
模型输出: 视频开始于一个控制室,一名穿着深色Polo衫和卡其色裤子的男子站在一个大型屏幕前,屏幕上显示着地球的图像和一些数据。他正在向观众讲解,手势生动,似乎在介绍某个项目或任务。背景中可以看到多个显示屏和控制面板,显示出这是一个高科技的环境。
接下来,画面切换到国际空间站(ISS)的外部图像,显示了其复杂的结构和太阳能电池板。随后,镜头转到空间站内部,两名宇航员站在一个充满设备和仪器的房间里,他们穿着宇航服,手持麦克风,似乎在

sglang版本

输出如下:

=== 推理性能统计 === 推理时间: 5.97秒 输入token数: 10892 (文本token + 图像patch token) 输出token数: 349 推理速度: 58.45 tokens/秒 === 显存占用(GB) === 最大已分配显存: 0.24 最大预留显存(推荐参考): 0.31 当前活跃显存: 0.00 生成文本: 这是一张充满温馨与宁静氛围的海滩照片,捕捉了一个女孩与她的狗在日落时分互动的幸福瞬间。 - **主体人物与宠物**: - 一位年轻女子坐在沙滩上,身体微微前倾,面带灿烂的笑容,眼神温柔地注视着她面前的狗狗。她留着棕色长发,身穿一件蓝黑相间的格子衬衫和深色裤子,左手腕上戴着一块白色手表,右手正拿着一小块食物。 - 一只金黄色的拉布拉多犬(或类似品种)坐在她对面,前爪抬起,似乎正在与女孩击掌或请求食物,姿态乖巧而专注。狗狗身上戴着一条带有彩色小花图案的蓝色胸背带,红色的牵引绳放在旁边的沙滩上。 - **场景与环境**: - 场景位于一片广阔的沙滩上,背景是波光粼粼的大海,近处有一道正在破碎的海浪,远处海天相接处泛着温暖的金色光芒。 - 画面整体沐浴在柔和的金色夕阳中,光线从右后方照射过来,为女子的发丝和画面边缘镀上了一层金边,营造出温暖、梦幻的氛围。天空大部分是明亮的白色,与海面的金色形成对比。 - **构图与氛围**: - 构图将人与狗置于画面中央偏右的位置,前景是细腻的沙滩纹理,富有层次感。 - 整体色调偏暖,以金色和蓝色为主,强调了夕阳下的宁静与喜悦,传达出人与宠物之间深厚的情感联系和共享美好时光的幸福感。

显存这里统计有问题,我实际在nvidia-smi看到大约在71912MiB左右

总结

  • sglang需要12.3的cuda
  • transformer输出不完整,sglang完整
  • sglang没咋研究过,感觉显存占用太大了,应该有参数可以压

写到最后

notion image
是在往前走就好 bothsavage.github.io
 
notion image
 
将进酒Ubuntu-8*H20服务器升级nvidia驱动+cuda版本