Qwen3-VL 技术报告

qwen3-vl 技术报告

我们推出了 Qwen3-VL，这是迄今为止 Qwen 系列中功能最强大的视觉语言模型，在广泛的多模态基准测试中均取得了卓越的性能。它原生支持高达 256K 标记（tokens）的交错上下文，实现了文本、图像和视频的无缝集成。该模型系列包括稠密型（2B/4B/8B/32B）和混合专家型（30B-A3B/235B-A22B）变体，以适应不同的延迟与质量权衡。Qwen3-VL 具备三大核心支柱：（i）显著增强的纯文本理解能力，在多个案例中超越了同级别的纯文本骨干模型；（ii）强大的长上下文理解能力，为文本和交错多模态输入提供原生的 256K 标记窗口，从而在长文档和视频中实现忠实的保留、检索和交叉引用；（iii）在单图、多图和视频任务中展现出先进的多模态推理能力，在 MMMU 等综合评估以及 MathVista 和 MathVision 等视觉数学基准测试中表现领先。在架构方面，我们引入了三项关键升级：（i）增强型交错 MRoPE，用于加强图像和视频的跨时空建模；（ii）DeepStack 集成，有效利用多级 ViT 特征以收紧视觉与语言的对齐；（iii）视频的文本时间对齐，从 T-RoPE 演进为显式的文本时间戳对齐，以实现更精确的时间定位。在相近的标记预算和延迟限制下，Qwen3-VL 在稠密架构和混合专家（MoE）架构中均取得了优异性能。我们预景 Qwen3-VL 将成为现实工作流中基于图像的推理、智能体决策以及多模态代码智能的基础引擎。

CS Notes

导航

Qwen3-VL 技术报告

关系图谱