阿里巴巴发布 Qwen3-VL 技术报告显示,该开源多模态模型在视频分析能力上取得重大突破。在"大海捞针"测试中,2350 亿参数的旗舰版本能够在 30 分钟视频中以 100% 准确率定位特定帧,即使在包含约 100 万个 token 的 2 小时视频中,准确率仍达 99.5%。
在多项基准测试中,Qwen3-VL-235B-A22B 超越了 Gemini 2.5 Pro、GPT-5 和 Claude Opus 4.1。该模型在视觉数学任务上表现突出,MathVista 得分 85.8%,超过 GPT-5 的 81.3%。模型支持 39 种语言的 OCR 识别,在文档理解、GUI 操作等专业任务中同样表现优异。阿里巴巴使用 1 万块 GPU、1 万亿个 token 训练该模型,并在 Apache 2.0 许可下开源发布。
THE DECODER
🍀在花频道 🍵茶馆 📮投稿新鲜事