🤖 阿里巴巴 Qwen3-VL 模型可精准分析 2 小时视频内容阿里巴巴发布 Qwen3-VL 技术报告显示，该开源多模态模型在视频分析能力上取得重大突破

科技圈🎗在花频道📮

🤖 Qwen 发布 Qwen3 系列三款新模型 Qwen 团队推出 Qwen3‑Max、Qwen3‑VL 与 Qwen3‑LiveTranslate 三款模型。Qwen3‑Max 包含 Base 与 Instruct 两个版本。Thinking 版本在 AIME 与 HMMT 的测评中取得满分，仍在训练。 Qwen3‑VL 旗舰为 VL‑235B‑A22B，开源 Instruct 与 Thinking 版本，强化视觉理解、2D/3D 定位、长视频理解与多语种 OCR（扩展至 32 种语言），原生支持 256K…

🤖

阿里巴巴 Qwen3-VL 模型可精准分析 2 小时视频内容

阿里巴巴发布 Qwen3-VL 技术报告显示，该开源多模态模型在视频分析能力上取得重大突破。在"大海捞针"测试中，2350 亿参数的旗舰版本能够在 30 分钟视频中以 100% 准确率定位特定帧，即使在包含约 100 万个 token 的 2 小时视频中，准确率仍达 99.5%。

在多项基准测试中，Qwen3-VL-235B-A22B 超越了 Gemini 2.5 Pro、GPT-5 和 Claude Opus 4.1。该模型在视觉数学任务上表现突出，MathVista 得分 85.8%，超过 GPT-5 的 81.3%。模型支持 39 种语言的 OCR 识别，在文档理解、GUI 操作等专业任务中同样表现优异。阿里巴巴使用 1 万块 GPU、1 万亿个 token 训练该模型，并在 Apache 2.0 许可下开源发布。

THE DECODER

🍀在花频道 🍵茶馆 📮投稿新鲜事