9月24日,据“通义千问Qwen”微信公众号消息,阿里巴巴推出Qwen3-Max——迄今为止规模最大、能力最强的模型。目前,Qwen3-Max-Instruct的预览版在LMArena文本排行榜上位列第三,超越了GPT-5-Chat。正式版本在代码能力和智能体(agent)能力方面进一步提升,在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平。
Qwen3-Max模型总参数超过1T,预训练使用了36T tokens。Qwen3-Max-Instruct的预览版已在LMArena文本排行榜上稳居全球前三。正式发布版本进一步提升了其能力,尤其在代码生成与智能体表现方面表现卓越。在专注于解决现实编程挑战的基准测试SWE-Bench Verified上,Qwen3-Max-Instruct取得了高达69.6分的优异成绩,稳居全球顶尖模型之列。此外,在评估智能体工具调用能力的严苛基准Tau2-Bench上,Qwen3-Max-Instruct更是实现了突破性表现,以74.8分超越Claude Opus 4与DeepSeek-V3.1。