跳过正文

Qwen发布“思考”模型:一场没有成绩单的竞赛

通义千问扔出了一枚“重磅炸弹”:Qwen3-Max-Thinking,一款号称性能可比GPT-5.2 Thinking和Opus 4.5的旗舰推理模型。但问题是,它只说了“可比”,没拿出任何一张成绩单。

这标志着大模型竞争进入了一个新阶段:从“全能冠军”的比拼,转向“单项特长生”的较量。Qwen不再试图用一个模型解决所有问题,而是选择将“复杂推理”这项能力单独拎出来,进行深度优化和强化。本质上,这是一种能力解耦的系统工程,通过牺牲部分通用性,换取在特定高价值任务上的极致表现。对开发者而言,这意味着未来可能需要像搭积木一样,为不同任务调用不同的专用模型。

“性能可比”是最大的烟雾弹。新闻稿中充斥着“可比”、“媲美”这类词汇,却找不到任何具体的基准测试分数、对比数据或性能提升百分比。在AI领域,没有量化指标的宣称,其可信度要大打折扣。这究竟是技术自信,还是营销话术?我们无从判断。这背后可能有两种情况:一是其性能提升确实显著,但代价是巨大的算力和数据成本,不便公开;二是所谓的“可比”是在特定、经过精心挑选的测试集上得出的,缺乏普适性。无论如何,缺乏透明度让这场“挑战”显得诚意不足。

产业影响清晰,但生态影响有限。对于模型层,Qwen此举直接向OpenAI和Anthropic的高端闭源推理服务发起了挑战,加剧了市场竞争。下游应用开发者多了一个潜在的高性能API选项,有助于降低对单一供应商的依赖风险。然而,由于这是一个闭源模型,它对开源社区的贡献几乎为零,不会像其开源基础模型那样推动整个生态的进步。这纯粹是一场商业游戏。

未来半年,我们将看到更多厂商跟进,推出各自的“思考”、“数学”或“编码”专用模型。但更关键的是,行业亟需一套针对推理能力的系统性、可复现的评测标准,来终结这种“口说无凭”的竞争。在Qwen或第三方机构拿出硬核数据之前,这场发布会更像是一次精心策划的营销预热。在AI的世界里,没有Benchmark的宣战,都只是噪音。


原文链接:Qwen releases Qwen3-Max-Thinking, its flagship reasoning model that it says demonstrates performance comparable to models such as GPT-5.2 Thinking and Opus 4.5 (Qwen)

本文由 AI 辅助生成,仅供参考。