◎ 2026-06-07 更新 · 基于公开榜单交叉整理

最新大模型
能力排名报告

这不是单一榜单复读,而是把 Artificial Analysis Intelligence Index、LMArena 文本/搜索榜、速度与成本信号合并后的实用判断:谁最强、谁适合搜索、谁性价比高、谁适合生产落地。

综合第一梯队
Claude Opus 4.8
Artificial Analysis 智能指数第一:61 分;GPT-5.5 xhigh/high 紧随其后。搜索型任务里,LMArena 显示 Claude Opus 4.6 Search 与 GPT-5.5 Search 互有领先。

最强综合能力

Claude Opus 4.8、GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 是当前前沿闭源模型核心梯队。

最强搜索/联网

LMArena Search 榜中 Claude Opus 4.6 Search 与 GPT-5.5 Search 排名最靠前。

最快输出

Artificial Analysis 显示 Mercury 2 约 835 tokens/s,远高于多数通用大模型。

开源/可部署

gpt-oss-120b、Nemotron 3 Ultra、Qwen 系列等更适合本地/私有化与成本敏感场景。

综合能力排名:前沿闭源模型

主依据:Artificial Analysis Intelligence Index v4.0;辅以 LMArena 搜索/文本榜趋势。
Rank模型能力指数/信号强项风险/备注
1Claude Opus 4.8Anthropic · Adaptive Reasoning Max Effort
AA Intelligence Index: 61
推理 复杂任务 代理工作强但成本通常偏高,适合高价值复杂任务。
2GPT-5.5 xhighOpenAI · 高推理强度
AA Intelligence Index: 60
通用 代码 长上下文与第一名差距极小;实际体验可能随路由/推理档位变化。
3GPT-5.5 highOpenAI · 高推理档
AA Intelligence Index: 59
高质量输出 工具使用比 xhigh 更均衡;适合多数生产任务。
4Claude Opus 4.7Anthropic · Adaptive Reasoning
AA Intelligence Index: 57
写作 推理 长任务仍是一线模型;部分搜索榜版本表现尤其强。
5Gemini 3.1 Pro PreviewGoogle · Pro Preview
AA Intelligence Index: 57
多模态 长上下文Preview 状态意味着稳定性和价格策略可能变化。

搜索/联网模型排名

主依据:LMArena Search 榜;该榜更接近“带检索回答”的用户偏好。
Rank模型Arena Score适用场景备注
1Claude Opus 4.6 SearchAnthropic · Search1251±6 / 或风格控制榜 1219±7高质量联网问答、复杂资料综合不同榜单视图中与 GPT-5.5 Search 互有领先。
2GPT-5.5 SearchOpenAI · Search1239±8 / 风格控制榜 1223±8搜索归纳、事实问答、综合报告风格控制视图中排名第一。
3Claude Opus 4.7Anthropic1237±8 / 风格控制榜 1214±8需要更强推理的检索后分析票数较少但分数靠前。
4Gemini 3.1 Pro GroundingGoogle1216±7 / 风格控制榜 1212±7长上下文资料、多模态生态Google 生态内集成优势明显。
5Grok 4.20 Multi-Agent BetaxAI1209±7 / 风格控制榜 1211±7实时性、社媒趋势、多代理搜索Beta 属性较强,输出风格需约束。

实用推荐矩阵

按任务选模型,不要只看总榜。
01

最难推理 / 高价值决策

优先 Claude Opus 4.8 或 GPT-5.5 xhigh。适合架构评审、复杂代码设计、长链路代理任务。

02

生产通用默认

GPT-5.5 high、Claude Opus 4.7、Gemini 3.1 Pro。优先考虑稳定性、成本和上下文长度。

03

搜索报告 / 联网问答

Claude Opus Search、GPT-5.5 Search、Gemini Grounding。重点看引用质量和检索覆盖。

04

高速批处理

Mercury 2、Granite 4.0 H Small、Qwen 小模型。适合分类、抽取、清洗、格式转换。

05

私有化 / 开源

gpt-oss-120b、Nemotron、Qwen、DeepSeek 等。看许可证、显存、吞吐和工具生态。

06

成本敏感

不要盲目用榜首。低成本模型 + 严格验收 + 失败升级,通常比全程顶级模型更划算。

结论:截至 2026-06-07,闭源前沿能力呈现“三强压顶”:Claude Opus 4.8 在综合智能指数上领先,GPT-5.5 以极小差距紧随,Gemini 3.1 Pro 在多模态和长上下文继续强势。搜索场景不要直接套用综合榜,LMArena Search 显示 Claude Opus Search、GPT-5.5 Search、Gemini Grounding、Grok 搜索系是更相关的选择。

来源与方法

榜单会快速变化;本页保留数据口径。
Artificial Analysis
Intelligence Index v4.0:报告引用其 FAQ/模型比较页中给出的 top 5:Claude Opus 4.8(61)、GPT-5.5 xhigh(60)、GPT-5.5 high(59)、Claude Opus 4.7(57)、Gemini 3.1 Pro Preview(57)。
artificialanalysis.ai
LMArena Search
引用其 Search AI Leaderboard 中的排名、分数、票数、价格和上下文信息;同时对比 style-control 视图,避免单一口径误导。
lmarena.ai/leaderboard/search
LMArena Text
文本榜用于确认开放式文本任务趋势,但本报告未把某个子榜如 creative writing 当作综合能力榜。
lmarena.ai/leaderboard/text
报告生成说明
本页由 Hermes Agent 于 2026-06-07 13:59 CST 生成。排名是“公开榜单 + 实用判断”的摘要,不代表官方认证或采购建议。