综合能力排名:前沿闭源模型
主依据:Artificial Analysis Intelligence Index v4.0;辅以 LMArena 搜索/文本榜趋势。
| Rank | 模型 | 能力指数/信号 | 强项 | 风险/备注 |
|---|---|---|---|---|
| 1 | Claude Opus 4.8Anthropic · Adaptive Reasoning Max Effort | AA Intelligence Index: 61 | 推理 复杂任务 代理工作 | 强但成本通常偏高,适合高价值复杂任务。 |
| 2 | GPT-5.5 xhighOpenAI · 高推理强度 | AA Intelligence Index: 60 | 通用 代码 长上下文 | 与第一名差距极小;实际体验可能随路由/推理档位变化。 |
| 3 | GPT-5.5 highOpenAI · 高推理档 | AA Intelligence Index: 59 | 高质量输出 工具使用 | 比 xhigh 更均衡;适合多数生产任务。 |
| 4 | Claude Opus 4.7Anthropic · Adaptive Reasoning | AA Intelligence Index: 57 | 写作 推理 长任务 | 仍是一线模型;部分搜索榜版本表现尤其强。 |
| 5 | Gemini 3.1 Pro PreviewGoogle · Pro Preview | AA Intelligence Index: 57 | 多模态 长上下文 | Preview 状态意味着稳定性和价格策略可能变化。 |
搜索/联网模型排名
主依据:LMArena Search 榜;该榜更接近“带检索回答”的用户偏好。
| Rank | 模型 | Arena Score | 适用场景 | 备注 |
|---|---|---|---|---|
| 1 | Claude Opus 4.6 SearchAnthropic · Search | 1251±6 / 或风格控制榜 1219±7 | 高质量联网问答、复杂资料综合 | 不同榜单视图中与 GPT-5.5 Search 互有领先。 |
| 2 | GPT-5.5 SearchOpenAI · Search | 1239±8 / 风格控制榜 1223±8 | 搜索归纳、事实问答、综合报告 | 风格控制视图中排名第一。 |
| 3 | Claude Opus 4.7Anthropic | 1237±8 / 风格控制榜 1214±8 | 需要更强推理的检索后分析 | 票数较少但分数靠前。 |
| 4 | Gemini 3.1 Pro GroundingGoogle | 1216±7 / 风格控制榜 1212±7 | 长上下文资料、多模态生态 | Google 生态内集成优势明显。 |
| 5 | Grok 4.20 Multi-Agent BetaxAI | 1209±7 / 风格控制榜 1211±7 | 实时性、社媒趋势、多代理搜索 | Beta 属性较强,输出风格需约束。 |
实用推荐矩阵
按任务选模型,不要只看总榜。
01
最难推理 / 高价值决策
优先 Claude Opus 4.8 或 GPT-5.5 xhigh。适合架构评审、复杂代码设计、长链路代理任务。
02
生产通用默认
GPT-5.5 high、Claude Opus 4.7、Gemini 3.1 Pro。优先考虑稳定性、成本和上下文长度。
03
搜索报告 / 联网问答
Claude Opus Search、GPT-5.5 Search、Gemini Grounding。重点看引用质量和检索覆盖。
04
高速批处理
Mercury 2、Granite 4.0 H Small、Qwen 小模型。适合分类、抽取、清洗、格式转换。
05
私有化 / 开源
gpt-oss-120b、Nemotron、Qwen、DeepSeek 等。看许可证、显存、吞吐和工具生态。
06
成本敏感
不要盲目用榜首。低成本模型 + 严格验收 + 失败升级,通常比全程顶级模型更划算。
结论:截至 2026-06-07,闭源前沿能力呈现“三强压顶”:Claude Opus 4.8 在综合智能指数上领先,GPT-5.5 以极小差距紧随,Gemini 3.1 Pro 在多模态和长上下文继续强势。搜索场景不要直接套用综合榜,LMArena Search 显示 Claude Opus Search、GPT-5.5 Search、Gemini Grounding、Grok 搜索系是更相关的选择。
来源与方法
榜单会快速变化;本页保留数据口径。
Artificial Analysis
Intelligence Index v4.0:报告引用其 FAQ/模型比较页中给出的 top 5:Claude Opus 4.8(61)、GPT-5.5 xhigh(60)、GPT-5.5 high(59)、Claude Opus 4.7(57)、Gemini 3.1 Pro Preview(57)。
artificialanalysis.ai
Intelligence Index v4.0:报告引用其 FAQ/模型比较页中给出的 top 5:Claude Opus 4.8(61)、GPT-5.5 xhigh(60)、GPT-5.5 high(59)、Claude Opus 4.7(57)、Gemini 3.1 Pro Preview(57)。
artificialanalysis.ai
LMArena Search
引用其 Search AI Leaderboard 中的排名、分数、票数、价格和上下文信息;同时对比 style-control 视图,避免单一口径误导。
lmarena.ai/leaderboard/search
引用其 Search AI Leaderboard 中的排名、分数、票数、价格和上下文信息;同时对比 style-control 视图,避免单一口径误导。
lmarena.ai/leaderboard/search
报告生成说明
本页由 Hermes Agent 于 2026-06-07 13:59 CST 生成。排名是“公开榜单 + 实用判断”的摘要,不代表官方认证或采购建议。
本页由 Hermes Agent 于 2026-06-07 13:59 CST 生成。排名是“公开榜单 + 实用判断”的摘要,不代表官方认证或采购建议。