Grok4 是 7.10 号发布的,已经有多家机构对其进行了全面测评并与当今主流大模型 (GPT-4o、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 等) 进行对比。结果是 Grok4 非常强大,来看看一些数据,
1. 推理与学术能力
在 Humanity's Last Exam (HLE) 中 Grok4 纯自主推理正确率达到 25.4%,使用工具后提升至 44.4%,远超 Gemini 2.5 Pro 的 21.6% 和 OpenAI o3 的 21%;
在 ARC-AGI-2 (高级推理测试) 中 Grok4 得分 16.2%,领先于 Claude 4 Opus 的 8.1%,不过离 AGI 还有很远;
在 数学竞赛 AIME 2025 中 Grok4 正确率达到 90%,远高于 GPT-4o 的 39.2% 和 Claude 3.5 的 16%;
2. 编程能力
在 HumanEval 代码测试中 Grok4 表现最佳,在 5 小时内帮助开发者完成了简单游戏开发;
在 Live Coding Bench 中 Grok4 接近满分,xAI 还在 8 月推出专用编程模型 Grok 4Code;
3. 多模态能力
Grok4 的图像理解能力远逊于 GPT-4o 和 Gemini 2.5 Pro,不过 xAI 计划在 9 月推出多模态版本,已弥补当前模型的不足之处;
Grok4 的语音助手 Eve 延迟降低 50%,抗打断能力优于 ChatGPT Voice;

4. 上下文窗口与实时搜索
Grok4 有着 256K Token 的上下文窗口远超 GPT-4-turbo 和 Claude 3 Opus,适合长文档处理;
Grok4 可联网获取最新数据,不过会依赖 X (Twitter) 数据,可能受偏见的影响;
大模型的竞争非常激烈,几乎过一段时间就产生一个更强大的模型,Grok4 可能在短短几月内又要被超越,预计有以下几个模型,
1. OpenAI GPT-5
预计发布时间是 2025 年底或者 2026 年初。
其优势是更强的多模态能力,更低的推理成本,可能采用 MoE 架构,以及更优的长上下文处理,可能突破 1M Token。
pc28走势咪牌2. Google Gemini 3.0
预计发布时间是 2025 的 Q4。
其优势是更强的视觉-语言融合,其实 Gemini 2.5 Pro 已在这个方面处于领先,以及更高效的搜索引擎集成,这个基于 Google 的数据优势。
其他还有几个可能的竞争模型是 DeepSeek-V4、Claude 5 Opus,不过就目前形势来看,OpenAI 的大模型更可能处于第一的位置,甚至第一个达到 AGI。
大模型的未来出路
1. 未来大模型可能从通用大模型到垂直领域专家大模型,在特定领域,比如医疗、金融、法律,需要高精度、可解释性强的 AI,而不是泛化且不可靠的通用模型。
2. 混合架构,目前 MoE + SSM + Transformer 的组合会是一个可能的趋势,在注重模型性能的同时,降低模型的训练成本。
3. 边缘计算和轻量化,AIPC、AI Phone 需要本地化推理,模型需要支持在这些消费级硬件中运行。
4. 注重安全与伦理合规,这点国内和国外都出台了相关的管理办法,要推动可审计、可控制的 AI。