项目展示

Grok4虽非常强大,不过可能几个月后又被超越

2025-09-16

Grok4 是 7.10 号发布的,已经有多家机构对其进行了全面测评并与当今主流大模型 (GPT-4o、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 等) 进行对比。结果是 Grok4 非常强大,来看看一些数据,

1. 推理与学术能力

在 Humanity's Last Exam (HLE) 中 Grok4 纯自主推理正确率达到 25.4%,使用工具后提升至 44.4%,远超 Gemini 2.5 Pro 的 21.6% 和 OpenAI o3 的 21%;

在 ARC-AGI-2 (高级推理测试) 中 Grok4 得分 16.2%,领先于 Claude 4 Opus 的 8.1%,不过离 AGI 还有很远;

在 数学竞赛 AIME 2025 中 Grok4 正确率达到 90%,远高于 GPT-4o 的 39.2% 和 Claude 3.5 的 16%;

2. 编程能力

在 HumanEval 代码测试中 Grok4 表现最佳,在 5 小时内帮助开发者完成了简单游戏开发;

在 Live Coding Bench 中 Grok4 接近满分,xAI 还在 8 月推出专用编程模型 Grok 4Code;

3. 多模态能力

Grok4 的图像理解能力远逊于 GPT-4o 和 Gemini 2.5 Pro,不过 xAI 计划在 9 月推出多模态版本,已弥补当前模型的不足之处;

Grok4 的语音助手 Eve 延迟降低 50%,抗打断能力优于 ChatGPT Voice;

Grok4虽非常强大,不过可能几个月后又被超越

4. 上下文窗口与实时搜索

Grok4 有着 256K Token 的上下文窗口远超 GPT-4-turbo 和 Claude 3 Opus,适合长文档处理;

Grok4 可联网获取最新数据,不过会依赖 X (Twitter) 数据,可能受偏见的影响;

大模型的竞争非常激烈,几乎过一段时间就产生一个更强大的模型,Grok4 可能在短短几月内又要被超越,预计有以下几个模型,

1. OpenAI GPT-5

预计发布时间是 2025 年底或者 2026 年初。

其优势是更强的多模态能力,更低的推理成本,可能采用 MoE 架构,以及更优的长上下文处理,可能突破 1M Token。

pc28走势咪牌

2. Google Gemini 3.0

预计发布时间是 2025 的 Q4。

其优势是更强的视觉-语言融合,其实 Gemini 2.5 Pro 已在这个方面处于领先,以及更高效的搜索引擎集成,这个基于 Google 的数据优势。

其他还有几个可能的竞争模型是 DeepSeek-V4、Claude 5 Opus,不过就目前形势来看,OpenAI 的大模型更可能处于第一的位置,甚至第一个达到 AGI。

大模型的未来出路

1. 未来大模型可能从通用大模型到垂直领域专家大模型,在特定领域,比如医疗、金融、法律,需要高精度、可解释性强的 AI,而不是泛化且不可靠的通用模型。

2. 混合架构,目前 MoE + SSM + Transformer 的组合会是一个可能的趋势,在注重模型性能的同时,降低模型的训练成本。

3. 边缘计算和轻量化,AIPC、AI Phone 需要本地化推理,模型需要支持在这些消费级硬件中运行。

4. 注重安全与伦理合规,这点国内和国外都出台了相关的管理办法,要推动可审计、可控制的 AI。