加拿大28-精准预测|PC28结果|实时更新|数据分析|官方发布

Grok4 是 7.10 号发布的，已经有多家机构对其进行了全面测评并与当今主流大模型 (GPT-4o、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 等) 进行对比。结果是 Grok4 非常强大，来看看一些数据，

1. 推理与学术能力

在 Humanity's Last Exam (HLE) 中 Grok4 纯自主推理正确率达到 25.4%，使用工具后提升至 44.4%，远超 Gemini 2.5 Pro 的 21.6% 和 OpenAI o3 的 21%；

在 ARC-AGI-2 (高级推理测试) 中 Grok4 得分 16.2%，领先于 Claude 4 Opus 的 8.1%，不过离 AGI 还有很远；

在数学竞赛 AIME 2025 中 Grok4 正确率达到 90%，远高于 GPT-4o 的 39.2% 和 Claude 3.5 的 16%；

2. 编程能力

在 HumanEval 代码测试中 Grok4 表现最佳，在 5 小时内帮助开发者完成了简单游戏开发；

在 Live Coding Bench 中 Grok4 接近满分，xAI 还在 8 月推出专用编程模型 Grok 4Code；

3. 多模态能力

Grok4 的图像理解能力远逊于 GPT-4o 和 Gemini 2.5 Pro，不过 xAI 计划在 9 月推出多模态版本，已弥补当前模型的不足之处；

Grok4 的语音助手 Eve 延迟降低 50%，抗打断能力优于 ChatGPT Voice；

4. 上下文窗口与实时搜索

Grok4 有着 256K Token 的上下文窗口远超 GPT-4-turbo 和 Claude 3 Opus，适合长文档处理；

Grok4 可联网获取最新数据，不过会依赖 X (Twitter) 数据，可能受偏见的影响；

大模型的竞争非常激烈，几乎过一段时间就产生一个更强大的模型，Grok4 可能在短短几月内又要被超越，预计有以下几个模型，

1. OpenAI GPT-5

预计发布时间是 2025 年底或者 2026 年初。

其优势是更强的多模态能力，更低的推理成本，可能采用 MoE 架构，以及更优的长上下文处理，可能突破 1M Token。

pc28走势咪牌

2. Google Gemini 3.0

预计发布时间是 2025 的 Q4。

其优势是更强的视觉-语言融合，其实 Gemini 2.5 Pro 已在这个方面处于领先，以及更高效的搜索引擎集成，这个基于 Google 的数据优势。

其他还有几个可能的竞争模型是 DeepSeek-V4、Claude 5 Opus，不过就目前形势来看，OpenAI 的大模型更可能处于第一的位置，甚至第一个达到 AGI。

大模型的未来出路

1. 未来大模型可能从通用大模型到垂直领域专家大模型，在特定领域，比如医疗、金融、法律，需要高精度、可解释性强的 AI，而不是泛化且不可靠的通用模型。

2. 混合架构，目前 MoE + SSM + Transformer 的组合会是一个可能的趋势，在注重模型性能的同时，降低模型的训练成本。

3. 边缘计算和轻量化，AIPC、AI Phone 需要本地化推理，模型需要支持在这些消费级硬件中运行。

4. 注重安全与伦理合规，这点国内和国外都出台了相关的管理办法，要推动可审计、可控制的 AI。

项目展示

Grok4虽非常强大，不过可能几个月后又被超越

全新路虎“揽运”就长这样？

全新福特锐界终于来了，2.7升V6发动机配全新8AT，纯粹性能尤物

全新揽境对决途昂！空间更大动力更强全面碾压对手

全新奔驰C级双门轿跑，搭载2.0T+四驱，运动感十足！

全新外观、取消V6动力，全新日产楼兰官图发布

导航

导航

网站地图

联系方式