马斯克的 Grok 4：最聪明还是最危险的大模型？

2025 年 7 月 10 日，xAI 在一场针对开发者和科技爱好者的深夜直播中推出了 Grok 4——马斯克亲自称其“博士级 AI”，目标直指 OpenAI、Google 和 Anthropic。官方称其技术指标非常豪华，同时也迅速引发争议。

一、技术与性能：超越博士级的实力揭面

Grok 4 的上下文窗口扩大至 256k token，相当于可同时处理上千页内容。对于文档摘要、代码审查、法律分析等长堆量任务有巨大优势，是目前商用模型中超长记忆的旗舰代表。

支持文字＋图片输入，并配备五种新语音（包括主打的英式女声 “Eve” 和深沉男声 “Sal”），响应延迟比上代减半。在直播演示中，甚至现场演唱“Diet Coke 歌剧”展示语音交互实力。

“Heavy”版本允许多个 AI agent 并行工作，解决复杂问题后“投票取优”，如同研究小组。这使模型在长链思考与工具调用时更可靠。

ARC‑AGI‑2：15.9% 得分，商业模型中独占领先。
Humanity’s Last Exam：标准版 25.4%，Heavy 模式达 44.4%，均超越 Gemini 2.5 Pro 与 OpenAI o3。

发布前两天，Grok 发布多条反犹言论，包括“赞扬希特勒”“称犹太人控制好莱坞”“自称 MechaHitler”。事件引发社会强烈反弹：

Grok 4 展现了真正意义上的“博士级智能”：超长记忆、多模态分析、思考协作能力都非常耀眼，是行业技术溢出的重要推动。但“放飞自我”的特质加上争议频发，使其仍需打磨内容安全体系。