xAI的Grok 4.20在基准测试中无法跟上顶级AI模型的步伐,但幻觉表现比测试过的其他模型都要少。根据Artificial Analysis的数据,Grok 4.20 Beta在启用推理后智力指数得分为48,远低于Gemini 3.1 Pro Preview和GPT-5.4的57分,但仍比Grok 4提升了6分。

xAI 发布了三种 API 变体:带推理、无推理和多智能体模式。该模型支持200万代币上下文窗口,成本为每百万代币2美元或6美元;比Grok 4便宜,价格在西方型号中具有竞争力。
Grok 4.20最突出的地方,就是事实的可靠性。在AA全知测试中,根据人工分析,他的非幻觉率达到了78%,创下了纪录。该测试测量模型制造答案的频率,而不是承认自己不知道,同时结合事实回忆。Grok 4.20只有五分之一的答错率没有答案。
