Grok 4.20远远落后于Gemini和GPT-5.4,但创下了无幻觉的新纪录

2026年03月13日 由 alex 发表 2185 0

xAI的Grok 4.20在基准测试中无法跟上顶级AI模型的步伐,但幻觉表现比测试过的其他模型都要少。根据Artificial Analysis的数据,Grok 4.20 Beta在启用推理后智力指数得分为48,远低于Gemini 3.1 Pro Preview和GPT-5.4的57分,但仍比Grok 4提升了6分。


grok_420_AA_benchmark


xAI 发布了三种 API 变体:带推理、无推理和多智能体模式。该模型支持200万代币上下文窗口,成本为每百万代币2美元或6美元;比Grok 4便宜,价格在西方型号中具有竞争力。


Grok 4.20最突出的地方,就是事实的可靠性。在AA全知测试中,根据人工分析,他的非幻觉率达到了78%,创下了纪录。该测试测量模型制造答案的频率,而不是承认自己不知道,同时结合事实回忆。Grok 4.20只有五分之一的答错率没有答案。

文章来源:https://the-decoder.com/grok-4-20-trails-gemini-and-gpt-5-4-by-a-wide-margin-but-sets-a-new-record-for-not-hallucinating/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消