GPT-4 Turbo从Claude 3手中夺回“最佳人工智能模型”桂冠

2024年04月16日 由 neo 发表 55 0

OpenAI近期动作频频,上周他们为开发者和付费的ChatGPT订阅者带来了最新的GPT-4 Turbo模型。该模型一经发布,其相较于前代的多项改进便得到了用户的广泛认可。

自周四起,更新版的GPT-4 Turbo,即gpt-4-turbo-2024-04-09,成功夺回了大型模型系统组织(LMSYS)聊天机器人竞技场的第一名位置。这是一个众包开放平台,用户可以在此对大型语言模型(LLM)进行评估。

GPT-4-Turbohasjustreclaimed

在聊天机器人竞技场中,用户可以同时与两个LLM进行对话,并在不知道模型身份的情况下,对比它们的回复质量。经过评估后,用户可以基于自己的感受继续交流,直至他们确定哪个模型更出色、是否势均力敌,或都不尽如人意。

screenshot-2024-04-15-at-12-44-10pm

这些评估结果最终会用于在排行榜上对聊天机器人竞技场的82个LLM进行排名,其中包括市场上备受欢迎的Gemini Pro、Claude 3系列LLM以及Mistral-Large-2402等模型。

截至4月13日最新的聊天机器人竞技场更新数据显示,更新版的GPT-4 Turbo在总体、编码以及英语类别中均保持领先。这意味着,尽管Anthropic的Claude 3 Opus在一个月前曾短暂超越GPT-4 Turbo,但如今在总体类别中已退居次席,而较旧版本的GPT-4 Turbo——GPT-4-1106-preview,则位列第三。

这些卓越的表现可能得益于gpt-4-turbo-2024-04-09在编码、数学、逻辑推理和写作能力上的显著改进。通过一系列基准测试,该模型展示了在评估AI模型熟练度方面的卓越性能。

如果你想亲自比较gpt-4-turbo-2024-04-09与其他LLM的性能,可以访问聊天机器人竞技场网站。只需点击Arena(并排)选项,选择你想比较的模型即可。但请注意,由于你知道并排选项中模型的身份,你将无法参与投票。如果你想能够投票并使你的意见计入排行榜,你可以使用Arena(战斗)选项来比较随机模型。

当然,如果你对测试不感兴趣,想直接使用gpt-4-turbo-2024-04-09在ChatGPT中,那么只需成为ChatGPT Plus的订阅者,每月支付20美元即可。

文章来源:https://www.zdnet.com/article/gpt-4-turbo-reclaims-best-ai-model-crown-from-anthropics-claude-3/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消