GPT-4 Turbo从Claude 3手中夺回“最佳人工智能模型”桂冠

2024年04月16日由 neo 发表 743 0

OpenAI近期动作频频，上周他们为开发者和付费的ChatGPT订阅者带来了最新的GPT-4 Turbo模型。该模型一经发布，其相较于前代的多项改进便得到了用户的广泛认可。

自周四起，更新版的GPT-4 Turbo，即gpt-4-turbo-2024-04-09，成功夺回了大型模型系统组织（LMSYS）聊天机器人竞技场的第一名位置。这是一个众包开放平台，用户可以在此对大型语言模型（LLM）进行评估。

GPT-4-Turbohasjustreclaimed

在聊天机器人竞技场中，用户可以同时与两个LLM进行对话，并在不知道模型身份的情况下，对比它们的回复质量。经过评估后，用户可以基于自己的感受继续交流，直至他们确定哪个模型更出色、是否势均力敌，或都不尽如人意。

screenshot-2024-04-15-at-12-44-10pm

这些评估结果最终会用于在排行榜上对聊天机器人竞技场的82个LLM进行排名，其中包括市场上备受欢迎的Gemini Pro、Claude 3系列LLM以及Mistral-Large-2402等模型。

截至4月13日最新的聊天机器人竞技场更新数据显示，更新版的GPT-4 Turbo在总体、编码以及英语类别中均保持领先。这意味着，尽管Anthropic的Claude 3 Opus在一个月前曾短暂超越GPT-4 Turbo，但如今在总体类别中已退居次席，而较旧版本的GPT-4 Turbo——GPT-4-1106-preview，则位列第三。

这些卓越的表现可能得益于gpt-4-turbo-2024-04-09在编码、数学、逻辑推理和写作能力上的显著改进。通过一系列基准测试，该模型展示了在评估AI模型熟练度方面的卓越性能。

如果你想亲自比较gpt-4-turbo-2024-04-09与其他LLM的性能，可以访问聊天机器人竞技场网站。只需点击Arena（并排）选项，选择你想比较的模型即可。但请注意，由于你知道并排选项中模型的身份，你将无法参与投票。如果你想能够投票并使你的意见计入排行榜，你可以使用Arena（战斗）选项来比较随机模型。

当然，如果你对测试不感兴趣，想直接使用gpt-4-turbo-2024-04-09在ChatGPT中，那么只需成为ChatGPT Plus的订阅者，每月支付20美元即可。

文章来源：https://www.zdnet.com/article/gpt-4-turbo-reclaims-best-ai-model-crown-from-anthropics-claude-3/

标签：

OpenAI ChatGPT

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇人工智能可用于定位急性中风病变

下一篇创新选美大赛“Miss AI”：为人工智能模型开创了竞赛先河

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体