Inflection推出Inflection-2.5模型，性能可与GPT-4相媲美

2024年03月08日由 daydream 发表 604 0

初创公司Inflection AI由DeepMind联合创始人穆斯塔法·苏莱曼和LinkedIn联合创始人里德·霍夫曼联手打造，近日，该公司宣布推出了一款名为Inflection-2.5的新型基础模型。

微信截图_20240308104702

基于已有的成果来看，Inflection-2.5在性能上有了显著提升，比公司原有的Inflection-1模型表现更加出色，几乎能与OpenAI的GPT-4模型相抗衡，尤其在STEM学科领域。如今，这款模型已经应用于公司的Pi助手，旨在与ChatGPT和Gemini等竞品展开竞争，用户可以通过移动端和网页端对其进行测试。

此举标志着在快速发展的AI领域中，Inflection AI成为了挑战OpenAI统治地位的新势力，而OpenAI则始终坚持其为人类发展AI的理念。就在不久前，Anthropic发布了Claude 3 Opus，成为首个击败GPT-4的模型。

尽管Inflection-2.5在性能上有了很大提升，但仍旧稍逊于GPT-4。

自成立以来，Inflection AI一直致力于打造一款“善解人意、有用且安全”的AI，其表现比其他模型（包括GPT系列）更加个性化和口语化。该公司采用独特的共情微调技术，赋予Pi助手背后的模型独特的个性特征和卓越的情商（EQ）。

随着Inflection 2.5的升级推出，这家在2023年6月筹集了13亿美元融资的初创公司正在加强AI的智商方面，涵盖物理和数学等领域。在该公司发布的一篇博客文章中提到，用户在与由Inflection 2.5支持的Pi助手交谈时，可以讨论一系列话题，从分享爱好到编程，从检查生物试卷答案到起草商业计划。

微信截图_20240308102731

在基准测试性能方面，升级后的模型在各方面都显示出了比Inflection 1的显著改进，并接近GPT-4——尽管它仍然落后。

例如，在MMLU基准测试中，该测试衡量的是从高中到专业级别难度的任务表现，Inflection-2.5得分85.5，仅次于GPT-4的87.3。在STEM考试中，该模型的表现几乎与OpenAI模型一样好，在匈牙利数学考试中得分为63（GPT-4为68），在物理GRE考试中得分位于第85百分位，而GPT-4为第97百分位。

在GSM8K基准测试中，该测试包含8.5K个高质量的小学数学问题，Inflection模型得分86.3，而GPT-4得分92。在0-shot HumanEval测试中，该测试旨在评估代码生成能力，Inflection模型得分73.8，而GPT-4得分79.3。

尽管性能尚未超越GPT-4，但Inflection AI确实指出，这款“达到GPT-4水平94%性能”的模型在训练效率上远超OpenAI的大型语言模型（LLM）。

据该公司表示，Inflection-2.5在取得这些成果时，仅使用了GPT-4训练浮点运算量（计算量）的40%。

此外，与GPT-4一样，该模型还集成了实时网页搜索功能，为用户提供当前事件的最新信息。考虑到公司将Pi助手定位为面向大众的AI，这将是一个重要的升级。但值得注意的是，由于目前没有相关的基准测试，网页检索结果的质量可能会有所不同。

如何访问Inflection-2.5呢？

Inflection AI已经将新模型应用于其Pi聊天机器人。这意味着任何使用该助手的人都可以开始测试其功能。

该公司尚未分享用户如何从升级后的模型中受益，但表示这一变化对用户的情绪、参与度和留存率产生了重大影响，加速了聊天机器人的有机用户增长。

目前，这款可在Android、iOS、网页和桌面应用程序上使用的Pi聊天机器人，拥有每日100万活跃用户和每月600万活跃用户。该AI已交换超过40亿条消息，平均对话时长为33分钟。

文章来源：https://venturebeat.com/ai/inflection-ai-launches-new-model-for-pi-chatbot-nearly-matches-gpt-4/

标签：

模型 GPT-4 Inflection-2.5

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇零一万物公众号揭晓Yi-9B模型，当前Yi系列模型中的“理科状元”

下一篇 Cohere推出Command-R：企业AI新模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术