DeepMind声称其最新AI工具在数学和科学问题上表现卓越

2025年05月14日 由 佚名 发表 35 0

谷歌的AI研发实验室DeepMind表示,他们开发了一种新的AI系统,能够解决具有“机器可评分”解决方案的问题。

在实验中,该系统被称为AlphaEvolve,可以帮助优化谷歌用于训练其AI模型的一些基础设施。DeepMind表示,公司正在构建一个用于与AlphaEvolve交互的用户界面,并计划在更广泛推出之前,为选定的学者启动一个早期访问计划。

大多数AI模型会产生幻觉。由于其概率架构,它们有时会自信地编造内容。事实上,像OpenAI的o3这样的新AI模型产生幻觉比它们的前辈更多,这说明了问题的复杂性。

AlphaEvolve引入了一种巧妙的机制来减少幻觉:一个自动评估系统。该系统使用模型生成、批判并得出问题的可能答案池,并自动评估和评分答案的准确性。

DeepMind AlphaEvolve

AlphaEvolve并不是第一个采用这种方法的系统。研究人员,包括几年前DeepMind的一个团队,在各种数学领域应用了类似的技术。但DeepMind声称AlphaEvolve使用的“最先进”模型——特别是Gemini模型——使其比早期的AI实例更具能力。

要使用AlphaEvolve,用户必须向系统提供一个问题提示,可以选择包括说明、方程式、代码片段和相关文献等细节。他们还必须提供一种自动评估系统答案的机制,形式为公式。

因为AlphaEvolve只能解决它能自我评估的问题,所以该系统只能处理某些类型的问题——特别是在计算机科学和系统优化等领域。另一个主要限制是,AlphaEvolve只能将解决方案描述为算法,这使得它不适合非数值问题。

为了对AlphaEvolve进行基准测试,DeepMind让系统尝试了一组约50个数学问题,涵盖从几何到组合数学的分支。DeepMind声称,AlphaEvolve在75%的情况下成功“重新发现”了问题的最佳已知答案,并在20%的情况下找到了改进的解决方案。

DeepMind还评估了AlphaEvolve在实际问题上的表现,比如提高谷歌数据中心的效率和加快模型训练运行。根据实验室的说法,AlphaEvolve生成了一种算法,平均持续恢复谷歌全球计算资源的0.7%。该系统还提出了一种优化方案,将谷歌训练其Gemini模型所需的总时间减少了1%。

需要明确的是,AlphaEvolve并没有做出突破性的发现。在一项实验中,该系统能够找到一种改进谷歌TPU AI加速器芯片设计的方法,这种方法早些时候已被其他工具标记。

然而,DeepMind与许多AI实验室一样,为其系统提出了相同的论点:AlphaEvolve可以节省时间,同时让专家专注于其他更重要的工作。

文章来源:https://techcrunch.com/2025/05/14/deepmind-claims-its-newest-ai-tool-is-a-whiz-at-math-and-science-problems/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消