谷歌的AI研发实验室DeepMind表示,他们开发了一种新的AI系统,能够解决具有“机器可评分”解决方案的问题。
在实验中,该系统被称为AlphaEvolve,可以帮助优化谷歌用于训练其AI模型的一些基础设施。DeepMind表示,公司正在构建一个用于与AlphaEvolve交互的用户界面,并计划在更广泛推出之前,为选定的学者启动一个早期访问计划。
大多数AI模型会产生幻觉。由于其概率架构,它们有时会自信地编造内容。事实上,像OpenAI的o3这样的新AI模型产生幻觉比它们的前辈更多,这说明了问题的复杂性。
AlphaEvolve引入了一种巧妙的机制来减少幻觉:一个自动评估系统。该系统使用模型生成、批判并得出问题的可能答案池,并自动评估和评分答案的准确性。
AlphaEvolve并不是第一个采用这种方法的系统。研究人员,包括几年前DeepMind的一个团队,在各种数学领域应用了类似的技术。但DeepMind声称AlphaEvolve使用的“最先进”模型——特别是Gemini模型——使其比早期的AI实例更具能力。
要使用AlphaEvolve,用户必须向系统提供一个问题提示,可以选择包括说明、方程式、代码片段和相关文献等细节。他们还必须提供一种自动评估系统答案的机制,形式为公式。
因为AlphaEvolve只能解决它能自我评估的问题,所以该系统只能处理某些类型的问题——特别是在计算机科学和系统优化等领域。另一个主要限制是,AlphaEvolve只能将解决方案描述为算法,这使得它不适合非数值问题。
为了对AlphaEvolve进行基准测试,DeepMind让系统尝试了一组约50个数学问题,涵盖从几何到组合数学的分支。DeepMind声称,AlphaEvolve在75%的情况下成功“重新发现”了问题的最佳已知答案,并在20%的情况下找到了改进的解决方案。
DeepMind还评估了AlphaEvolve在实际问题上的表现,比如提高谷歌数据中心的效率和加快模型训练运行。根据实验室的说法,AlphaEvolve生成了一种算法,平均持续恢复谷歌全球计算资源的0.7%。该系统还提出了一种优化方案,将谷歌训练其Gemini模型所需的总时间减少了1%。
需要明确的是,AlphaEvolve并没有做出突破性的发现。在一项实验中,该系统能够找到一种改进谷歌TPU AI加速器芯片设计的方法,这种方法早些时候已被其他工具标记。
然而,DeepMind与许多AI实验室一样,为其系统提出了相同的论点:AlphaEvolve可以节省时间,同时让专家专注于其他更重要的工作。