谷歌推出LLM-Evalkit,为提示工程带来秩序和指标

2025年10月21日 由 佚名 发表 49 0
谷歌已经推出了LLM-Evalkit,这是一个基于Vertex AI SDKs构建的开源框架,旨在使大型语言模型的提示工程更加有序且可测量。这个轻量级工具旨在用统一的数据驱动工作流取代分散的文档和基于猜测的迭代。

正如Michael Santoro所说,任何与LLM合作过的人都知道这种痛苦:团队在一个控制台中进行实验,在其他地方保存提示,结果测量不一致。LLM-Evalkit将这些努力整合到一个单一、连贯的环境中——一个可以创建、测试、版本化和并排比较提示的地方。通过保持变更的共享记录,团队终于可以跟踪哪些在提高性能,而不是依赖记忆或电子表格。


该工具包的理念很简单:停止猜测,开始测量。用户不再问哪个提示“感觉”更好,而是定义一个特定任务,组装一个具有代表性的数据集,并使用客观指标评估输出。该框架使每次改进都可以量化,将直觉转化为证据。


这种方法与现有的谷歌云工作流无缝集成。基于Vertex AI SDKs并连接到谷歌的评估工具,LLM-Evalkit在实验和性能跟踪之间建立了一个结构化的反馈循环。团队可以运行测试,比较输出,并为所有提示迭代维护一个单一的真实来源——无需在多个环境中切换。


同时,谷歌设计了一个包容性的框架。通过其无代码界面,LLM-Evalkit使提示工程对更广泛的专业人士开放——从开发人员和数据科学家到产品经理和用户体验撰稿人。通过降低技术障碍,它鼓励更快的迭代和技术与非技术团队成员之间更紧密的合作,使提示设计成为一个真正的跨学科努力。


Santoro分享了他在LinkedIn上的热情:


很高兴宣布我一直在开发的新开源框架——LLM-Evalkit!它旨在简化在谷歌云上与LLM合作的团队的提示工程过程。


这一公告引起了该领域从业者的关注。一位用户评论道在LinkedIn上:


这看起来非常好,Michael。缺乏一个集中系统来跟踪提示随时间的变化——尤其是在模型升级时——是我们面临的问题。很期待尝试这个。


LLM-Evalkit现在作为一个开源项目在GitHub上可用,并与Vertex AI集成,同时在谷歌云控制台中附有教程。新用户可以利用谷歌的300美元试用额度来探索它。


通过LLM-Evalkit,谷歌希望将提示工程从一种即兴创作转变为一种可重复、透明的过程——一个随着每次迭代变得更聪明的过程。


文章来源:https://www.infoq.com/news/2025/10/llm-evalkit/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消