正如Michael Santoro所说,任何与LLM合作过的人都知道这种痛苦:团队在一个控制台中进行实验,在其他地方保存提示,结果测量不一致。LLM-Evalkit将这些努力整合到一个单一、连贯的环境中——一个可以创建、测试、版本化和并排比较提示的地方。通过保持变更的共享记录,团队终于可以跟踪哪些在提高性能,而不是依赖记忆或电子表格。
该工具包的理念很简单:停止猜测,开始测量。用户不再问哪个提示“感觉”更好,而是定义一个特定任务,组装一个具有代表性的数据集,并使用客观指标评估输出。该框架使每次改进都可以量化,将直觉转化为证据。
这种方法与现有的谷歌云工作流无缝集成。基于Vertex AI SDKs并连接到谷歌的评估工具,LLM-Evalkit在实验和性能跟踪之间建立了一个结构化的反馈循环。团队可以运行测试,比较输出,并为所有提示迭代维护一个单一的真实来源——无需在多个环境中切换。
同时,谷歌设计了一个包容性的框架。通过其无代码界面,LLM-Evalkit使提示工程对更广泛的专业人士开放——从开发人员和数据科学家到产品经理和用户体验撰稿人。通过降低技术障碍,它鼓励更快的迭代和技术与非技术团队成员之间更紧密的合作,使提示设计成为一个真正的跨学科努力。
Santoro分享了他在LinkedIn上的热情:
很高兴宣布我一直在开发的新开源框架——LLM-Evalkit!它旨在简化在谷歌云上与LLM合作的团队的提示工程过程。
这一公告引起了该领域从业者的关注。一位用户评论道在LinkedIn上:
这看起来非常好,Michael。缺乏一个集中系统来跟踪提示随时间的变化——尤其是在模型升级时——是我们面临的问题。很期待尝试这个。
LLM-Evalkit现在作为一个开源项目在GitHub上可用,并与Vertex AI集成,同时在谷歌云控制台中附有教程。新用户可以利用谷歌的300美元试用额度来探索它。
通过LLM-Evalkit,谷歌希望将提示工程从一种即兴创作转变为一种可重复、透明的过程——一个随着每次迭代变得更聪明的过程。