谷歌在其Gemini API中推出了一项新功能,声称这将降低第三方开发者使用其最新AI模型的成本。
谷歌将这项功能称为“隐式缓存”,表示它可以在通过Gemini API传递给模型的“重复上下文”上节省75%的成本。该功能支持谷歌的Gemini 2.5 Pro和2.5 Flash模型。
这对开发者来说可能是个好消息,因为使用前沿模型的成本一直 在 增长。
缓存是AI行业广泛采用的做法,通过重用模型中经常访问或预先计算的数据来减少计算需求和成本。例如,缓存可以存储用户经常向模型询问的问题的答案,从而避免模型重新生成相同请求答案的需要。
谷歌之前提供了模型提示缓存,但仅限于显式提示缓存,这意味着开发者必须定义他们使用频率最高的提示。虽然成本节省是有保证的,但显式提示缓存通常需要大量手动工作。
一些开发者对谷歌在Gemini 2.5 Pro上实现显式缓存的方式不满意,他们表示这可能导致意外的大额API账单。上周,抱怨达到了高潮,促使Gemini团队道歉并承诺进行更改。
与显式缓存相比,隐式缓存是自动的。默认启用于Gemini 2.5模型,如果Gemini API请求命中缓存,它将传递成本节省。
“当您向其中一个Gemini 2.5模型发送请求时,如果请求与之前的请求共享一个共同的前缀,那么它就有资格命中缓存,”谷歌在博客文章中解释道。 “我们将动态地将成本节省返还给您。”
根据谷歌的开发者文档,2.5 Flash的隐式缓存的最小提示令牌数为1,024,2.5 Pro为2,048,这并不是一个特别大的数量,这意味着触发这些自动节省不需要太多。令牌是模型处理的原始数据位,千个令牌相当于大约750个单词。鉴于谷歌之前关于缓存节省成本的声明出现了问题,这个新功能中有一些需要买家注意的地方。首先,谷歌建议开发者在请求的开头保留重复的上下文,以增加隐式缓存命中的机会。可能会从请求到请求变化的上下文应附加在末尾,公司表示。
此外,谷歌没有提供任何第三方验证来证明新的隐式缓存系统会实现承诺的自动节省。因此,我们需要看看早期采用者的反馈。