OpenAI重返开源:解析gpt-oss发布

2025年08月06日 由 佚名 发表 34 0


OpenAI发布了gpt-oss,这是自GPT-2以来的首个开源权重语言模型系列。此次发布包括两个仅限文本的模型,gpt-oss-120b和gpt-oss-20b,它们在宽松的Apache 2.0许可证下提供。较大的模型性能几乎与OpenAI自己的o4-mini封闭模型相当,这标志着一个重大战略转变,直接挑战现有的AI市场和公司的商业模式。这一举措验证了开源生态系统日益增长的影响力,国际竞争对手推出了一系列强大的模型。

gpt-oss的内部结构


两个gpt-oss模型都建立在Transformer基础上,使用专家混合(MoE)架构,这种设计已成为高效前沿模型的标准(也用于其他流行的大型语言模型,如DeepSeek-R1)。MoE模型由众多较小的“专家”子网络组成。对于任何给定的输入,模型会智能地将其路由到少数相关专家,而不是调用整个网络。这种方法大大减少了推理的计算负担。


较大的gpt-oss-120b包含1170亿个总参数,128个专家,每个token有4个活跃专家和51亿个活跃参数。较小的gpt-oss-20b有210亿个总参数,32个专家,每个token激活4个专家和36亿个参数。两个模型都支持128,000个token的上下文长度,并使用分组多查询注意力(MQA)和旋转位置嵌入(RoPE)等技术来提高效率。OpenAI还与模型一起开源了其分词器o200k_harmony。


然而,尽管权重是开放的,但从最纯粹的意义上来说,这次发布并不是完全开源的。它缺乏训练数据、训练代码和原始基础模型,这限制了研究人员复制训练过程或深入修改架构的能力。


新的开源性能基准


gpt-oss模型专为推理任务设计。在关键基准测试中,gpt-oss-120b在一般问题解决(MMLU)、工具使用(TauBench)和著名的困难基准人类最后的考试等领域匹敌或超越了OpenAI的专有o4-mini。它在竞赛数学(AIME 2024 & 2025)和健康相关查询(HealthBench)方面表现更佳。较小的gpt-oss-20b与o3-mini相当,使其成为本地和设备上应用的有力候选。


这些模型专为具有强指令跟随和工具使用的代理工作流程而设计,如网络搜索和代码执行。然而,寻求多模态能力和内置工具的开发者仍需转向OpenAI的API平台,因为gpt-oss严格限于文本。








gpt-oss的许可和可访问性


选择使用Apache 2.0许可证使gpt-oss对商业用途极具吸引力。与Meta的Llama许可证不同,它不对收入生成或修改施加限制,后者要求对每月活跃用户超过7亿的服务进行单独的商业协议。


这种许可使金融和医疗等高度监管领域的企业能够在自己的硬件上部署模型,确保数据隐私。模型也被量化并优化以实现高效部署:gpt-oss-120b可以在单个80GB GPU上运行,而20B模型仅需16GB内存。


为了加速采用,OpenAI与包括Azure、AWS和Hugging Face在内的广泛平台以及NVIDIA和AMD等硬件提供商合作。


OpenAI的战略考量


此次发布似乎是对多种市场压力的精心回应。一个关键驱动因素是需要与蓬勃发展的开源生态系统竞争,特别是来自中国公司如DeepSeek和阿里巴巴的高性能模型。事实上,OpenAI首次宣布计划发布一个开源模型是在DeepSeek-R1发布之后。


gpt-oss的发布显然削弱了OpenAI市场的一个重要部分,特别是其非前沿模型。例如,运行gpt-oss的成本将远低于其封闭的o4-mini。这可能会蚕食OpenAI自身的部分收入基础。然而,已经有几个其他开源模型的性能与非前沿模型相匹敌(例如,Kimi-K2,GLM-4.5)。而OpenAI高管承认他们的许多API客户已经在使用付费的OpenAI模型和开源替代品的混合。


gpt-oss显然是为了将这些用户重新纳入OpenAI的阵营,并确保他们留在未来AI实验室发布的封闭模型兼容的模型家族中。


在竞争激烈的AI领域,发布训练成本数亿美元的开源模型绝对不是慈善行为。

文章来源:https://bdtechtalks.com/2025/08/05/openai-gpt-oss-open-source-llm/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消