AI21 发布开源微型语言模型

2025年10月09日由 alex 发表 1914 0

sml

生成式人工智能供应商 AI21 Labs 周三发布了 Jamba Reasoning 3B，这是一种专为设备上的 AI 计算而设计的微型语言模型。

Jamba Reasoning 3B 是这家总部位于特拉维夫的供应商 Jamba 开源模型系列中的最新产品，并在 Apache 2.0 许可下发布。

该供应商表示，它是建立在自己的混合 SSM-transformer 架构之上的，而不是市场上最流行的大型语言模型（LLM）通常的纯 transformer 基础之上。SSM 代表状态空间模型，是一类用于顺序建模的深度学习算法，对于某些任务来说比转换器更有效。这些模型采用当前状态，然后预测下一个状态是什么。Mamba 是一种基于 SSM 的神经网络架构，是 Jamba 架构的一个组件。

这种微型语言模型，或者其他供应商所说的轻量级模型，拥有 256,000 个令牌的上下文窗口长度，可以处理多达 100 万个令牌——类似于 Anthropic Claude、Google Gemini 和 Meta Llama 等法学硕士提供的功能——但可以在 iPhone 和 Android 设备等小型设备上运行， Mac 和 PC。

“我一直是国家空间模型的忠实粉丝，这在业内是一个古老的想法，但还没有真正的方法来实施它，”Futurum Group 的分析师布拉德·希明（Brad Shimmin）说。“然后随着技术的发展，你现在可以使用这种状态空间模型的想法，因为它的扩展性非常好，而且速度非常快。”

SSM 类型的模型使用绳索缩放技术来拉伸模型的注意力机制，因此它们有效地确定任务的优先级，同时比 LLM 和其他更大的模型需要更少的计算能力。

Shimmin 说，像 AI21 这样规模较小的生成式 AI 供应商，该公司得到了谷歌和人工智能芯片巨头英伟达的支持，自 2017 年成立以来已筹集了超过 6 亿美元，如何从现在在 Hugging Face、Kaggle 和 LM Studio 上免费提供的 Jamba Reasoning 3B 等开源模型中赚钱，是通过构建一个生态系统。

在周三的产品发布中，AI21 吹捧了新 Jamba 模型的性能统计数据，其中它在广泛使用的基准测试系统（如 IFBench、MMLU-Pro 和 Humanity's Last Exam）上优于更大的开源法学硕士，例如阿里巴巴的 Qwen 3.4B、谷歌的 Gemma 3.4B、Meta Llama 3.2 3B、IBM 的 Granite 4.0 Micro 和 Microsoft 的 Phi-4 Mini。

Shimmin 表示，他看到了新的微型语言模型的坚实企业市场，该模型旨在使用检索增强生成技术，因此企业可以对其进行定制并确保其数据安全。

他说，一个主要的应用可能是在联络中心路由客户投诉，并利用推理能力来决定是否应该将问题上报给人工或其他模型。

文章来源：https://aibusiness.com/foundation-models/ai21-open-source-tiny-language-model

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Sam Altman 表示，即使在 Stargate、甲骨文、Nvidia 和 AMD 之后，OpenAI 也即将推出更多大交易

下一篇 Sora 首周的下载量几乎与 ChatGPT 推出时相当

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来