由Meta在去年四月推出,Llama 4 Scout和Maverick分别包含17亿个活跃参数,分布在16个和128个专家中。Llama 4 Scout经过优化,可以在单个NVIDIA H100 GPU上运行以处理通用任务。根据Meta的说法,Llama 4 Maverick提供了增强的推理和编码能力,并在同类模型中表现优异。亚马逊强调,专家混合架构在降低计算成本方面的价值,使先进的AI更易于访问且更具成本效益。
得益于其更高效的专家混合(MoE)架构——这是Meta的首创——它仅激活模型中与每个任务最相关的部分,客户可以从这些强大的功能中受益,这些功能在模型训练和推理方面更具计算效率,从而在更高性能的同时降低成本。
虽然Llama 4 Scout支持最多1000万个token的上下文窗口,但Amazon Bedrock目前允许最多350万个token,并计划很快扩展。Llama 4 Maverick支持最多100万个token。在这两种情况下,这些都比Llama 3模型可用的128K上下文窗口有了显著增加。
在Amazon SageMaker JumpStart上,您可以使用新模型与SageMaker Studio或Amazon SageMaker Python SDK结合使用,具体取决于您的使用场景。两个模型默认使用ml.p5.48xlarge
实例,该实例配备NVIDIA H100 Tensor Core GPU。或者,您可以选择ml.p5en.48xlarge
实例,由NVIDIA H200 Tensor Core GPU提供支持。Llama 4 Scout还支持ml.g6e.48xlarge
实例类型,该类型使用NVIDIA L40S Tensor Core GPU。
Llama 4模型还可在其他多个云提供商上使用,包括Databricks、GroqCloud、Lambda.ai、Cerebras Inference Cloud等。此外,您可以在Hugging Face上访问它们。
除了Scout和Maverick,Behemoth是Llama 4家族中的第三个模型,具有2880亿个活跃参数,分布在16个专家中。Meta将Behemoth描述为目前预览中的最智能的蒸馏教师模型,并使用它来训练Scout和Maverick。