Docker Model Runner 旨在更轻松地在本地运行LLM模型

2025年04月23日 由 alex 发表 2285 0

Docker Model Runner 目前在 Apple Silicon 上为 macOS 的 Docker Desktop 4.40 提供预览版,允许开发人员在本地运行模型并使用本地模型迭代应用程序代码,而不会中断其基于容器的工作流程。


使用本地 LLM 进行开发具有多种优势,包括降低成本、提高数据隐私、减少网络延迟以及更好地控制模型。


Docker Model Runner 解决了开发人员将 LLM 集成到容器化应用程序中的几个痛点,例如处理不同的工具、配置环境以及管理容器外部的模型。此外,没有存储、共享或提供模型的标准方法。为了减少与此相关的摩擦,Docker Model Runner 包括:

  • 作为 Docker Desktop 一部分的推理引擎,构建在 llama.cpp 之上,可通过熟悉的 OpenAI API 访问。无需额外工具,无需额外设置,也无需断开连接的工作流程。所有内容都集中在一个位置,因此您可以直接在机器上快速测试和迭代。


为了避免虚拟机的典型性能开销,Docker Model Runner 使用基于主机的执行。这意味着模型直接在 Apple Silicon 上运行并利用 GPU 加速,这对于推理速度和开发周期的流畅性至关重要。


对于模型分发,Docker 不出所料地押注于 OCI 标准,该规范与容器分发相同,旨在将两者统一到单个工作流下。


现在,您可以轻松地从 Docker Hub 中提取即用型模型。很快,您还将能够推送自己的模型,与任何容器注册表集成,将它们连接到您的 CI/CD 管道,并使用熟悉的工具进行访问控制和自动化。


如果您在 Apple Silicon 上使用适用于 macOS 的 Docker Desktop 4.40,则可以使用该命令,该命令支持的工作流程与您习惯的映像和容器非常相似。例如,您可以 a model 和 it.要指定确切的模型版本,例如其大小或量化,请使用标签,例如:docker modelpullrundocker model


docker model pull ai/smollm2:360M-Q4_K_M
docker model run ai/smollm2:360M-Q4_K_M "Give me a fact about whales."


但是,这些命令背后的机制特定于模型,因为它们实际上并不创建容器。相反,该命令会将推理任务委派给作为原生进程在 llama.cpp 上运行的推理服务器。推理服务器将模型加载到内存中,并将其缓存一段时间。run


您可以通过容器内提供的 OpenAI 终端节点将 Model Runner 与任何与 OpenAI 兼容的客户端或框架一起使用。您也可以从主机访问此终端节点,前提是您启用 TCP 主机访问运行 .http://model-runner.docker.internal/engines/v1docker desktop enable model-runner --tcp 12434


Docker Hub 托管了各种可用于 Model Runner 的模型,包括用于设备上应用程序的 smollm2,以及 llama3.3 和 gemma3。Docker 还发布了一个关于使用 Model Runner 将 Gemma 3 集成到评论处理应用程序中的教程。它介绍了一些常见任务,例如配置 OpenAI SDK 以使用本地模型、使用模型本身生成测试数据等。


Docker Model Runner 并不是在本地运行 LLM 的唯一选项。如果您对 Docker 以容器为中心的方法不感兴趣,您可能还有兴趣查看 Ollama。它作为一个独立的工具工作,具有更大的模型存储库和社区,并且通常更灵活地进行模型定制。虽然 Docker Model Runner 目前仅适用于 macOS,但 Ollama 是跨平台的。但是,尽管 Ollama 在本机运行时支持 Apple Silicon 上的 GPU 加速,但在容器内运行时则不可用。


文章来源:https://www.infoq.com/news/2025/04/docker-model-runner/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消