小米 MiMo 模型推理速度现已达 ChatGPT、Claude 的 15 倍

2026年06月09日由佚名发表 1371 0

小米正式发布 MiMo-V2.5-Pro-UltraSpeed 极速推理版本，这款万亿参数旗舰模型的推理服务模式，每秒生成超 1000 词元，实测峰值接近 1200 词元。

参数是决定 AI 模型思维逻辑的内部数值权重，参数规模越大，模型能够识别的复杂规律就越多。词元是模型读写文本的基本单元，平均下来，一个词元约对应四分之三个英文单词。

小米仅依靠单节点 8 张通用显卡就实现了这一成绩，全程使用标准硬件，并未搭载自研专用芯片。这一成果彻底改变了行业认知，意味着普通硬件也能落地超高推理速度的 AI 服务。

结合行业数据直观对比：据人工智能分析机构统计，目前多数用户使用的 GPT-5.5 每秒仅生成 68 词元；Claude Opus 4.6 约为 71 词元 / 秒，其轻量版 Haiku 为 98 词元 / 秒；Gemini Flash 则达到 192 词元 / 秒。而小米 MiMo-V2.5-Pro-UltraSpeed 可达 1000 词元 / 秒，且该模型在代码评测中的表现与 Claude Opus 旗鼓相当。

Cerebras 与 Groq 两家企业长期深耕 AI 加速赛道。Cerebras 研发了餐盘大小的晶圆级芯片，板载 44GB 显存，以此解决显卡推理的带宽瓶颈。该芯片运行 Meta 的 Llama 3.1 4050 亿参数模型时，速度可达 969 词元 / 秒，表现亮眼，但这款模型参数规模不足小米 MiMo 版本的一半。Groq 自研的语言处理器架构，根据模型不同，速度上限在 300 至 750 词元 / 秒之间。

上述两款加速方案所使用的硬件，均无法在公有云平台直接租用。

小米此次仅通过软件优化，就在通用显卡上实现突破，核心结合了多项模型优化技术与自研推理引擎 TileRT。

技术原理解析

此次提速主要依托两大核心技术：

第一项是FP4 量化。常规运行会采用 8 位或 16 位全精度计算，小米将万亿参数模型中占比最高的专家层压缩至 4 位精度。此举大幅降低内存占用与带宽压力，进而提升运行速度。量化通常会小幅损耗模型效果，而小米采用精细化优化方案：仅压缩专家层，其余模块保留全精度运算，最终模型效果几乎无损。

第二项为DFlash 推测解码。传统推测解码由小型草稿模型逐段预判后续词元，再由大模型并行核验。DFlash 则彻底摒弃逐段预判逻辑，单次前向运算即可补全一整段掩码文本。在代码场景测试中，大模型每轮核验 8 个预判词元，平均可确认 6.3 个，实现一步核验多词，效率大幅提升。

自研引擎 TileRT 则起到统筹作用，让整套计算流程持续驻留显卡内部，消除算子调用开销与运算间隙。

小米将这套方案定义为极致的模型与系统协同设计。单独使用任意一项技术，都无法达到每秒 1000 词元的速度，多项技术融合才实现了性能飞跃。

MiMo-V2.5-Pro 本身就是业界顶尖模型。该版本于今年 4 月正式推出，在绝大多数代码评测项目中对标 Claude Opus；计费标准为每百万输入词元约 0.43 美元、每百万输出词元约 0.87 美元，而 Claude Opus 的收费高达每百万输入词元 5 美元、每百万输出词元 25 美元。

本次极速版是在原版 MiMo-V2.5-Pro 基础上加速优化，并非功能阉割版本。

推理速度的飞跃，也重塑了 AI 模型的应用场景。如今可并行运行数十条推理逻辑，无需单次等待结果。反欺诈、交易信号生成、实时智能体交互等场景都对延迟有着严苛要求，每秒 60 词元的速度完全无法满足，而每秒 1000 词元的推理能力则可轻松适配。

在定价方面，极速版调用费用为标准版 MiMo-V2.5-Pro 的 3 倍，但输出效率提升约 10 倍。该模型 API 试用活动将于 6 月 9 日至 23 日开启，采用申请制，企业及专业开发者享有优先权限。同时，基于 FP4 量化与 DFlash 技术的模型权重已在 Hugging Face 开源，供全球开发者测试使用。

文章来源：https://decrypt.co/370449/xiaomi-mimo-ultraspeed-ai-model-faster-chatgpt-claude

标签：

Meta

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇苹果筹备已久的AI版 Siri 终于正式亮相

下一篇 OpenAI 确认秘密提交 IPO 申请，上市时间暂未敲定

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体