小米 MiMo 模型推理速度现已达 ChatGPT、Claude 的 15 倍
2026年06月09日 由 佚名 发表
130
0
小米正式发布 MiMo-V2.5-Pro-UltraSpeed 极速推理版本,这款万亿参数旗舰模型的推理服务模式,每秒生成超 1000 词元,实测峰值接近 1200 词元。
参数是决定 AI 模型思维逻辑的内部数值权重,参数规模越大,模型能够识别的复杂规律就越多。词元是模型读写文本的基本单元,平均下来,一个词元约对应四分之三个英文单词。
小米仅依靠单节点 8 张通用显卡就实现了这一成绩,全程使用标准硬件,并未搭载自研专用芯片。这一成果彻底改变了行业认知,意味着普通硬件也能落地超高推理速度的 AI 服务。
结合行业数据直观对比:据人工智能分析机构统计,目前多数用户使用的 GPT-5.5 每秒仅生成 68 词元;Claude Opus 4.6 约为 71 词元 / 秒,其轻量版 Haiku 为 98 词元 / 秒;Gemini Flash 则达到 192 词元 / 秒。而小米 MiMo-V2.5-Pro-UltraSpeed 可达 1000 词元 / 秒,且该模型在代码评测中的表现与 Claude Opus 旗鼓相当。

Cerebras 与 Groq 两家企业长期深耕 AI 加速赛道。Cerebras 研发了餐盘大小的晶圆级芯片,板载 44GB 显存,以此解决显卡推理的带宽瓶颈。该芯片运行 Meta 的 Llama 3.1 4050 亿参数模型时,速度可达 969 词元 / 秒,表现亮眼,但这款模型参数规模不足小米 MiMo 版本的一半。Groq 自研的语言处理器架构,根据模型不同,速度上限在 300 至 750 词元 / 秒之间。
上述两款加速方案所使用的硬件,均无法在公有云平台直接租用。
小米此次仅通过软件优化,就在通用显卡上实现突破,核心结合了多项模型优化技术与自研推理引擎 TileRT。
技术原理解析
此次提速主要依托两大核心技术:
第一项是FP4 量化。常规运行会采用 8 位或 16 位全精度计算,小米将万亿参数模型中占比最高的专家层压缩至 4 位精度。此举大幅降低内存占用与带宽压力,进而提升运行速度。量化通常会小幅损耗模型效果,而小米采用精细化优化方案:仅压缩专家层,其余模块保留全精度运算,最终模型效果几乎无损。
第二项为DFlash 推测解码。传统推测解码由小型草稿模型逐段预判后续词元,再由大模型并行核验。DFlash 则彻底摒弃逐段预判逻辑,单次前向运算即可补全一整段掩码文本。在代码场景测试中,大模型每轮核验 8 个预判词元,平均可确认 6.3 个,实现一步核验多词,效率大幅提升。
自研引擎 TileRT 则起到统筹作用,让整套计算流程持续驻留显卡内部,消除算子调用开销与运算间隙。
小米将这套方案定义为极致的模型与系统协同设计。单独使用任意一项技术,都无法达到每秒 1000 词元的速度,多项技术融合才实现了性能飞跃。
MiMo-V2.5-Pro 本身就是业界顶尖模型。该版本于今年 4 月正式推出,在绝大多数代码评测项目中对标 Claude Opus;计费标准为每百万输入词元约 0.43 美元、每百万输出词元约 0.87 美元,而 Claude Opus 的收费高达每百万输入词元 5 美元、每百万输出词元 25 美元。
本次极速版是在原版 MiMo-V2.5-Pro 基础上加速优化,并非功能阉割版本。
推理速度的飞跃,也重塑了 AI 模型的应用场景。如今可并行运行数十条推理逻辑,无需单次等待结果。反欺诈、交易信号生成、实时智能体交互等场景都对延迟有着严苛要求,每秒 60 词元的速度完全无法满足,而每秒 1000 词元的推理能力则可轻松适配。
在定价方面,极速版调用费用为标准版 MiMo-V2.5-Pro 的 3 倍,但输出效率提升约 10 倍。该模型 API 试用活动将于 6 月 9 日至 23 日开启,采用申请制,企业及专业开发者享有优先权限。同时,基于 FP4 量化与 DFlash 技术的模型权重已在 Hugging Face 开源,供全球开发者测试使用。
文章来源:https://decrypt.co/370449/xiaomi-mimo-ultraspeed-ai-model-faster-chatgpt-claude