架构革新

通过多项底层技术突破,MiMo-V2-Flash 在保持低成本的同时,实现了超越同类闭源模型的推理效率。

混合注意力机制

Hybrid Attention

采用 5:1 的滑动窗口与全局注意力交替结构。KV Cache 减少 6 倍,完美解决长文本二次方复杂度难题。

多令牌预测 (MTP)

2.0-2.6x 加速

内置轻量级预测模块,一次前向传播生成多个 Draft Tokens 并并行验证。无需额外 I/O,专为 H200 优化。

后训练蒸馏 (MOPD)

Efficiency

多教师在线策略蒸馏技术。仅需传统方法 1/50 的计算量即可匹配教师模型性能,支持“逐步思考”模式。

性能基准

在编码与 Agent 任务上超越 GPT-5 High 与 Claude 3.5 Sonnet

*数据来源:官方技术报告 2025.12
基准测试 (Benchmark)MiMo-V2-FlashClaude Sonnet 4.5DeepSeek-V3.2GPT-5 (High)
SWE-Bench Verified (Coding)73.4%77.2%73.1%74.9%
AIME 2025 (Math)94.1%87.0%93.1%94.6%
GPQA-Diamond (Reasoning)83.7%83.4%82.4%85.7%
LongBench V2 (Context)60.661.858.4-

技术规格

  • 发布时间 2025年12月16日
  • 许可证 MIT License (权重完全开放)
  • 主要用途 推理、编码、Agentic 任务
  • 推荐框架 SGLang (Day-0 Support)
  • 推理成本 $0.1 / 1M Input (极致性价比)

快速开始

推荐使用 SGLang 进行推理以获得 MTP 与 SWA 的完整加速体验。

# Install SGLang

pip install sglang

# Launch Server

python -m sglang.launch_server --model-path XiaomiMiMo/MiMo-V2-Flash --port 30000

前往 MiMo AI Studio 在线体验