通过多项底层技术突破,MiMo-V2-Flash 在保持低成本的同时,实现了超越同类闭源模型的推理效率。
采用 5:1 的滑动窗口与全局注意力交替结构。KV Cache 减少 6 倍,完美解决长文本二次方复杂度难题。
内置轻量级预测模块,一次前向传播生成多个 Draft Tokens 并并行验证。无需额外 I/O,专为 H200 优化。
多教师在线策略蒸馏技术。仅需传统方法 1/50 的计算量即可匹配教师模型性能,支持“逐步思考”模式。
在编码与 Agent 任务上超越 GPT-5 High 与 Claude 3.5 Sonnet
| 基准测试 (Benchmark) | MiMo-V2-Flash | Claude Sonnet 4.5 | DeepSeek-V3.2 | GPT-5 (High) |
|---|---|---|---|---|
| SWE-Bench Verified (Coding) | 73.4% | 77.2% | 73.1% | 74.9% |
| AIME 2025 (Math) | 94.1% | 87.0% | 93.1% | 94.6% |
| GPQA-Diamond (Reasoning) | 83.7% | 83.4% | 82.4% | 85.7% |
| LongBench V2 (Context) | 60.6 | 61.8 | 58.4 | - |
推荐使用 SGLang 进行推理以获得 MTP 与 SWA 的完整加速体验。
# Install SGLang
pip install sglang
# Launch Server
python -m sglang.launch_server --model-path XiaomiMiMo/MiMo-V2-Flash --port 30000