VibeThinker-1.5B

高效小型模型的新基准

VibeThinker-1.5B 是由 WeiboAI (新浪人工智能实验室) 开发的开源推理模型，拥有 15 亿参数。尽管体积紧凑，但它在数学和代码推理任务中表现出卓越的性能，超越了 DeepSeek-R1 等一些超大规模模型。

VibeThinker 基于创新的 Spectrum-to-Signal Principle (SSP) 训练框架构建，在保持极低训练成本的同时，实现了可与数百亿参数模型媲美的推理能力。

探索功能在 Hugging Face 上查看阅读论文

核心亮点

小而强大

VibeThinker 仅有 15 亿参数，但展示出卓越的数学和逻辑推理能力，证明了智能并不总是需要大规模的参数。

创新训练架构

采用 Spectrum-to-Signal Principle (SSP)，结合 SFT (频谱阶段) 和 RL (信号阶段) 进行两阶段优化，实现多样性探索和精确提炼。

超低训练成本

总训练时间约为 3,900 个 GPU 小时 (约 7,800 美元)，与大型模型相比，具有出色的性能成本比。

开放且可扩展

在 MIT 开源许可下发布，可免费用于微调和商业部署，促进创新和研究。

推理优化

专为在资源受限的边缘设备和研究环境中高效运行而设计，使更多用户能够使用先进的 AI。

由微博 AI 开发

由新浪人工智能实验室（WeiboAI）创建，利用其在自然语言处理和机器学习研究方面多年的专业知识。

技术创新：Spectrum-to-Signal Principle

VibeThinker 的核心创新在于其独特的两阶段训练方法

频谱阶段 (Spectrum Phase)

多样性与探索

生成多样化的推理路径和解决方案，鼓励模型探索“多种可能性”，而不是过早地收敛到单一答案。

• 对多样化推理示例进行监督微调 (SFT)
• 鼓励创造性的问题解决方法
• 建立丰富的推理模式基础

信号阶段 (Signal Phase)

精炼与优化

通过 MaxEnt-Guided Policy Optimization (MGPO)，强化正确的信号，并将优化重点放在高不确定性样本上，提高模型的推理准确性。

• 带目标反馈的强化学习 (RL)
• 专注于具有挑战性的、高不确定性案例
• 收敛到最优推理策略

这种 “多样性 + 精炼” 机制使模型能够像人类一样思考：先发散，后收敛——在确定最佳解决方案之前探索多种方法。

性能基准

VibeThinker-1.5B 在多个推理基准上展示了有竞争力的性能

基准	分数	对比
AIME24	80.3	在同等规模模型中领先
AIME25	74.4	接近大型模型的性能
HMMT25	50.4	强大的数学逻辑能力
LiveCodeBench v6	51.1	超越了一些 100 亿以上参数的模型

优势

VibeThinker-1.5B 在推理任务中超越了 DeepSeek-R1 (671 亿参数)，展示了“小模型，大智能”的潜力。

考量

与预期一致，作为专业推理模型，它在通用知识问答和百科全书任务上的性能略低于超大型模型。

应用场景

数学问题求解

自动化数学辅导系统、竞赛问题求解器和教育平台

编程教育

代码生成、调试协助和自动化编程指导

科学研究

算法分析、符号推理和计算研究协助

边缘 AI 应用

在资源受限设备上进行轻量级本地 AI 部署

教育工具

竞赛准备、家庭作业辅助和交互式学习系统

逻辑推理平台

自动定理证明、逻辑推理和决策支持系统

模型信息

参数规模

15 亿

模型类型

密集型 LLM

训练框架

Spectrum-to-Signal (SFT + RL)

开源许可

MIT 许可

开发组织

WeiboAI (新浪 AI 实验室)

部署平台

Hugging Face / GitHub

重点领域

数学 · 逻辑 · 代码推理

训练成本

约 3,900 GPU 小时 (约 7,800 美元)

开源与资源

模型主页

Hugging Face 上的 VibeThinker-1.5B

技术报告

arXiv:2511.06221

GitHub 项目

WeiboAI/VibeThinker

结论

VibeThinker-1.5B 代表了一种突破性的方法：“使用智能训练方法，而非盲目堆砌参数。” 在模型小型化、推理增强和高效训练的时代，它正在成为下一代高性能开源模型的重要里程碑。

由 WeiboAI (新浪人工智能实验室) 开发的 VibeThinker 证明了通过创新的训练方法，紧凑型模型可以实现卓越的推理能力。这为在资源受限的环境中部署先进 AI 和普及强大推理模型的使用开辟了新的可能性。

核心要点：VibeThinker 证明了通过正确的训练方法，小型模型可以实现与大数百倍的模型相当——甚至超越的推理性能，同时保持实际的部署成本和可访问性。