VibeThinker-1.5B 是由 WeiboAI (新浪人工智能实验室) 开发的开源推理模型,拥有 15 亿参数。尽管体积紧凑,但它在数学和代码推理任务中表现出卓越的性能,超越了 DeepSeek-R1 等一些超大规模模型。
VibeThinker 基于创新的 Spectrum-to-Signal Principle (SSP) 训练框架构建,在保持极低训练成本的同时,实现了可与数百亿参数模型媲美的推理能力。
VibeThinker 仅有 15 亿参数,但展示出卓越的数学和逻辑推理能力,证明了智能并不总是需要大规模的参数。
采用 Spectrum-to-Signal Principle (SSP),结合 SFT (频谱阶段) 和 RL (信号阶段) 进行两阶段优化,实现多样性探索和精确提炼。
总训练时间约为 3,900 个 GPU 小时 (约 7,800 美元),与大型模型相比,具有出色的性能成本比。
在 MIT 开源许可下发布,可免费用于微调和商业部署,促进创新和研究。
专为在资源受限的边缘设备和研究环境中高效运行而设计,使更多用户能够使用先进的 AI。
由新浪人工智能实验室(WeiboAI)创建,利用其在自然语言处理和机器学习研究方面多年的专业知识。
VibeThinker 的核心创新在于其独特的两阶段训练方法
多样性与探索
生成多样化的推理路径和解决方案,鼓励模型探索“多种可能性”,而不是过早地收敛到单一答案。
精炼与优化
通过 MaxEnt-Guided Policy Optimization (MGPO),强化正确的信号,并将优化重点放在高不确定性样本上,提高模型的推理准确性。
这种 “多样性 + 精炼” 机制使模型能够像人类一样思考:先发散,后收敛——在确定最佳解决方案之前探索多种方法。
VibeThinker-1.5B 在多个推理基准上展示了有竞争力的性能
| 基准 | 分数 | 对比 |
|---|---|---|
| AIME24 | 80.3 | 在同等规模模型中领先 |
| AIME25 | 74.4 | 接近大型模型的性能 |
| HMMT25 | 50.4 | 强大的数学逻辑能力 |
| LiveCodeBench v6 | 51.1 | 超越了一些 100 亿以上参数的模型 |
VibeThinker-1.5B 在推理任务中超越了 DeepSeek-R1 (671 亿参数),展示了“小模型,大智能”的潜力。
与预期一致,作为专业推理模型,它在通用知识问答和百科全书任务上的性能略低于超大型模型。
自动化数学辅导系统、竞赛问题求解器和教育平台
代码生成、调试协助和自动化编程指导
算法分析、符号推理和计算研究协助
在资源受限设备上进行轻量级本地 AI 部署
竞赛准备、家庭作业辅助和交互式学习系统
自动定理证明、逻辑推理和决策支持系统
VibeThinker-1.5B 代表了一种突破性的方法:“使用智能训练方法,而非盲目堆砌参数。” 在模型小型化、推理增强和高效训练的时代,它正在成为下一代高性能开源模型的重要里程碑。
由 WeiboAI (新浪人工智能实验室) 开发的 VibeThinker 证明了通过创新的训练方法,紧凑型模型可以实现卓越的推理能力。这为在资源受限的环境中部署先进 AI 和普及强大推理模型的使用开辟了新的可能性。
核心要点:VibeThinker 证明了通过正确的训练方法,小型模型可以实现与大数百倍的模型相当——甚至超越的推理性能,同时保持实际的部署成本和可访问性。