VibeThinker-1.5B

高效小型模型的新基准

VibeThinker-1.5B 是由 WeiboAI (新浪人工智能实验室) 开发的开源推理模型,拥有 15 亿参数。尽管体积紧凑,但它在数学和代码推理任务中表现出卓越的性能,超越了 DeepSeek-R1 等一些超大规模模型。

VibeThinker 基于创新的 Spectrum-to-Signal Principle (SSP) 训练框架构建,在保持极低训练成本的同时,实现了可与数百亿参数模型媲美的推理能力。

核心亮点

小而强大

VibeThinker 仅有 15 亿参数,但展示出卓越的数学和逻辑推理能力,证明了智能并不总是需要大规模的参数。

创新训练架构

采用 Spectrum-to-Signal Principle (SSP),结合 SFT (频谱阶段) 和 RL (信号阶段) 进行两阶段优化,实现多样性探索和精确提炼。

超低训练成本

总训练时间约为 3,900 个 GPU 小时 (约 7,800 美元),与大型模型相比,具有出色的性能成本比。

开放且可扩展

在 MIT 开源许可下发布,可免费用于微调和商业部署,促进创新和研究。

推理优化

专为在资源受限的边缘设备和研究环境中高效运行而设计,使更多用户能够使用先进的 AI。

由微博 AI 开发

由新浪人工智能实验室(WeiboAI)创建,利用其在自然语言处理和机器学习研究方面多年的专业知识。

技术创新:Spectrum-to-Signal Principle

VibeThinker 的核心创新在于其独特的两阶段训练方法

频谱阶段 (Spectrum Phase)

多样性与探索

生成多样化的推理路径和解决方案,鼓励模型探索“多种可能性”,而不是过早地收敛到单一答案。

  • 对多样化推理示例进行监督微调 (SFT)
  • 鼓励创造性的问题解决方法
  • 建立丰富的推理模式基础

信号阶段 (Signal Phase)

精炼与优化

通过 MaxEnt-Guided Policy Optimization (MGPO),强化正确的信号,并将优化重点放在高不确定性样本上,提高模型的推理准确性。

  • 带目标反馈的强化学习 (RL)
  • 专注于具有挑战性的、高不确定性案例
  • 收敛到最优推理策略

这种 “多样性 + 精炼” 机制使模型能够像人类一样思考:先发散,后收敛——在确定最佳解决方案之前探索多种方法。

性能基准

VibeThinker-1.5B 在多个推理基准上展示了有竞争力的性能

基准分数对比
AIME2480.3在同等规模模型中领先
AIME2574.4接近大型模型的性能
HMMT2550.4强大的数学逻辑能力
LiveCodeBench v651.1超越了一些 100 亿以上参数的模型

优势

VibeThinker-1.5B 在推理任务中超越了 DeepSeek-R1 (671 亿参数),展示了“小模型,大智能”的潜力。

考量

与预期一致,作为专业推理模型,它在通用知识问答和百科全书任务上的性能略低于超大型模型。

应用场景

数学问题求解

自动化数学辅导系统、竞赛问题求解器和教育平台

编程教育

代码生成、调试协助和自动化编程指导

科学研究

算法分析、符号推理和计算研究协助

边缘 AI 应用

在资源受限设备上进行轻量级本地 AI 部署

教育工具

竞赛准备、家庭作业辅助和交互式学习系统

逻辑推理平台

自动定理证明、逻辑推理和决策支持系统

模型信息

参数规模
15 亿
模型类型
密集型 LLM
训练框架
Spectrum-to-Signal (SFT + RL)
开源许可
MIT 许可
开发组织
WeiboAI (新浪 AI 实验室)
部署平台
Hugging Face / GitHub
重点领域
数学 · 逻辑 · 代码推理
训练成本
约 3,900 GPU 小时 (约 7,800 美元)

结论

VibeThinker-1.5B 代表了一种突破性的方法:“使用智能训练方法,而非盲目堆砌参数。” 在模型小型化、推理增强和高效训练的时代,它正在成为下一代高性能开源模型的重要里程碑。

WeiboAI (新浪人工智能实验室) 开发的 VibeThinker 证明了通过创新的训练方法,紧凑型模型可以实现卓越的推理能力。这为在资源受限的环境中部署先进 AI 和普及强大推理模型的使用开辟了新的可能性。

核心要点:VibeThinker 证明了通过正确的训练方法,小型模型可以实现与大数百倍的模型相当——甚至超越的推理性能,同时保持实际的部署成本和可访问性。

VibeThinker-1.5B

由 WeiboAI 开发 · Spectrum-to-Signal Principle · MIT 许可

高效小型模型的新基准,证明了智能来自于智能训练,而不仅仅是规模。