VibeThinker:一款 30 亿参数模型,通过创新的 SFT+GRPO 技术在推理能力上超越了 Opus 4.5。
VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO

原始链接: https://arxiv.org/abs/2606.16140

arXivLabs 是一个允许合作者直接在我们的网站上开发和共享 arXiv 新功能的框架。与 arXivLabs 合作的个人和组织都秉持并认可我们对开放、社区、卓越和用户数据隐私的重视。arXiv 致力于践行这些价值观,并仅与遵守这些原则的合作伙伴开展合作。您是否有为 arXiv 社区增值的项目构思?了解更多关于 arXivLabs 的信息。

Hacker News新帖 | 往期 | 评论 | 提问 | 展示 | 招聘 | 提交登录VibeThinker:通过新型 SFT+GRPO 实现推理能力超越 Opus 4.5 的 3B 参数模型 (arxiv.org)9 点 | timhigins 发布于 1 小时前 | 隐藏 | 往期 | 收藏 | 讨论帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com