## 训练用于定性奖励的模型:喜剧作为案例研究 该项目解决了在主观奖励(幽默)上训练语言模型的问题。受到Moonshot基于评分标准的强化学习(RL)用于创意写作的启发,作者旨在将“有趣”分解为可验证的属性,如时效性、相关性和对主题的深刻理解。 该过程包括两个阶段:监督微调(SFT)和RL。SFT利用了来自Twitter、TikTok、Reddit和幽默博客等平台精心策划的48k个示例数据集,重点关注当前的在线用语。RL使用“评分器”模型(Qwen3-30B)根据特定评分标准(清晰度、投入度、具体性)评估生成的回复,并给出用作奖励的分数。一个关键的补充是针对“AI特征”的负面奖励,例如犹豫不决或过度使用表情符号,这是从模型利用评分偏差中学习到的。 使用排序评论和合成数据进行的直接偏好优化(DPO)尝试被证明是无效的。成功取决于迭代评分标准改进、数据混合以及结合具体的、高质量的喜剧示例。由此产生的模型,`jokegen2-1t-rl`(RL)和`jokegen2-1t-sft`(SFT基线),展示了这种方法的潜力,但由于成本原因,目前无法提供公开演示。代码和数据计划发布。
## Anki 的未来:过渡到社区驱动的开发
在 Damien 的邀请下,AnkiHub 团队将承担 Anki 更大的领导角色。他们强调对 Anki 核心原则的深刻尊重——用户自主权、避免操纵性设计以及优先考虑真正有用的工具——并致力于维护其开源性质和可负担的价格。
他们的主要目标包括用户界面/用户体验改进、加强开发团队以避免对单个个人产生依赖(“公交车因素”)、扩大对医学以外学生的支持,以及培养更强大的插件生态系统。他们旨在提高决策的透明度,借鉴成功的开源模式,并在 Anki 社区内建立更统一的协作流程。
虽然许多细节仍在制定中——包括治理、路线图和过渡过程——但该团队强调这并非由财务问题或外部投资者驱动。他们致力于可持续性、可访问性,并避免风险投资收购的陷阱。他们欢迎社区反馈,并计划通过开放沟通和持续行动来建立信任。AnkiDroid 的主要贡献者 David Allison 将全职加入团队,以帮助应对这些变化。