Anthropic 的原始外包作业已开源。
Anthropic's original take home assignment open sourced

原始链接: https://github.com/anthropics/original_performance_takehome

这个仓库托管了Anthropic最初的性能挑战,设计于Claude Opus 4.5在有限时间内超越人类水平性能之前。现在,这是一个在无限时间内*击败*Claude Opus 4.5的机会! 这个挑战衡量在模拟机器上“时钟周期”内的性能。目前的基准包括:Claude Opus 4.5(发布时)为1487周期,以及之前的Claude模型范围为1363-2164周期。 目标是优化解决方案,以实现低于1487的周期数。成功的提交——那些击败Claude初始性能的提交——鼓励通过[email protected]发送邮件,可能带来面试机会。使用`python tests/submission_tests.py`来验证您的结果是否符合定义的阈值。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交 登录 Anthropic 的原始家庭作业已开源 (github.com/anthropics) 22 分,由 myahio 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 3 条评论 myahio 1 小时前 | 下一个 [–] 多久有人能超越 opus 4.5 的结果?我估计一周。回复 koolba 4 分钟前 | 上一个 [–] 实际的作业是什么?README 仅提供数字,没有关于你应该做什么或如何评分的任何信息。回复 subdavis 3 分钟前 | 父级 [–] “优化内核” 你需要阅读 Python 注释。我最初对此感到恼火,但一旦我意识到我没有机会理解实际的作业,缺乏清晰的指示似乎就不那么重要了。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:
相关文章

原文

This repo contains a version of Anthropic's original performance take-home, before Claude Opus 4.5 started doing better than humans given only 2 hours.

Now you can try to beat Claude Opus 4.5 given unlimited time!

measured in clock cycles from the simulated machine:

  • 2164 cycles: Claude Opus 4 after many hours in the test-time compute harness
  • 1790 cycles: Claude Opus 4.5 in a casual Claude Code session, approximately matching the best human performance in 2 hours
  • 1579 cycles: Claude Opus 4.5 after 2 hours in our test-time compute harness
  • 1548 cycles: Claude Sonnet 4.5 after many more than 2 hours of test-time compute
  • 1487 cycles: Claude Opus 4.5 after 11.5 hours in the harness
  • 1363 cycles: Claude Opus 4.5 in an improved test time compute harness

If you optimize below 1487 cycles, beating Claude Opus 4.5's best performance at launch, email us at [email protected] with your code (and ideally a resume) so we can be appropriately impressed and perhaps discuss interviewing.

Run python tests/submission_tests.py to see which thresholds you pass.

联系我们 contact @ memedata.com