克劳德代码每日基准测试,用于性能下降追踪。
Claude Code Daily Benchmarks for Degradation Tracking

原始链接: https://marginlab.ai/trackers/claude-code/

这个独立追踪器监测 Claude Code(使用 Opus 4.5)在软件工程(SWE)任务中的表现,旨在主动识别性能下降,例如 Anthropic 在 2025 年报告的那种。 每日评估使用精心挑选的、无污染的 SWE-Bench-Pro 基准测试的一部分,*直接在* Claude Code 中进行——模拟真实用户体验。结果不受自定义测试框架的影响,能够捕捉源于模型*和*工具变化的潜在问题。 虽然每日运行使用 50 个测试的样本(引入可变性),但每周和每月的数据会进行汇总。性能以通过率衡量,并使用 95% 置信区间进行统计建模。任何在每日、每周或每月期间通过率的统计显著下降都会触发报告,从而提供潜在 Claude Code 问题的早期预警系统。

MarginLab 正在每日跟踪 Claude Code (CC) 的性能,近期数据表明,在过去一个月中,SWE-Bench-Pro 的准确性下降了约 4%,且具有统计意义。 然而,一些评论员质疑该发现的有效性。一位批评者指出可能存在无意义的“显著性阈值”,并建议需要更大的样本量。另一些人推测,这些变化可能是由于 Claude 提示词或工具的微小更新造成的,甚至有用户报告性能*提升*。 一个关键问题是,是否所有变量都得到了适当控制,以确保真正的“苹果对苹果”比较。尽管存在这些问题,但该跟踪仍然被认为是对模型能力的端到端评估是有价值的。
相关文章

原文

The goal of this tracker is to detect statistically significant degradations in Claude Code with Opus 4.5 performance on SWE tasks. We are an independent third party with no affiliation to frontier model providers.

Context: In September 2025, Anthropic published a postmortem on Claude degradations. We want to offer a resource to detect such degradations in the future.

We run a daily evaluation of Claude Code CLI on a curated, contamination-resistant subset of SWE-Bench-Pro. We always use the latest available Claude Code release and the SOTA model (currently Opus 4.5). Benchmarks run directly in Claude Code without custom harnesses, so results reflect what actual users can expect. This allows us to detect degradation related to both model changes and harness changes.

Each daily evaluation runs on N=50 test instances, so daily variability is expected. Weekly and monthly results are aggregated for more reliable estimates.

We model tests as Bernoulli random variables and compute 95% confidence intervals around daily, weekly, and monthly pass rates. Statistically significant differences in any of those time horizons are reported.

联系我们 contact @ memedata.com