CueBench for Developers 现已上线:评估您的编码智能体表现如何
CueBench for Developers is live: score how well you drive coding agents

原始链接: https://app.cuebench.dev

1. 接受条款。使用 CueBench 即表示您同意本条款及我们的隐私政策。 2. 服务内容。CueBench 会分析您的 AI 编码会话并提供评分与指导。此版本为开发者测试版:功能可能会发生变化或出现故障。 3. 您的内容。您保留对会话日志的所有权利。上传的文件在评分后会被删除;我们会保留衍生的评分、见解和时间线(包括简短的提示词摘录)。 4. 数据使用与模型改进。作为测试版参与者,您同意我们可能使用您的使用数据(评分、遥测数据及简短的提示词摘录)来运营、评估、改进及训练支持本服务的模型。原始上传文件绝不会用于训练。您可在“设置”中选择“删除我的数据”,随时移除您的数据。 5. 可接受的使用。不得上传您不拥有相关权利的内容、探测他人数据或对模型进行逆向工程。 6. 测试版免责声明。本服务按“原样”提供,不作任何保证;评分仅供参考。 全文:使用条款 · 隐私政策

CueBench (S26) 发布了一个全新的平台,旨在评估开发者与编程智能体(如 Cursor、Claude Code)的交互效率。目前的基准测试主要侧重于智能体的性能,而 CueBench 则专注于评估人类“驾驶员”的关键技能,如任务分配、错误检测和验证能力。 该平台基于会话日志进行确定性评分,而非依赖主观的 LLM 分析,从而确保了结果的一致性。用户上传智能体会话日志后,可在几秒钟内获得 0-100 分的评分及详细分析。 该团队计划将 CueBench 发展为一款工程工具,提供可落地的反馈,帮助开发者掌握智能体驱动的工作流,并协助管理者识别辅导机会。创始团队目前正在收集开发者的反馈以优化评分逻辑,并鼓励用户使用真实的会话记录进行测试。您可以访问 [cuebench.dev](https://cuebench.dev) 体验演示并提供反馈。
相关文章

原文
1. Acceptance. By using CueBench you agree to these Terms and our Privacy Policy.

2. The Service. CueBench analyzes your AI coding sessions and provides scores and coaching. This is a developer beta: features may change or break.

3. Your Content. You keep all rights to your session logs. Uploaded files are deleted after scoring; we keep the derived scores, insights, and timelines (incl. short prompt excerpts).

4. Data Use & Model Improvement. As a beta participant, you agree we may use your usage data — scores, telemetry, and short prompt excerpts — to operate, evaluate, improve, and train the models powering the Service. Raw uploaded files are never used for training. "Delete my data" in Settings removes your data at any time.

5. Acceptable Use. No uploading content you lack rights to, probing others' data, or reverse-engineering the models.

6. Beta Disclaimer. Provided "as is", no warranties; scores are informational only.

Full text: Terms of Use · Privacy Policy

联系我们 contact @ memedata.com