自动代理长期一致性基准测试:售货机长凳
Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

原始链接: https://arxiv.org/abs/2502.15840

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。与arXivLabs合作的个人和组织都已接受并认可了我们开放、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。有提升arXiv社区价值的项目想法吗?了解更多关于arXivLabs的信息。

Hacker News 最新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 Vending-Bench:自主智能体的长期一致性基准测试 (arxiv.org) 4 分,来自 distalx,1 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 krackers 10 分钟前 [–] 摘要低估了观察到的有趣行为,请参阅第 12 页及以后的内容以查看记录 回复 加入我们,参加 6 月 16-17 日在旧金山举办的 AI 初创公司学校! 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系我们 搜索:

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com