展示HN:PhAIL – 用于AI模型的真实机器人基准测试
Show HN: PhAIL – Real-robot benchmark for AI models

原始链接: https://phail.ai

排行榜:五大领先模型。一项商业任务。生产指标。⏳ 数据集加载中… 这可能需要几分钟,具体取决于数据集大小。

## PhAIL:一个真实世界的机器人基准测试 一个新的基准测试PhAIL (phail.ai) 旨在为视觉-语言-行动 (VLA) 模型提供在实际机器人应用中的诚实性能数据:在仓库环境中执行从箱子到箱子的订单拣选。该创建者,一位前谷歌搜索排名工程师,发现机器人领域缺乏可衡量的结果。 PhAIL 使用 Franka FR3 机器人在一个标准化任务上测试了四种模型(OpenPI、GR00T、ACT、SmolVLA)。结果显示,最佳模型的性能为每小时 64 个单位 (UPH),远低于人类远程操作员 (330 UPH),也远远落后于人工拣选 (1,300+ UPH)。 重要的是,所有数据——视频、遥测数据、数据集和训练脚本——都是公开可用的,并且排行榜开放供提交。该项目强调*真实世界*的性能,与通常经过润色的模拟结果形成对比。创建者正在积极寻求提交,包括闭源模型,并计划添加 NVIDIA 的 DreamZero。
相关文章

原文

Leaderboard

Five leading models. One commercial task. Production metrics.

⏳ Dataset is loading...
This may take a few minutes depending on the dataset size.

联系我们 contact @ memedata.com