展示HN：PhAIL – 用于AI模型的真实机器人基准测试

展示HN：PhAIL – 用于AI模型的真实机器人基准测试
Show HN: PhAIL – Real-robot benchmark for AI models

排行榜：五大领先模型。一项商业任务。生产指标。⏳ 数据集加载中… 这可能需要几分钟，具体取决于数据集大小。

## PhAIL：一个真实世界的机器人基准测试一个新的基准测试PhAIL (phail.ai) 旨在为视觉-语言-行动 (VLA) 模型提供在实际机器人应用中的诚实性能数据：在仓库环境中执行从箱子到箱子的订单拣选。该创建者，一位前谷歌搜索排名工程师，发现机器人领域缺乏可衡量的结果。 PhAIL 使用 Franka FR3 机器人在一个标准化任务上测试了四种模型（OpenPI、GR00T、ACT、SmolVLA）。结果显示，最佳模型的性能为每小时 64 个单位 (UPH)，远低于人类远程操作员 (330 UPH)，也远远落后于人工拣选 (1,300+ UPH)。重要的是，所有数据——视频、遥测数据、数据集和训练脚本——都是公开可用的，并且排行榜开放供提交。该项目强调*真实世界*的性能，与通常经过润色的模拟结果形成对比。创建者正在积极寻求提交，包括闭源模型，并计划添加 NVIDIA 的 DreamZero。

Leaderboard

Five leading models. One commercial task. Production metrics.

⏳ Dataset is loading...
This may take a few minutes depending on the dataset size.

展示HN：PhAIL – 用于AI模型的真实机器人基准测试 Show HN: PhAIL – Real-robot benchmark for AI models

展示HN：PhAIL – 用于AI模型的真实机器人基准测试
Show HN: PhAIL – Real-robot benchmark for AI models