物理智能公司推出了一种名为实时分块(RTC)的新型算法,该算法解决了机器人视觉-语言-动作(VLA)模型推理速度慢的难题。与聊天机器人不同,机器人需要实时响应,而VLA模型的延迟会导致性能问题。
RTC通过允许模型在执行当前动作的同时规划未来动作来实现异步执行。它将实时分块定义为一个图像修复问题,从而解决了在动作块之间切换时出现的间断性问题,通过“冻结”前一个块中的动作来确保一致性。
测试表明,RTC显著加快了执行速度并提高了精度,尤其是在需要精细动作的任务中,例如点燃火柴或插入电缆。值得注意的是,RTC对高推理延迟(超过300毫秒)表现出鲁棒性,而高延迟是大型模型或远程推理的常见问题。RTC为实时VLA推理提供了一种简单有效的策略,随着模型的发展,它可以支持更复杂的实时系统。