Show HN: 缺氧学习环境——智能体建造工厂
Show HN: Factorio Learning Environment – Agents Build Factories

原始链接: https://jackhopkins.github.io/factorio-learning-environment/

大型语言模型 (LLM) 正在现有基准测试中取得优异成绩,这需要更具挑战性的评估方法。Factorio学习环境 (FLE) 解决了这个问题,它利用游戏 Factorio 来测试长期规划、程序合成和资源优化能力。FLE 提供两种模式:实验室模式,包含 24 个使用固定资源的结构化任务;开放模式,要求智能体在程序生成的 地图上从零开始建造尽可能大的工厂。FLE 提出了指数级增长的挑战,从基本的自动化到管理每秒处理数百万资源的工厂。结果表明,LLM 在两种模式下都难以进行空间推理。虽然 LLM 在实验室模式中的短期任务中显示出前景,但在受限环境中却表现不佳,暴露出其在错误分析方面的弱点。在开放模式下,它们能够发现基本的自动化(例如,电力钻探),但无法完成复杂的自动化,例如电子电路制造。FLE 有效地突出了当前 LLM 在复杂、开放式环境中的局限性。

Hacker News 上的一篇帖子讨论了“工博学习环境”(FLE),在这个环境中,AI 代理学习在游戏《方舟生存进化》中建造工厂。研究人员使用大型语言模型 (LLM) 来控制代理,但发现空间推理和长期规划具有挑战性。LLM 难以处理高细节的图像和复杂的工厂状态,经常出现幻觉实体和方向错误的情况。未来的计划包括视觉支持和更复杂的基准测试。 社区讨论了替代的输入方法,例如 ASCII 表示或二维向量,以辅助空间推理。其他人建议将任务分解,并激励长期目标,例如每分钟科技产出 (SPM),而不是单纯的规模。一个关键的发现是编码能力与代理性能相关。 一些评论者建议使用带有敌人的游戏场景来测试军事工业基础建设。专家指出,当前游戏的 AI 故意设计得很差,更复杂的 AI 模型可能会带来有趣的挑战。总的来说,该项目被视为一个宝贵的 AI 基准测试,在工业环境中具有潜在的实际应用价值。

原文

Large Language Models (LLMs) are rapidly saturating existing benchmarks, necessitating new open-ended evaluations. We introduce the Factorio Learning Environment (FLE), based on the game of Factorio, that tests agents in long-term planning, program synthesis, and resource optimization.

FLE provides open-ended and exponentially scaling challenges - from basic automation to complex factories processing millions of resource units per second. We provide two settings:

  1. Lab-play consisting of 24 structured tasks with fixed resources.
  2. Open-play with the unbounded task of building the largest factory from scratch on a procedurally generated map.

We demonstrate across both settings that models still lack strong spatial reasoning. In lab-play, we find that LLMs exhibit promising short-horizon skills, yet are unable to operate effectively in constrained environments, reflecting limitations in error analysis. In open-play, while LLMs discover automation strategies that improve growth (e.g electric-powered drilling), they fail to achieve complex automation (e.g electronic-circuit manufacturing).

联系我们 contact @ memedata.com