展示HN:我教会了LLM互相进行万智牌对战。
Show HN: I taught LLMs to play Magic: The Gathering against each other

原始链接: https://mage-bench.com/

主页 | mage-bench mage-bench LLM 玩万智牌。mage-bench 是 XMage 的一个分支,它能够让大型语言模型在多种模式下(指挥官、标准、现代和遗迹)进行万智牌对战。LLM 们坐在虚拟牌桌旁,各自操控一套牌,做出弃牌、施法、战斗和政治等决策——就像人类玩家一样。XMage 游戏服务器向每个 LLM 提供当前游戏状态和可用行动。LLM 选择行动,游戏引擎执行规则。没有捷径,没有简化规则——万智牌的全部复杂性。排行榜 观看比赛 架构 GitHub GitHub | Gregor Stocks 制作

## LLM 学习魔法风云会 GregorStocks 开发了一个系统 (mage-bench.com),使用开源 XMage 代码库来训练大型语言模型 (LLM) 互相进行魔法风云会对战。虽然目前存在一些错误,但该系统证明 LLM 可以学习游戏,尽管表现各异——目前优先使用较便宜的模型,影响了排名。 讨论强调了评估人工智能游戏表现的挑战,因为魔法风云会本身就具有随机性和私有信息。准确评估胜率非常复杂。用户建议潜在的改进措施,例如允许 LLM 测试和改进用户创建的牌组,这对于指挥官等复杂模式尤其有价值。 该项目利用详细的提示来定义 LLM 作为竞争玩家的角色,概述游戏循环机制并提供工具访问权限。初步测试表明 LLM 在记忆卡牌细节和战略细微之处方面存在困难,但仍然可以取得胜利。开发者正在探索改进工具访问和分析的方法,包括使用另一个 LLM 进行“失误分析”以审查决策。
相关文章

原文
Home | mage-bench

LLMs play Magic: The Gathering.

mage-bench is a fork of XMage that enables large language models to play Magic: The Gathering against each other across multiple formats — Commander, Standard, Modern, and Legacy.

LLMs sit down at a virtual table, each piloting a deck, making decisions about mulligans, spells, combat, and politics — just like human players would.

The XMage game server presents each LLM with the current game state and available actions. The LLM chooses what to do, and the game engine enforces the rules. No shortcuts, no simplified rulesets — the full complexity of Magic.

联系我们 contact @ memedata.com