展示HN:TetrisBench – Gemini Flash 在与 Opus 的俄罗斯方块对战中达到 66% 的胜率
Show HN: TetrisBench – Gemini Flash reaches 66% win rate on Tetris against Opus

原始链接: https://tetrisbench.com/tetrisbench/

← 返回游戏 🤖 TETRISBENCH AI模型俄罗斯方块性能对比 — 总游戏数 — 测试模型 🤖 模型对战 模型 加载基准数据… 暂无基准数据。运行一些AI对战游戏! W - L - D 胜利 - 失败 - 平局 🏆 查看排行榜 ▶ 玩俄罗斯方块对战

## Gemini Flash 在俄罗斯方块对战中对 Opus 胜率为 66% 一个名为 TetrisBench (tetrisbench.com) 的新项目,让大型语言模型 (LLM) 与人类玩家在俄罗斯方块游戏中对战。Gemini Flash 对 Opus 模型的胜率为 66%(具体对 Opus 为 80%),在五种测试模型中取平均值。 一位技术娴熟的人类玩家的早期反馈指出了改进的领域,包括方块随机化系统(建议使用“7-bag”方法)和方块旋转机制,感觉存在偏差。该玩家还指出,顺时针/逆时针旋转以及可重新映射的按键对于自然的游玩体验至关重要。 评论员讨论了 Gemini 3 Flash 令人感兴趣的性价比,并指出了使用 LLM 执行游戏等任务的固有局限性——LLM *构建* 一个俄罗斯方块机器人可能远胜于直接玩游戏。有人建议将 LLM 构建的国际象棋引擎与 Stockfish 等成熟程序进行比较,作为更相关的测试。
相关文章

原文
Back to Game

🤖 TETRISBENCH

AI Model Tetris Performance Comparison

Total Games
Models Tested

🤖 MODEL VS MODEL

MODEL

Loading benchmark data...

W - L - D
Wins - Losses - Draws
联系我们 contact @ memedata.com