评估LLM通过深奥语言的真正推理能力：EsoLang-Bench

评估LLM通过深奥语言的真正推理能力：EsoLang-Bench
EsoLang-Bench: Evaluating Genuine Reasoning in LLMs via Esoteric Languages

当前LLM代码生成基准测试结果虚高，原因是评估侧重于流行的语言，如Python，模型很可能*记忆*了大量训练数据中的解决方案，而不是真正地*推理*。为了解决这个问题，研究人员创建了**EsoLang-Bench**，一个新的基准测试，使用了五种晦涩的“深奥”编程语言，这些语言的训练数据极少（比Python少5,000-100,000倍）。对五种领先的LLM进行测试显示，性能大幅下降：准确率降至仅3.8%，而类似的Python问题的准确率约为90%。模型甚至在简单的任务上都难以应对，在更难的问题上完全失败，并且无法解决Whitespace语言。即使像自我反思这样的技术也无法带来改进。 EsoLang-Bench 凸显了报告的LLM能力与真正的编程技能之间的显著差距，表明当前的基准测试高估了它们真正的推理能力。

## LLM 与真正的推理：秘语编程基准一个新的基准测试 EsoLang-Bench 显示，大型语言模型 (LLM) 在常用语言（如 Python，准确率约 90%）和秘语编程语言（准确率约 3.8%）上的推理能力存在显著差距。这表明当前的代码生成很大程度上依赖于记忆训练数据，而非真正的编程逻辑。这一发现引发了争论，一些人认为该测试不公平，因为人类在秘语编程语言方面也存在困难。然而，研究人员强调目标是评估 LLM 在超人类能力方面的 *潜力*，并探索它们如何学习新领域。虽然具有工具和迭代功能的智能体系统表现有所改善，但核心问题仍然是：LLM 是否真的在进行推理，还是仅仅利用复杂的模式匹配？该研究强调了 LLM 在解决新问题方面的局限性，并强化了它们擅长复制现有模式，但在真正理解和推理方面存在困难的观点，尤其是在面对不熟悉的结构时。进一步的研究，例如 ARC-AGI 基准测试，旨在更深入地探讨这一点。

Current benchmarks for large language model (LLM) code generation primarily evaluate mainstream languages like Python, where models benefit from massive pretraining corpora. This leads to inflated accuracy scores that may reflect data memorization rather than genuine reasoning ability. We introduce EsoLang-Bench, a benchmark of 80 programming problems across five esoteric languages (Brainfuck, Befunge-98, Whitespace, Unlambda, and Shakespeare) where training data is 5,000 to 100,000x scarcer than Python.

We evaluate five frontier models using five prompting strategies and two agentic coding systems. The best-performing model achieves only 3.8% overall accuracy, compared to ~90% on equivalent Python tasks. All models score 0% on problems above the Easy tier, Whitespace remains completely unsolved (0% across all configurations), and self-reflection provides essentially zero benefit. These results reveal a dramatic gap between benchmark performance on mainstream languages and genuine programming ability, suggesting that current LLM code generation capabilities are far narrower than headline metrics imply.

评估LLM通过深奥语言的真正推理能力：EsoLang-Bench EsoLang-Bench: Evaluating Genuine Reasoning in LLMs via Esoteric Languages

评估LLM通过深奥语言的真正推理能力：EsoLang-Bench
EsoLang-Bench: Evaluating Genuine Reasoning in LLMs via Esoteric Languages