## AI 必然出现的幻觉 OpenAI 的研究表明,“幻觉”——像 ChatGPT 这样的大型语言模型自信地陈述错误信息——并非错误,而是这些模型运作方式的数学上的*必然*结果。即使使用完美的数据进行训练,逐字预测文本的概率性质本身就不可避免地导致错误累积,从而导致比简单任务更高的错误率。 当前 AI 评估基准进一步加剧了这个问题,这些基准会惩罚不确定性,有效地奖励自信的猜测,而不是承认“我不知道”。这为模型*始终*回答创造了强大的动机,即使回答不正确。 虽然存在解决方案——例如模型量化自身的置信度,以及基准奖励诚实的模糊性——但它们面临着重大障碍。评估不确定性的增加计算成本使其对于需要快速、廉价响应的消费者应用来说过于昂贵。目前,商业激励措施优先考虑自信的答案和速度,而不是准确性,这意味着幻觉可能会在广泛使用的 AI 系统中持续存在。然而,对于准确性胜过成本的关键应用(例如金融或医学),采用感知不确定性的 AI 在经济上是可行的,也是必要的。