幻觉是不可避免的:大型语言模型的先天局限性
Hallucination is inevitable: An innate limitation of large language models

原始链接: https://arxiv.org/abs/2401.11817

Ziwei Xu、Sanjay Jain 和 Mohan Kankanhalli 撰写的研究文章“幻觉是不可避免的:大语言模型的先天限制”研究了法学硕士(大语言模型)中普遍存在的幻觉。 该研究认为,由于其规模和计算限制,当模型产生错误信息或输出时,幻觉是此类系统所固有的。 为了证明他们的论文,作者提出了一个基于可计算性理论的理论框架,证明任何法学硕士无论其架构或培训方法如何,都无法达到完美的准确性。 这一结论对于如何设计和使用这些系统具有实际意义。 他们的结论是,法学硕士将不可避免地产生不正确的输出,这引发了关于可信度的严重问题以及通过这些技术传播的错误信息造成的潜在危害。 最终,理解和解决法学硕士的幻觉问题必须成为开发负责任的人工智能实践的一个重要方面。

虽然这似乎违反直觉,但他们的实验表明,在应用他们提出的方法后,幻觉显着减少。 然而,“真”和“假”输出之间的区别变得模糊,因为基本事实本身并不完全真实。 尽管如此,如果法学硕士能够准确识别没有可靠答案的情况,那么它就可以通过再培训或校准来提供提高幻觉率的见解。 正如作者指出的,最终目标不是完全消除幻觉,而是显着降低幻觉的发生率。 同样,无幻觉法学硕士对于有用目的既不是必要的,也不是充分的。 最终,最重要的是为特定应用程序或领域实现令人满意的性能。 关于语言和意义的讨论,我们的想法是,当前的法学硕士框架过度简化了语言使用和解释之间的关系。 虽然模型的输出与输入相当吻合,特别是在统计一致性方面,但它无法捕捉关键的细微差别和微妙之处。 这些挑战部分源于建模假设,特别是假设语言纯粹由表面形式或标记上的相关信号组成。 尽管这些模型取得了令人印象深刻的成就,但它们忽略了意义的基本方面,包括语用学、话语和参考解析。 其结果是语言上足够的输出和解释意义之间存在相当大的差距,使得解释在规模上具有挑战性。 因此,旨在开发更丰富的语言和意义表示的努力应该优先考虑与解释意义的一致性,而不是仅仅表面形式或标记。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com