大型语言模型在金融工作流中的漂移:验证与缓解 (arXiv)
LLM Output Drift in Financial Workflows: Validation and Mitigation (arXiv)

原始链接: https://arxiv.org/abs/2511.07585

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?请了解更多关于arXivLabs的信息。

## LLM 在金融工作流中的输出漂移:摘要 一篇最近的 arXiv 论文探讨了大型语言模型 (LLM) 在受监管的金融任务(如 RAG、JSON 生成和 SQL 查询)中的可靠性。该研究侧重于*确定性*——即从相同输入产生相同输出的能力——这是金融领域审计的关键要求。 主要发现表明,不同模型大小的确定性存在显著差异。较小的模型(Qwen2.5-7B、Granite-3-8B)实现了 100% 的确定性,通过了监管标准(FSB/BIS/CFTC),而较大的模型(如 GPT-OSS-120B)仅表现出 12.5% 的确定性。 这一差距具有统计显著性。 虽然确定性是必要的,但它并不能保证准确性;仍然需要语义验证。作者指出,推理过程会导致输出变化,并建议通过抑制推理等方法来提高确定性,但可能会牺牲能力。 讨论强调了不断变化的法规与可重复结果之间的矛盾,尤其是在经常更新的执法清单方面。 GitHub 上提供了一个用于测试的代码框架。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com