GPT-4性能的93%,成本为四分之一:基于弱Bandit反馈的LLM路由。
Adaptive LLM routing under budget constraints

原始链接: https://arxiv.org/abs/2508.21141

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

## LLM 路由以节省成本:Hacker News 摘要 一篇最近的 arXiv 论文探讨了**大型语言模型 (LLM) 请求的自适应路由,以在不显著降低性能的情况下优化成本。** 核心思想是智能地在不同的 LLM 之间分配任务——例如,使用更便宜的模型(Mixtral,每百万 token 0.24 美元)而不是 GPT-4(每百万 token 24.7 美元),即使这意味着质量略有下降的风险。 讨论的重点是企业是否正在积极关注 LLM 成本降低,一些人报告这仍然是一笔小额费用(云计算成本的 10% 以下)。 然而,其他人强调了即使路由不完美(例如,20% 的错误率)也可能实现显著的节省。 主要观点包括,除了每 token 的价格之外,还应考虑**每次交互的 token 数**,以及准确衡量“性能”超越技术指标的挑战。 许多用户分享了使用 Gemini 等模型免费层级的积极体验,而另一些人则质疑长期依赖没有成本的 LLM 的可行性。 还有关于当前 LLM 研究是否专注于增量改进(如路由),因为人们认为基础模型发展停滞,以及“AGI”是否是一个现实或明确的目标的争论。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com