## 优化LLM API成本:一个真实案例
一位非技术创始人面临着每月1500美元的LLM API调用账单,默认选择GPT-5。最近的尝试表明,通过对prompt进行更广泛的模型基准测试,成本降低了80%。关键在于:**标准基准测试无法准确预测*您的*特定任务的性能。**
为了解决这个问题,建立了一个定制的基准测试流程。它包括收集真实案例(如客户支持聊天记录),定义期望的输出,然后通过OpenRouter在100多个模型上运行这些prompt。由于人工评估不可能,另一个LLM被用作“评判者”,根据预定义的标准对回复进行评分。
分析不仅考虑了质量,还考虑了成本(测量每个答案的总成本,而不仅仅是token成本)和延迟。这揭示了提供相当质量但价格明显更低的模型——有些甚至便宜10倍。最终,该创始人通过5倍的成本降低,每月节省了超过1000美元。
这个过程强调了持续监控的必要性,因为模型定价和性能变化迅速。为了简化这一过程,开发了一个名为**Evalry**的工具,可以自动在300多个LLM上进行基准测试,从而快速识别特定用例的最佳模型。如果您正在使用LLM API,使用您自己的prompt测试替代方案对于避免过度支出至关重要。