arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。
arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。
## 优化LLM API成本:一个真实案例
一位非技术创始人面临着每月1500美元的LLM API调用账单,默认选择GPT-5。最近的尝试表明,通过对prompt进行更广泛的模型基准测试,成本降低了80%。关键在于:**标准基准测试无法准确预测*您的*特定任务的性能。**
为了解决这个问题,建立了一个定制的基准测试流程。它包括收集真实案例(如客户支持聊天记录),定义期望的输出,然后通过OpenRouter在100多个模型上运行这些prompt。由于人工评估不可能,另一个LLM被用作“评判者”,根据预定义的标准对回复进行评分。
分析不仅考虑了质量,还考虑了成本(测量每个答案的总成本,而不仅仅是token成本)和延迟。这揭示了提供相当质量但价格明显更低的模型——有些甚至便宜10倍。最终,该创始人通过5倍的成本降低,每月节省了超过1000美元。
这个过程强调了持续监控的必要性,因为模型定价和性能变化迅速。为了简化这一过程,开发了一个名为**Evalry**的工具,可以自动在300多个LLM上进行基准测试,从而快速识别特定用例的最佳模型。如果您正在使用LLM API,使用您自己的prompt测试替代方案对于避免过度支出至关重要。
启用 JavaScript 和 Cookie 以继续。
## 中欧神秘的地下通道 在欧洲中部发现了大约2000条狭窄的地下隧道,被称为*erdstall*,其历史可以追溯到公元900-1200年。这些通道宽度通常不超过两英尺,考古发现极少,仅包含少量如犁铧和磨石之类的物品。尽管年代久远,但中世纪的记录中从未提及它们的存在,这加深了对其用途的神秘感。 各种理论层出不穷,否认了它们作为逃生通道等实际用途,因为它们只有一个入口且尺寸不便。虽然有人认为它们用于秘密的异教仪式,但隧道靠近教堂的事实使得这种说法不太可能。一个领先的假设认为它们具有民间基督教的仪式功能——象征着重生的旅程。隧道狭窄的“通道”被比作产道,可能代表了那些寻求治愈或启迪的人的精神更新过程。 *erdstall* 一致的设计、保密性以及缺乏文物继续让研究人员感到困惑。它们真正的用途仍然未知,凸显了我们对中世纪生活和信仰理解中的一个重大差距。需要进一步调查才能揭开这些古老而奇特的通道中隐藏的秘密。
快速词位 Concordance 即时词位 Concordance,基于 超过 1,200 本公共领域经典书籍,由 Standard Ebooks 提供。点击此处了解其实现方式。
一份新的联合国报告警告说,世界正面临“水资源破产”——由于不可持续的消耗和日益严重的气候干旱,关键淡水储备如含水层、湿地和冰川正在不可逆转地枯竭。这与暂时的水资源压力不同,这种损失是永久性的。 研究显示,超过40%的灌溉依赖于正在减少的含水层,全球超过70%的含水层正在下降。过去50年里,我们失去了比印度还大的湿地面积,冰川也缩小了30%以上。因此,现在有30亿人生活在水资源存储不稳定的地区。 中东、南亚和美国西南部是热点地区,集约化农业加剧了问题。报告强调,转向可持续农业对于防止进一步蔓延至关重要。它敦促各国政府认识并解决这一日益严重的赤字,重点是*防止*剩余资源的进一步损失,因为恢复枯竭的资源是不可能的。
近期美国移民及海关执法局(ICE)和海关边境保护局(CBP)的行动显示,在移民执法中无视法律约束的情况令人不安地升级。这些机构不仅一再规避法律、侵蚀正当程序,现在甚至直接对抗法律监督——非法拒绝国会访问、妨碍法院运作、无视司法裁决。 一个关键例子是2025年7月的一项政策转变,该转变得益于巨额预算增加,大幅扩大了强制拘留范围,几乎涵盖所有处于驱逐程序中的个人,包括长期居民和寻求庇护者。对现有法律的这种重新解读已被联邦法院压倒性地驳回——超过300名法官在1600多个案件中下令释放——但ICE仍然每月拘留数万人,积极破坏法院命令,甚至无视全国范围内的集体诉讼裁决。 虽然人身保护诉讼提供了一些救济,但其力度远远不足。ICE庞大的行动规模,加上剥夺管辖权等法律障碍,使得法律挑战显得力不从心。因此,解决方案在于直接对抗这些机构的权力,大幅削减其资金、人员,并最终彻底解散它们,而不是试图“简化”这些本质上存在问题的机构。
## Nova Launcher 更新 - 2026年1月20日 Nova Launcher已被Instabridge收购,这是一家专注于互联网接入解决方案的瑞典公司。重要的是,**Nova不会关闭。** Instabridge的首要任务是维护Nova的稳定性、与Android的兼容性以及持续的积极开发。 他们认识到Nova强大的社区和身份,并旨在成为负责任的管理者,专注于性能、定制和错误修复。在探索可持续的商业模式——包括潜在的付费层级和**谨慎考虑的免费版本广告选项**——的同时,**Nova Prime将保持无广告**,并且现有购买将被兑现。 Nova Prime的价格已调整为3.99美元。Instabridge还在评估开源Nova的可能性,并优先考虑用户隐私,进行最少且透明的数据收集。他们强调一种审慎的方法,优先考虑质量并倾听社区的反馈,通过Reddit、Play商店和其他渠道。他们的目标是对Nova的演进进行长期投资,并持续保持卓越。
## Hightouch 智能体:构建可用于生产的 AI 智能体 Hightouch 开发了一种非常先进的 AI 智能体“Hightouch 智能体”,这是一种通用的营销工具,能够执行复杂的任务,例如活动策划和数据分析。 与许多智能体框架不同,Hightouch 专注于解决*长期*任务的实际挑战,超越了简单的确定性工作流程。 他们的关键创新是**智能体委托**:将规划与执行分离,允许智能体根据数据动态更新其方法。 这是通过诸如将数据缓冲到文件以供以后访问、为专注的任务创建“动态子智能体”(卸载复杂性而不会造成上下文膨胀)以及将任务策略性地“扇出”到更小、更便宜的模型,而不是仅仅依赖嵌入等技术来实现的。 与其进行复杂的上下文管理,Hightouch 赋予模型本身管理上下文的能力,决定何时缓冲数据或委派子任务。 这种方法优先考虑使模型*更好地思考*,而不是简单地链接 LLM 调用。 其结果是一个能够处理细微、开放式的营销提示并在现实世界的生产环境中提供令人惊讶的有效结果的系统。 最终,Hightouch 的成功强调了实用“上下文工程”的重要性——这项不光鲜但至关重要的工作,能够构建真正有能力的 AI 智能体。
我们检测到您的浏览器已禁用 JavaScript。请启用 JavaScript 或切换到受支持的浏览器以继续使用 x.com。您可以在我们的帮助中心查看受支持的浏览器列表。帮助中心 服务条款 隐私政策 Cookie 政策 版权信息 广告信息 © 2026 X Corp.