arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享 arXiv 的新功能。与 arXivLabs 合作的个人和组织都认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于践行这些价值观,并仅与同样遵守这些价值观的合作伙伴进行协作。您是否有关于为 arXiv 社区创造价值的项目构想?了解更多关于 arXivLabs 的信息。
**HALO** 是一个框架和工具集,旨在利用 RLM(递归语言模型)方法构建递归自我改进的智能体架构。它通过分析生产环境的执行追踪数据,识别诸如幻觉工具调用或拒绝循环等通用编码智能体常忽略的系统性故障,从而优化人工智能体的性能。
**主要功能:**
* **自动化优化循环:** HALO 从您的智能体收集兼容 OpenTelemetry 的追踪数据,将其输入 HALO-RLM 引擎进行模式诊断,生成可执行的提示词或架构修复方案,并重新部署以实现持续改进。
* **专业化分析:** 不同于可能过度拟合单个错误的通用编码助手,HALO 使用专业引擎在各种高流量、高变异性的智能体行为中归纳分析结果。
* **性能提升:** HALO 在 AppWorld 等基准测试中已取得显著成功,使 Gemini 3 Flash 和 Sonnet 4.6 等模型在成功率方面实现了两位数的增长。
**快速上手:**
开发者可通过 `pip install halo-engine` 安装命令行工具(CLI)或使用 HALO 桌面应用程序。它能轻松集成到现有工作流程中,仅需提供一个 JSONL 格式的追踪文件和一个兼容 OpenAI 的 API 密钥,即可开始对智能体系统进行诊断与优化。
要使用 Mastodon 网络应用,请启用 JavaScript。或者,尝试为您所使用的平台下载 Mastodon 原生客户端。
**DiffusionBench** 是一个全面且统一的代码库,旨在通过为扩散 Transformer 提供整体基准测试,突破传统的 ImageNet 评估方式。它通过单一且精简的接口,支持包括 ImageNet(类条件)和文生图(T2I)在内的多种生成任务的训练与评估。
该代码库提供了丰富的模块化组件库,包括:
* **编码器与潜空间:** 支持超过 30 种 RAE、VAE 和表示编码器(如 DINOv2、SigLIP2)。
* **模型架构与目标函数:** 包含多种输出预测方式、流匹配技术,以及 LightningDiT 和 JiT 等架构。
* **评估指标:** 除了标准的 FID/IS 指标外,还整合了 GenEval、DPGBench 和 VQAScore 等先进的评估基准。
DiffusionBench 采用分阶段训练工作流——先进行分词器训练,随后进行扩散建模——并配备了预配置设置,以实现无缝的复现和实验记录。该项目强调可扩展性与可复现性,欢迎社区贡献新的评估维度、指标及模型检查点,共同为生成式 AI 研究建立更稳健的标准。
请启用 JavaScript 和 Cookie 以继续。