## LLM 作为一种新的开发工具 作者详细描述了他们在软件开发方法上的转变,发现乐趣不在于*编程*本身,而在于*创造事物*,而大型语言模型 (LLM) 现在能极大地赋能这一过程。他们发现最近的 LLM 进步(例如 Opus 4.6)能够以惊人的低缺陷率进行编码,可靠性甚至超过手工编写的代码,同时保持对系统理解。 他们的工作流程以将 LLM 用作协作代理为中心:一个“架构师”进行规划,一个“开发者”进行实现,以及“审查者”进行批判。至关重要的是,利用*多个*模型进行审查可以提高质量,并且定义自定义代理允许自主任务委派。这个过程强调系统架构和设计技能,而不是细致的编码。 作者展示了几个以这种方式构建的项目——包括一个安全的个人助手(“Stavrobot”)、一个语音备忘录吊坠(“Middle”)和一个艺术项目(“Sleight of Hand”),证明 LLM 不仅限于简单的脚本。他们强调了强大的“框架”(使用 OpenCode)来管理模型和代理的重要性。 关键要点是一个协作的、迭代的过程,人类专业知识引导 LLM,从而产生可靠的、复杂的软件,并提高效率。作者提供了一个详细的注释编码会话,作为此工作流程的实际示例。
人工智能代理正在自动化重复性任务,让人类可以专注于创造力和批判性思维——这是软件开发领域一个令人兴奋的转变。然而,广泛采用取决于**信任**:确保代理可靠地*按预期*执行,并避免意外行为。
Fabraix 正在通过其开源“游乐场”(playground.fabraix.com)建立这种信任。该平台通过挑战社区使用可见的系统提示和工具来“越狱”实时代理,从而压力测试人工智能代理的安全性。
挑战是社区驱动的——由社区提出、投票和计时。成功的漏洞利用会被公开记录,从而促进集体学习并推动人工智能防御的改进。这种迭代的攻防过程建立了对人工智能漏洞的共同理解。
Fabraix 认为,开放、协作的安全测试对于构建强大而可靠的人工智能系统至关重要,最终使所有使用这项技术的人受益。该项目的前端和挑战配置是公开可用的,从而促进透明度和社区贡献。