## FDM-1:一种用于计算机使用的基础模型 研究人员开发了FDM-1,一种旨在理解和与计算机交互的新型基础模型,目标是为CAD、金融甚至ML研究等任务创建可扩展的“同事”。与依赖有限的、外包标注的屏幕截图的先前方法不同,FDM-1基于1100万小时的大规模计算机使用视频数据集进行训练,并使用“逆动力学模型”自动标注,该模型通过屏幕变化预测动作。 一项关键创新是高效的视频编码器,能够将近两小时的30 FPS视频压缩到仅100万个token中——显著优于现有方法。这使得FDM-1能够直接处理长上下文视频,而不是依赖于短片段。 演示展示了FDM-1执行复杂的任务,例如CAD设计、自动驾驶(仅需1小时微调),甚至通过“模糊测试”识别软件中的错误。该模型的架构利用掩码扩散方法进行准确的动作标注,并采用了一种新的鼠标移动token化方法。该团队构建了大规模的评估基础设施,使用fork虚拟机器来实现快速测试和迭代。FDM-1代表着计算机动作从数据受限到计算受限问题的转变,为更强大和通用的人工智能代理铺平了道路。
## PA Bench:计算机使用代理的新基准
当前的网络代理基准测试通常侧重于简单的单应用程序任务,未能反映人类实际使用个人助理的方式。为了解决这个问题,研究人员推出了 **PA Bench**,一个评估代理在电子邮件和日历等网络应用程序中执行逼真、多步骤工作流程的基准测试。
PA Bench 利用模拟的高保真环境来确保可重复和可验证的结果。任务是从可重用的场景模板(例如,旅行计划、会议重新安排)生成的,这些模板建立在一致的“基础世界”用户数据之上,从而保证跨应用程序的一致性。一个标准化的 SDK 管理模拟、模型适配器和实验编排。
对 Claude Opus 4.6、Gemini 3 Pro/Flash 和 OpenAI Computer Use 的评估显示出显著的性能差异。**Claude Opus 4.6** 通过恢复驱动的行为和事后行动验证实现了最高的成功率 (68.8%)。**Gemini 3 Pro** 显示出强大的规划能力,但缺乏可靠的执行力,而 **Gemini 3 Flash** 在复杂的推理方面遇到困难。**OpenAI Computer Use** 面临控制和探索方面的问题。
未来的工作旨在通过涉及众多应用程序和步骤的更复杂、更长期的工作流程来扩展 PA Bench,以及自动化任务生成。这项研究为构建真正强大的计算机使用代理迈出了关键一步。
## ECS Survivors:近期更新总结
经过七个月的停滞,ECS Survivors项目在四个更新中取得了显著进展。该项目现在具有改进的视觉效果,集成了使用Tiled编辑器和tmxlite库的**瓦片地图**。通过实施用于瓦片渲染的“截图”方法以减少绘制调用,以及**贪婪合并算法**以大幅减少碰撞体数量,从而优化了性能。
通过添加**空间哈希网格**以加速碰撞检测,进一步提高了性能,从而在处理大量实体时将速度提高了10倍。
通过**升级系统**引入了游戏进程,允许玩家在击败敌人后获得强化道具。
最后,一次重大**重构**将代码库组织成分层架构,并采用新的文件层次结构和CMake配置,从而能够创建单独的模块(输入、渲染等)和应用程序——包括潜在的编辑器和无头服务器,从而改善了代码组织和未来的可扩展性。
开发者承认过于雄心壮志减缓了进度,但该项目现在处于稳定状态,未来的开发将侧重于核心游戏玩法功能,例如近战攻击。可在Itch.io上获取可玩版本,并在GitHub上获取源代码。
## AI 与 3D 建模:尚未成熟
尽管人工智能取得了进步,但为电商生成可用的 3D 模型仍然是一个重大挑战。虽然人工智能可以快速生成乍一看还不错的模型,但仔细检查会发现关键缺陷阻碍了实际应用。最近对人工智能生成的匹克球拍和手工制作版本进行的比较凸显了这些问题。
人工智能模型存在“三角形汤”问题——混乱、无序的几何结构,使得即使是简单的编辑也变得极其困难和耗时,通常需要完全重建。纹理通常是低分辨率的“幻觉”,缺乏对材质的理解,导致烘焙光照和难以辨认的细节。虽然人工智能生成的文件尺寸较小,但这归因于低效的几何结构,而非优化的质量。
目前,人工智能 3D 生成优先考虑速度和文件大小,而不是可用性。这导致模型不适合产品配置器,在产品配置器中,视觉保真度和可编辑性对于建立客户信任至关重要。除非人工智能能够可靠地生成干净的拓扑结构和正确的材质分离,否则“节省时间”的说法是一种谬论——修复人工智能生成的模型通常比从头开始创建它们花费*更多*时间。目前,人工干预仍然是高质量、生产就绪的 3D 资产的关键。
## Linum图像-视频VAE:潜空间中的经验教训
Linum最近开源了他们的图像-视频VAE,并附带了详细的开发日志,重点介绍了关于压缩和生成模型质量的关键发现。VAE对于高效视频生成至关重要,可以将数据压缩到可管理的潜空间中,供扩散Transformer使用——否则,由于注意力机制的二次方扩展,它们会因计算成本而苦恼。
他们的探索表明,**更好的压缩并不一定意味着更好的下游生成**。他们花费了数月时间来解决不稳定性问题和重建质量差的问题,最终选择了Wan 2.1的VAE用于他们的文本到视频模型,因为它速度快且体积小。
主要挑战包括联合训练图像和视频(需要仔细的损失权重以避免偏差),以及克服诸如变色斑点之类的伪影——通过诸如自调节卷积之类的修改来解决。他们还发现,**过度优化像素级的完美重建实际上会*损害*生成质量**,因为它迫使VAE编码噪声。
展望未来,Linum正在探索两条路径:正则化VAE以学习更具语义的潜空间(通过诸如与预训练编码器对齐之类的技术),以及可能完全绕过VAE,采用诸如JIT之类的技术,该技术在扩散模型中直接学习压缩。他们的最终目标是通过生成视频技术的进步来实现易于访问的动画。
使用Anthropic的MCP(托管定制计划)的AI代理可能由于工具加载方式导致API成本超支。MCP会在每个会话开始时预加载*所有*工具定义(作为冗长的JSON模式),消耗大量token。使用CLI工具和CLIHub展示了一种更有效的方法——“延迟加载”,仅在需要时加载工具详情。
CLI使用轻量级的技能列表,而不是大量的预加载模式。虽然通过“--help”命令发现工具用法最初会消耗token,但总体使用量显著减少。测试表明,即使与Anthropic较新的“工具搜索”功能相比(该功能提供了一些改进,但仍然在获取工具时加载完整的模式),CLI使用的token最多可减少94%。
CLIHub提供现有CLI的目录,并提供转换器,可以轻松地从MCP定义生成CLI,为管理代理工具提供了一种更便宜、与模型无关的替代方案,优于MCP和工具搜索。