每日HackerNews RSS

## FDM-1:一种用于计算机使用的基础模型 研究人员开发了FDM-1,一种旨在理解和与计算机交互的新型基础模型,目标是为CAD、金融甚至ML研究等任务创建可扩展的“同事”。与依赖有限的、外包标注的屏幕截图的先前方法不同,FDM-1基于1100万小时的大规模计算机使用视频数据集进行训练,并使用“逆动力学模型”自动标注,该模型通过屏幕变化预测动作。 一项关键创新是高效的视频编码器,能够将近两小时的30 FPS视频压缩到仅100万个token中——显著优于现有方法。这使得FDM-1能够直接处理长上下文视频,而不是依赖于短片段。 演示展示了FDM-1执行复杂的任务,例如CAD设计、自动驾驶(仅需1小时微调),甚至通过“模糊测试”识别软件中的错误。该模型的架构利用掩码扩散方法进行准确的动作标注,并采用了一种新的鼠标移动token化方法。该团队构建了大规模的评估基础设施,使用fork虚拟机器来实现快速测试和迭代。FDM-1代表着计算机动作从数据受限到计算受限问题的转变,为更强大和通用的人工智能代理铺平了道路。

## 新型AI模型学会像人类一样使用电脑 si.inc 的研究人员开发了一种新型AI模型,该模型能够通过学习1100万小时的人机交互视频来执行复杂的电脑任务。与语言模型不同,该模型专注于*动作*——浏览、CAD,甚至仅使用箭头键驾驶汽车。 该系统的核心利用了掩码扩散逆动力学模型,最初在4万小时的数据上进行训练,然后用于标注更大的数据集。研究团队发现,生成方法是关键,因为通常存在多种正确的操作。 令人印象深刻的是,该模型可以在*无需*特定微调的情况下执行Blender建模等任务。仅使用45分钟的人工驾驶(箭头键)数据就实现了初步的自动驾驶能力。挑战依然存在,包括跨不同UI进行泛化以及处理音频输出,但该团队正在积极研究这些领域。研究人员正在与Hacker News社区互动,解答关于他们工作的疑问。

## PA Bench:计算机使用代理的新基准 当前的网络代理基准测试通常侧重于简单的单应用程序任务,未能反映人类实际使用个人助理的方式。为了解决这个问题,研究人员推出了 **PA Bench**,一个评估代理在电子邮件和日历等网络应用程序中执行逼真、多步骤工作流程的基准测试。 PA Bench 利用模拟的高保真环境来确保可重复和可验证的结果。任务是从可重用的场景模板(例如,旅行计划、会议重新安排)生成的,这些模板建立在一致的“基础世界”用户数据之上,从而保证跨应用程序的一致性。一个标准化的 SDK 管理模拟、模型适配器和实验编排。 对 Claude Opus 4.6、Gemini 3 Pro/Flash 和 OpenAI Computer Use 的评估显示出显著的性能差异。**Claude Opus 4.6** 通过恢复驱动的行为和事后行动验证实现了最高的成功率 (68.8%)。**Gemini 3 Pro** 显示出强大的规划能力,但缺乏可靠的执行力,而 **Gemini 3 Flash** 在复杂的推理方面遇到困难。**OpenAI Computer Use** 面临控制和探索方面的问题。 未来的工作旨在通过涉及众多应用程序和步骤的更复杂、更长期的工作流程来扩展 PA Bench,以及自动化任务生成。这项研究为构建真正强大的计算机使用代理迈出了关键一步。

Vibrant Labs (W24) 发布了 **PA Bench**,一个旨在评估先进人工智能模型——特别是“前沿模型”——在逼真、多步骤的网络任务中表现的新基准。PA Bench 认识到现有基准的不足,专注于模拟跨 Gmail 和 Calendar 等应用程序的复杂工作流程,从而反映现实世界中的“个人助理”场景。 该基准旨在识别任务复杂度增加(更多标签页和更长步骤)时的失败点。Vibrant Labs 目前使用最多 3 个标签页进行测试,并正在扩展数据集,构建常见企业工作流程的模拟。 该团队还在开发用于 LLM 代理的自动化评估和强化学习数据生成工具,包括自动化任务创建和用于训练的“连贯世界”模拟。他们正在寻求关于 PA Bench 的反馈,并愿意与感兴趣方讨论他们的工作。

## ECS Survivors:近期更新总结 经过七个月的停滞,ECS Survivors项目在四个更新中取得了显著进展。该项目现在具有改进的视觉效果,集成了使用Tiled编辑器和tmxlite库的**瓦片地图**。通过实施用于瓦片渲染的“截图”方法以减少绘制调用,以及**贪婪合并算法**以大幅减少碰撞体数量,从而优化了性能。 通过添加**空间哈希网格**以加速碰撞检测,进一步提高了性能,从而在处理大量实体时将速度提高了10倍。 通过**升级系统**引入了游戏进程,允许玩家在击败敌人后获得强化道具。 最后,一次重大**重构**将代码库组织成分层架构,并采用新的文件层次结构和CMake配置,从而能够创建单独的模块(输入、渲染等)和应用程序——包括潜在的编辑器和无头服务器,从而改善了代码组织和未来的可扩展性。 开发者承认过于雄心壮志减缓了进度,但该项目现在处于稳定状态,未来的开发将侧重于核心游戏玩法功能,例如近战攻击。可在Itch.io上获取可玩版本,并在GitHub上获取源代码。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 ECS 生存者第七至第十部分 (ptidej.net) 7 分,作者 yann-gael 27 分钟前 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 yann-gael 27 分钟前 [–] 我是软件工程教授,我要求我的研究生撰写关于他们研究的博客。这篇文章由 Laurent Voisard 撰写,他研究用于开发许多游戏的实体-组件-系统,以及(通常)它对软件质量的影响。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## Java垃圾回收的演变成本 数十年以来,Java的垃圾回收(GC)一直自动管理内存,使开发者摆脱了手动生命周期管理。然而,这种便利是以CPU周期为代价的。传统上,GC性能通过暂停时间来衡量,但随着GC算法的演进,这个指标变得越来越不可靠。 现代GC引入了复杂性:*显性成本*(专门用于GC任务的CPU周期)、*隐性成本*(注入到应用程序代码中的屏障)和*微架构效应*(缓存影响)。并行GC用CPU换取更短的暂停时间,而像G1和ZGC这样的并发收集器则将工作转移到后台,掩盖了总CPU开销。ZGC旨在实现最小的暂停时间,但并未消除工作,只是将其分摊。 这种转变意味着暂停时间不再能准确反映GC效率。Amdahl定律进一步限制了并行化的好处。为了解决这个问题,OpenJDK 26引入了新的API——通过`-Xlog:cpu`进行统一日志记录,以及`MemoryMXBean.getTotalGcCpuTime()`方法——以提供对GC显性CPU成本的精确核算。 这些工具能够做出关于堆大小和GC算法选择的明智决策,从而超越了对暂停时间进行反应式优化,转向主动资源管理。通过暴露真实的计算成本,开发者和研究人员可以同时优化吞吐量和延迟,最终实现更高效、更具成本效益的Java应用程序。

一位来自OpenJDK的JVM工程师在OpenJDK 26中开发了一个新的遥测框架,以更好地理解和量化垃圾回收(GC)的CPU开销。作者在博士研究期间研究过GC,发现现有的工具不足以应对现代并发收集器,因为仅靠暂停时间无法揭示完整的性能影响。 新的API允许开发者精确测量与GC相关的CPU成本,特别是CPU使用率和内存管理之间的权衡。这解决了性能分析中的一个盲点,超越了单纯的暂停时间,还包括对象遍历、对象移动、线程暂停和内存屏障等成本。 一位评论者强调了该接口在跟踪GC相关问题方面的实用性,并询问如何将GC影响与应用程序线程性能相关联,建议与OpenTelemetry集成,并将GC时间添加到span中以进行更好的数据分析。作者可以回答关于文章和实现的问题。

## AI 与 3D 建模:尚未成熟 尽管人工智能取得了进步,但为电商生成可用的 3D 模型仍然是一个重大挑战。虽然人工智能可以快速生成乍一看还不错的模型,但仔细检查会发现关键缺陷阻碍了实际应用。最近对人工智能生成的匹克球拍和手工制作版本进行的比较凸显了这些问题。 人工智能模型存在“三角形汤”问题——混乱、无序的几何结构,使得即使是简单的编辑也变得极其困难和耗时,通常需要完全重建。纹理通常是低分辨率的“幻觉”,缺乏对材质的理解,导致烘焙光照和难以辨认的细节。虽然人工智能生成的文件尺寸较小,但这归因于低效的几何结构,而非优化的质量。 目前,人工智能 3D 生成优先考虑速度和文件大小,而不是可用性。这导致模型不适合产品配置器,在产品配置器中,视觉保真度和可编辑性对于建立客户信任至关重要。除非人工智能能够可靠地生成干净的拓扑结构和正确的材质分离,否则“节省时间”的说法是一种谬论——修复人工智能生成的模型通常比从头开始创建它们花费*更多*时间。目前,人工干预仍然是高质量、生产就绪的 3D 资产的关键。

最近Hacker News上出现了一场关于AI生成3D模型的质量讨论,起因是一篇名为“AI生成3D垃圾的剖析”的文章。核心批评在于,目前的AI在创建适用于专业应用(如电商)的模型时存在困难,它更注重视觉吸引力(“足够好”的表面),而非结构完整性和实际可用性。 一位评论员强调了“内在代理”的概念,认为模型缺乏对其自身几何结构的根本理解,导致仔细检查时出现问题。另一些人则认为这项技术*正在*改进,较新的模型能够生成更清晰的拓扑结构和纹理,并且现有输出可以通过诸如减面工具之类的工具进行优化——类似于摄影测量技术的演变。 这场争论触及了“生成噪音”与“真实创作”之间的区别,以及超越表面光鲜的批判性评估的必要性。具有讽刺意味的是,这场讨论本身是由AI生成的文本促成的。

祝大家节日季温暖、安宁(或者至少比随机包裹升级少点意外)。无论您是旅行、待在家中、编写一些美妙的无用代码,还是仅仅抱着一杯热饮潜伏着,我都希望您能获得片刻宁静和满满的舒适。感谢您成为这个特别之处的一部分:这里的创造力、善良、古怪的小项目,以及持续提醒我们互联网仍然充满人情味。 圣诞节快乐给庆祝的人们,节日快乐给所有人。日历翻页后再见。~deepend

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 访问共享的 Unix 计算机 (tilde.club) 13 分,TigerUniversity 1 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 cbm-vic-20 3 分钟前 [–] 多用户 Unix?他们还会想出什么? 这很酷,这让人们体会到过去大学里大家一起登录到大型分时机器上的感觉。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## Linum图像-视频VAE:潜空间中的经验教训 Linum最近开源了他们的图像-视频VAE,并附带了详细的开发日志,重点介绍了关于压缩和生成模型质量的关键发现。VAE对于高效视频生成至关重要,可以将数据压缩到可管理的潜空间中,供扩散Transformer使用——否则,由于注意力机制的二次方扩展,它们会因计算成本而苦恼。 他们的探索表明,**更好的压缩并不一定意味着更好的下游生成**。他们花费了数月时间来解决不稳定性问题和重建质量差的问题,最终选择了Wan 2.1的VAE用于他们的文本到视频模型,因为它速度快且体积小。 主要挑战包括联合训练图像和视频(需要仔细的损失权重以避免偏差),以及克服诸如变色斑点之类的伪影——通过诸如自调节卷积之类的修改来解决。他们还发现,**过度优化像素级的完美重建实际上会*损害*生成质量**,因为它迫使VAE编码噪声。 展望未来,Linum正在探索两条路径:正则化VAE以学习更具语义的潜空间(通过诸如与预训练编码器对齐之类的技术),以及可能完全绕过VAE,采用诸如JIT之类的技术,该技术在扩散模型中直接学习压缩。他们的最终目标是通过生成视频技术的进步来实现易于访问的动画。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 从4个月图像-视频 VAE 实验中的学习 (linum.ai) 10 分,由 schopra909 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 schopra909 1 小时前 [–] 大家好,我是文章的两位作者之一,也是 Linum v2 文本到视频模型 (https://news.ycombinator.com/item?id=46721488) 的作者之一。我们发布了我们的图像-视频 VAE(开放权重)以及关于我们如何构建它的深入研究。 很高兴回答关于这项工作的问题!回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

避免使用暗语。有时人们写的东西听起来像在说一件事,但他们的词语是“编码”过的——对某些读者来说意味着其他含义。例如,有人可能会写:“那些北极熊总是毁掉我们的粥。”对大多数读者来说,这似乎是对熊和食物的抱怨。但对某些群体来说,它实际上在说完全不同的事情。(实际评论内容并非关于熊。)你可以通过告诉Respectify禁止什么来避免这种情况。根据你的网站、主题和受众进行定制。

## Respectify:一种新的在线审核方法 David Millington和Nick Hodges推出了Respectify(respectify.org),这是一种评论审核工具,旨在改进在线讨论,超越简单的删除和封禁。Respectify不是仅仅移除“不良”评论,而是通过识别逻辑谬误、语气不佳、不相关以及潜在有害的隐晦语言(“狗哨”)来*教育*用户。 该系统提供解释,并允许评论者修改他们的提交内容,从而促进更好的沟通和批判性思维。它的设计具有高度可定制性,审核级别可以从宽松到严格。 Hacker News上的早期反馈显示,人们担心该工具可能过于敏感,将合法辩论——特别是关于UBI等政治敏感话题——标记为包含“狗哨”或负面语气。用户还注意到,看似无害的陈述也被标记为离题。开发者正在积极寻求反馈,并承认需要改进该系统,包括调整默认设置和解决偏见问题。他们希望Respectify最终能带来更有效率和更尊重的在线互动。

使用Anthropic的MCP(托管定制计划)的AI代理可能由于工具加载方式导致API成本超支。MCP会在每个会话开始时预加载*所有*工具定义(作为冗长的JSON模式),消耗大量token。使用CLI工具和CLIHub展示了一种更有效的方法——“延迟加载”,仅在需要时加载工具详情。 CLI使用轻量级的技能列表,而不是大量的预加载模式。虽然通过“--help”命令发现工具用法最初会消耗token,但总体使用量显著减少。测试表明,即使与Anthropic较新的“工具搜索”功能相比(该功能提供了一些改进,但仍然在获取工具时加载完整的模式),CLI使用的token最多可减少94%。 CLIHub提供现有CLI的目录,并提供转换器,可以轻松地从MCP定义生成CLI,为管理代理工具提供了一种更便宜、与模型无关的替代方案,优于MCP和工具搜索。

一个 Hacker News 的讨论围绕着如何通过命令行界面 (CLI) 方法,使多调用编程 (MCP)——一种 LLM 与工具交互的方法——更具成本效益。核心思想是用更简单的 CLI 工具取代依赖模式的 MCP,从而可能减少 token 使用量和成本。 用户们争论着利弊。虽然 CLI 可能更便宜,尤其是在使用不太强大的模型时,但人们担心会丢失上下文以及需要详细的工具描述。一些人举例说明了 Playwright-CLI 与 Playwright-MCP 的区别,以及 MCPorter 等工具提供的类似功能。 一个关键点是“推 vs. 拉”的动态——LLM 是请求信息 (MCP),还是工具主动提供信息 (CLI)。 还有关于 JSON 格式的讨论,一些人认为它是一种浪费 token 的做法。 最终,这次讨论强调了寻找有效方法,为 LLM 代理提供执行任务所需的必要信息。

启用 JavaScript 和 Cookie 以继续。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 Devirtualization 和静态多态性 (alvarezrosa.com) 7 分,dalvrosa 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

更多

联系我们 contact @ memedata.com