每日HackerNews RSS

## 代理UI:用户界面新范式 埃里克·施密特预测传统UI将衰落,设想未来AI代理将根据需要动态生成界面。最近的一个原型探索了这个概念,构建了一个能够从头开始使用一种新方法创建React UI的代理AI助手。 核心思想在于**Markdown作为协议**:单一数据流承载文本、可执行代码(在代码围栏内)和数据(在数据围栏内)。这利用了LLM对Markdown的现有理解,避免了新的训练需求。**流式执行**允许代码在生成时增量运行,提高响应速度。一个`mount()`原语促进了反应式UI的创建,并管理客户端、服务器和LLM之间的数据流。 该系统支持四种数据流模式:客户端到服务器(表单)、服务器到客户端(实时更新)、LLM到客户端(流式数据)和客户端到服务器(回调)。对于复杂的UI,**插槽机制**允许初始骨架界面随着可用内容而填充。 虽然安全性并未直接解决(依赖现有的沙盒技术),但该原型证明了通过将系统与LLM的现有知识库(Markdown、TypeScript和React)对齐,而不是要求新的学习,来构建功能UI的可行性。该项目的成功凸显了利用现有的LLM训练数据来创建新一代动态、代理驱动的界面的潜力。

法比安·卡博纳拉推出了“fenced”,一个原型,探索了一种新的生成UI架构,将**Markdown视为一种协议**,用于组合文本、可执行代码和数据。核心思想是**流式执行**——Markdown代码围栏内的代码会随着接收到每一条语句而运行,从而实现动态UI创建。 一个关键组件是`mount()`原语,它允许一个代理使用完整的客户端、服务器和LLM之间的数据流来构建React UI。这种方法提供了表达力的范围,从为安全起见预先注册的UI块到为了最大的灵活性而进行完全代码执行。 Hacker News的讨论引发了关于命名的争论(有人建议使用“超文本”),以及替代方案,如Markdown UI和MDX,以及潜在的应用范围,从交互式仪表盘到可定制的笔记本。 许多评论员强调了类似的正在进行的工作,特别是与Claude Code的新“通道”功能,以及支撑此类系统所需的强大的数据模型。

## NanoGPT Slowrun:实现 10 倍数据效率 最近的 NanoGPT Slowrun 实验表明,实现了 **10 倍数据效率**——使用 1 亿个 token 达到了通常需要 10 亿个 token 的效果,使用了 18 亿参数模型的集成(总计 180 亿参数)。这一点意义重大,因为扩展智能越来越受到 *数据* 可用性的限制,而不是 *计算* 能力。 这一突破显著偏离了 Chinchilla 等既定的扩展定律。驱动这种效率的关键技术包括:**集成训练**,即训练多个模型并对其预测结果求平均;**链式蒸馏**,按顺序训练模型以从前一个模型中提炼知识;激进的 **正则化**(权重衰减是标准的 16 倍);以及 **循环 Transformer**,允许每个预测使用更多的计算资源。 此外,一些 **架构调整**——例如独占自注意力机制和 U-Net 风格的跳跃连接——也带来了收益。团队认为,系统的架构搜索是未来至关重要的方向。 目前的目标是在一年内达到 **100 倍数据效率**,这需要进一步的创新,但鉴于目前的进展,看起来是可行的。这项工作突出了通过计算扩展来提高模型性能的潜力,而不是受数据约束的限制。

## NanoGPT 慢速运行:无限计算下的数据效率 - 摘要 最近的 Hacker News 讨论围绕 NanoGPT 慢速运行项目展开,探讨了大型语言模型 (LLM) 训练中的数据效率。核心思想是研究在大量计算资源的支持下,利用更少的数据能达到什么效果。 对话强调了对数据效率思维的转变——不再仅仅关注减少参数,而是专注于从有限的数据集中提取最大信息量。参与者们讨论了人工智能和人类学习之间的比较,并指出训练数据量和人类获得的进化“预训练”之间存在巨大差异。 一个关键点是,虽然生成合成数据正变得越来越普遍,但这并不能保证改进,而新的训练方法仍然至关重要。讨论还涉及了 LLM “学会学习”的可能性,以及模仿生物学习过程(如睡眠以巩固记忆)的好处。最终,慢速运行旨在突破预训练技术的界限,尤其是在数据稀缺的情况下,并探索新的想法是否能超越简单地扩大合成数据生成规模。

## 并行自研:摘要 研究人员通过SkyPilot在Kubernetes集群上配备16块GPU,为Andrej Karpathy的自研代理(Claude Code)提供支持,以自主改进神经网络。在8小时内,该代理运行了约910次实验,验证比特/字节(val_bpb)提高了2.87%——从1.003降至0.974。 关键在于,并行化改变了代理的搜索策略。与顺序的“贪婪”搜索不同,16块GPU实现了阶乘网格,可以同时测试多个参数组合并揭示相互作用效应。该代理发现扩大模型宽度是最有影响的因素,甚至学会了利用异构硬件,使用更便宜的H100进行初步筛选,并使用更快的H200进行验证。 这种并行方法达到相同的最佳验证损失速度比顺序基线快9倍(8小时对72小时)。该代理自主管理集群配置和实验执行,展示了一种强大的自动化机器学习研究工作流程。8小时运行的总成本低于300美元。完整的设置是公开可用的,允许其他人复制和扩展这种自研方法。

## Autoresearch 规模化:摘要 Andre Karpathy 的“Autoresearch”项目,利用 LLM 自动改进代码,正受到关注。其核心思想是让 AI 迭代地修改和测试代码,旨在实现超越简单超参数调整的改进。初步结果表明,该代理可以发现优化方案——包括“smear gates”等架构变化——这些并非单纯的超参数调整。 讨论的中心在于这是否真正属于“研究”,还只是高级优化。一些人认为这只是在重新发明贝叶斯优化,而 Karpathy 则认为 LLM 修改代码的能力从根本上改变了这一过程。一个关键发现是,该代理能够自主分配资源,在 H100 上进行初步测试后,更倾向于使用更快的 H200 GPU 进行验证。 人们对使用大型 GPU 集群与更具针对性的方法之间的效率,以及改进是否能推广到特定基准测试之外表示担忧。一些人将其比作蛮力搜索,而另一些人则强调了 AI 加速研究过程本身的潜力,特别是当它可以访问更广泛的知识来源,例如研究论文时。该项目引发了关于 LLM 在真正创新与仅仅优化现有概念中的作用的争论。

启用 JavaScript 和 Cookie 以继续。

## Obra Dinn:抖动效果深度解析 最近的Hacker News讨论强调了游戏《Obra Dinn》中创新的抖动技术,实现了独特的1位视觉风格。该游戏利用球面映射来创建稳定的抖动效果,这具有挑战性,因为传统的3D抖动在倾斜角度下常常显得不稳定。 该讨论链接到详细描述该过程的资源,包括探索进一步改进的视频以及开发人员的博客文章。虽然该技术因其稳定性和复古美学而受到赞扬,但一些用户指出在较大屏幕上可能会引起眼睛疲劳和视觉不适。 许多评论者表达了对游戏技术成就和艺术愿景的钦佩,甚至有人构建了自己的实现。其他人分享了类似侦探/解谜游戏,如《Sennaar之歌》和《黄金偶像案》。尽管技术精湛,但人们对这种艺术风格是否增强或降低了游戏体验的看法不一。

## 介绍 noq:一种新的 QUIC 实现 iroh 网络库的团队发布了 **noq**(“number 0 QUIC”),这是一种通用的 QUIC 实现,旨在解决现有解决方案(如 Quinn)无法完全满足的特定需求。这个分支源于 iroh 内部的大量工作,需要对 QUIC 的行为进行更深入的控制,尤其是在多路径网络和 NAT 穿越方面。 noq 的主要特性是完整实现了 QUIC 多路径规范,允许 iroh 在 QUIC 内部原生管理多个连接路径(中继、直接 IPv4/IPv6),从而提高延迟和可靠性。它还包括一个健壮的、经过生产测试的 QUIC NAT 穿越实现,并利用 QUIC 地址发现 (QAD) 来增强隐私。 除了 iroh 的使用之外,noq 旨在成为一个多功能的 QUIC 基础,提供诸如扩展的 qlog 支持以进行详细的连接调试,以及 `WeakConnectionHandle` 以实现灵活的连接管理等功能。目前为 iroh v0.96 提供支持,noq 已经通过了与 picoquic 的互操作性测试,并将随着持续的开发和与 QUIC 社区的合作而不断发展。

## Iroh:一种新的Rust QUIC实现 n0团队发布了Iroh,一种用Rust构建的新QUIC实现,源自Quinn项目。 分叉源于难以向上游提交大量内部更改(估计超过100个PR),同时保持项目势头。 Iroh团队强调与Quinn维护者之间的尊重关系,并希望与原始项目保持一致。 Iroh因其在构建个人用途应用程序方面的潜力而备受关注,特别是具有零配置“应用中继”功能,用于安全远程访问。 它利用WebSocket来中继QUIC数据包,通过即使在UDP被阻止的情况下也能工作来实现普遍性。 讨论强调了Iroh在TLS身份验证方面的灵活性,允许使用原始公钥进行连接——绕过对传统CA证书的需求。 这吸引了希望建立直接连接而不依赖于既定机构的用户。 该项目是更广泛趋势的一部分,即在RFC最终确定*之前*实现QUIC功能,这得益于IETF的“粗略共识和运行代码”方法。

启用 JavaScript 和 Cookie 以继续。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 英国的Ofcom今天因4chan没有设置年龄验证而罚款45万英镑 (ofcom.org.uk) 60点 由 longislandguido 1天前 | 隐藏 | 过去 | 收藏 | 1条评论 帮助 dang 1天前 [–] 评论已移动至 https://news.ycombinator.com/item?id=47440430,目前在首页。 我们会将当前链接放在那里的顶部文字中。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## 通过再投资递延税款 这种策略侧重于通过战略性地将收入再投资回经济中,合法地减少美国税收。其核心原则是,政府鼓励财富*创造*——现在递延税款,以期待未来更大的应税收益。 这通过最大化合法的商业支出来实现,特别是利用资产的折旧时间表。聪明的会计可以“调整”这些时间表,以抵消高收入年份的利润,从而最大限度地减少当前的税务责任,同时将义务转移到未来。 杠杆投资(贷款)是关键。再融资允许您获取增值的股权作为免税现金,进一步促进再投资。本质上,只要您以美国国税局认可的方式向经济贡献的价值大于您提取的价值,您就可以显著推迟缴纳税款。 最终,这并非关于漏洞,而是理解和利用美国税法的预期机制。虽然死亡最终会消除税务义务,但持续的再投资确保您的经济影响在您去世后仍然持续。

启用 JavaScript 和 Cookie 以继续。

## 世界幸福报告2026:摘要 Hacker News的讨论集中在最近发布的《世界幸福报告2026》。芬兰一直名列前茅,但该报告的方法论备受争议。核心指标依赖于一个简单的问题——要求个人在0到10的范围内评估他们的生活——许多人认为这过于简单且可能具有误导性。 评论员指出报告结果与实际生活之间的差异,例如北欧国家高抗抑郁药使用率、加拿大经济困境以及以色列政治动荡。人们对报告依赖自我报告和潜在文化偏见表示担忧。 许多人认为该报告优先考虑愿望和比较,而非真正的日常幸福。一些人认为社交媒体的影响、缺乏社交的“第三空间”以及更广泛的社会问题会导致不幸福,而另一些人则强调经济稳定和个人自由的重要性。最终,这场讨论强调了量化幸福的困难以及依赖单一指标来评估不同人群福祉的局限性。

在 Atari 重新发布《运输大亨豪华版》后,OpenTTD 在 Steam 和 GOG 上的可用性发生了变化。 这引发了担忧,但 OpenTTD 开发者澄清他们并未受到 Atari 的压力——相反,达成了一项合作协议。 为了平衡 Atari 的商业利益与 OpenTTD 的免费可用性,现在 Steam 和 GOG 上的新玩家需要购买《运输大亨豪华版》才能访问 OpenTTD。 现有玩家和从 OpenTTD 网站下载的玩家不受影响。 开发者选择这种妥协方案是为了避免打扰现有玩家,并可能阻碍未来对游戏的发现。 他们强调 OpenTTD 与《运输大亨豪华版》有着深厚的渊源,并认为与 Atari 的合作对该项目的长期生存有利,包括对服务器成本的财务贡献。 虽然承认社区的担忧,但团队强调 OpenTTD 持续的独立性,并要求进行尊重的讨论。

更多

联系我们 contact @ memedata.com