每日HackerNews RSS

## 编码代理与框架知识:一项令人惊讶的发现 旨在为编码代理提供 Next.js 16 知识的实验揭示了一个反直觉的结果:一个简单、压缩的 8KB 文档索引,嵌入在 `AGENTS.md` 文件中,始终优于“技能”——一种更复杂、标准化的知识打包方法。即使技能带有明确的指令,通过率也仅为 79%,而 `AGENTS.md` 索引达到了 100%。 技能依赖于代理*选择*使用它们,而这个过程被证明不可靠(仅在 56% 的情况下被触发)。`AGENTS.md` 方法提供对文档的持续、被动访问,消除了决策点,并确保了持续可用性。 关键在于将代理转向“检索引导推理”——优先考虑文档,而不是可能过时的预训练数据。这可以通过在索引中包含类似“优先检索引导推理”的指令来实现。一个命令行工具 (`npx @next/codemod@canary agents-md`) 可以自动执行此过程,用于 Next.js 项目。 虽然技能对于特定的、用户触发的操作仍然有价值,但这项研究表明,对于广泛的框架知识,通过 `AGENTS.md` 提供的被动上下文是确保编码代理生成准确、最新代码的最有效方法。

## AGENTS.md 在 Vercel Agent 评估中表现优于技能 最近的 Vercel 评估发现,通过压缩的、基于 markdown 的“AGENTS.md”文件提供代理指令,在代码相关任务中始终优于使用定义的“技能”。核心发现是:代理仅在 79% 的相关情况下调用技能,而 AGENTS.md 方法实现了 100% 的成功率。 讨论强调,当前语言模型并非真正“理解”技能,而是生成文本来*触发*它们的使用,这基于训练数据——而当前的数据有限。许多评论员认为问题在于模型需要更多训练来有效地利用技能。 几位参与者指出,直接在系统提示中包含全面的文档索引(如 AGENTS.md)比依赖技能更有效。一个关键的收获是清晰、明确的上下文对 LLM 的重要性,以及较小、更快的模型能够有效地为大型模型策划相关信息的能力。这场辩论也涉及 LLM 的可靠性以及部署基于代理的系统时对可靠测试和可观察性的需求。

接下来是蜂鸟 | 隐藏线条 1月30日星期五 · Mitropa · 19.00 蜂鸟用音乐开启新年!一月最后一天星期五,我们将在Mitropa舞台上呈现Hidden Lines的现场演出。Hidden Lines是一个从神秘中浮现的黑暗电子项目——音乐构建了一种引人入胜的紧张感,就像你期望来自斯德哥尔摩的独特二人组的作品一样。我们在烟雾和薄雾中相见。⚡️ DJ从21.00开始。免费入场!详情

## 蜂鸟:瑞典的DIY音乐俱乐部 玛丽亚和乔纳坦在瑞典诺尔科平经营着蜂鸟,这是一个每月一次的音乐之夜,通常有50-70人参加。蜂鸟最初只是因为一次买啤酒的想法而产生的,从以DJ为主的活动发展到包括现场乐队,营造了一种友好的氛围,让人们即使独自一人也感到舒适。 他们成功的关键在于注重面对面的交流——迎接新来者并建立“主人层”,以及策划特定的音乐风格(后朋克、黑暗浪潮、合成器)。他们还发现线下营销,比如拜访当地商家,比社交媒体更有效,尽管他们也创造性地利用“耳机漫步”视频来在线可视化音乐体验。 这对夫妇建立了他们自己的售票系统和媒体流程。他们强调保持规模小的重要性,以维持强大的社交动态,并认为一贯的风格和识别常客对于建立忠实的观众至关重要。他们乐于回答关于他们经验的问题,并为那些希望创建类似本地活动的人提供见解。

苹果正在通过收购以色列人工智能初创公司 Q.ai 来加紧与 Meta 和 Google 等竞争对手的人工智能竞赛,收购金额近 20 亿美元,为苹果历史上第二大收购案。Q.ai 专注于音频和图像领域的机器学习,重点技术包括低语语音识别和降噪,将直接提升 AirPods 和 Vision Pro 头显等产品。 这并非苹果首次收购 Q.ai 首席执行官 Aviad Maizels 的技术,后者曾在 2013 年将 3D 传感公司 PrimeSense 出售给苹果。Q.ai 团队将全部加入苹果,增强其人工智能能力。 此举发生在苹果发布强劲的季度财报之前,预计收入约为 1380 亿美元,iPhone 销量将显著增长,预示着苹果对未来人工智能驱动的创新的战略投资。

## 苹果收购以色列人工智能初创公司 Q.ai 苹果公司以约20亿美元的价格收购了以色列人工智能初创公司Q.ai,该公司专注于音频处理的机器学习技术。Q.ai的技术侧重于解读低语和增强嘈杂环境中的音频——可能提升Siri的性能,并实现诸如次声语音指令识别(通过面部肌肉运动解读想法)等新功能。 这是由首席执行官Aviad Maizels领导的第二家被苹果收购的公司,此前PrimeSense于2013年被收购,为Face ID做出了贡献。Q.ai团队将加入苹果,引发了关于苹果智能、智能家居设备和Vision Pro功能改进的猜测。 讨论的中心是围绕该技术的隐私问题,潜在的应用范围(例如检测意外语音激活),以及苹果是否有效地整合了收购的技术,并与英特尔过去的挣扎进行比较。许多评论员也对苹果当前语音助手和自动更正功能表示沮丧,希望此次收购能带来显著的改进。

启用 JavaScript 和 Cookie 以继续。

## PS2Recomp 或为PS2游戏带来原生PC移植 一个名为 **PS2Recomp** 的新项目旨在将PlayStation 2游戏原生移植到现代PC,而非通过模拟器。这款“静态反编译器和运行时工具”将反编译为主机独特的“Emotion Engine”CPU设计的PS2游戏,并将其转换为在Windows或Linux上运行。 PS2Recomp并非“一键”解决方案,但它比模拟器具有显著优势。原生移植可以解锁更高的分辨率、稳定的帧率,并为视觉增强提供更大的自由度,例如高清纹理甚至光线追踪,可能在较低配置的硬件上实现。 受成功的N64移植项目(如带有RTX的*马里奥64*和*塞尔达传说*)的启发,PS2Recomp承诺一个未来,届时像*合金装备2*和*战神*这样的经典游戏可以拥有功能齐全的PC版本,并支持手柄和其他现代功能。尽管该项目仍在开发中,但它代表了游戏保护方面的一大进步,并为重振PS2令人难以置信的游戏库提供了令人兴奋的可能性。

团队Counterpoint是一家年轻且快速发展的研究公司,涵盖科技行业的分析。研究领域包括连接设备、数字消费品、软件及应用以及其他相关主题。我们提供综合研究报告以及定制服务。我们的研讨会和培训课程在企业和机构中很受欢迎,并且可以按需提供。咨询和客户服务。

## iPhone 占据智能手机销量领先地位,但升级周期引人关注 Counterpoint Research 报告预测 iPhone 16 将成为 2025 年最畅销的智能手机,苹果将占据前十名中的七个席位。Hacker News 的讨论揭示了对这种领先地位的细致看法。 许多评论员指出,用户持有 iPhone 的时间越来越长,只有在出现重大改进时才会升级——通常会跳过多个世代。一些从较旧型号(如 12)升级的用户报告说,与较新的版本相比,几乎没有明显差异,表明更新是渐进式的。另一些用户则因存储限制或操作系统变慢等问题而被迫升级。 一个反复出现的主题是智能手机技术被认为已经“解决”,每次新型号的收益都在减少。虽然相机改进值得注意,但许多人认为核心功能多年来没有发生重大变化。讨论还涉及了 Android 替代品,一些人称赞 Pixel 手机,另一些人批评三星的臃肿软件和缺乏创新。可维修性也是一个日益增长的担忧,一些人称赞 iPhone 16 在这方面的改进设计。

## Transcribee:您的自我组织知识库 Transcribee 是一款 macOS 开源工具,可自动转录来自 YouTube、Instagram Reels、TikTok 和本地文件的音频和视频。它的目标是以最少的努力构建一个可搜索的个人知识库。 它的工作原理是:Transcribee 下载媒体,使用 ElevenLabs(带有说话人识别)进行转录,然后利用 Claude 将转录内容自动分类到 `~/Documents/transcripts/` 目录中的结构化文件夹系统中。 转录文本带有说话人标签,可与 ChatGPT 和 Claude 等 LLM 一起使用。高级用户可以访问带有时间戳的原始转录数据。它可以通过 ClawdHub 或从 GitHub 手动克隆安装,需要依赖项,如 `yt-dlp` 和 `ffmpeg`,以及 ElevenLabs 和 Anthropic API 密钥。 本质上,Transcribee 允许您“一次转录,永久保存知识”,将消费的内容转化为易于访问、有组织的资源。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 展示 HN: Transcribee: YouTube 视频转录工具,构建知识库 (github.com/itsfabioroma) 19 分,ofabioroma 发表于 1 天前 | 隐藏 | 过去 | 收藏 | 3 条评论 ofabioroma 发表于 1 天前 | 下一个 [–] 大家好,我刚刚更新了,现在它也适用于 Instagram Reels。这是我个人常用的转录工具,顺便说一下,它在 Clawdbot/Moltbot 中运行效果很好。 告诉我你们是否喜欢它,以及有什么改进建议。回复 dSebastien 发表于 21 小时前 | 上一个 [–] 可惜没有开源许可证。 ofabioroma 发表于 15 小时前 | 父评论 [–] 我完全没有注意许可证的问题。我用 MIT 许可证修复它。 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## 在人工智能时代发现价值 生成式人工智能的兴起引发了焦虑,促使人们需要理解其影响——作者通过写作本身来应对这个问题。核心问题并非仅仅是人工智能*是否*有用,而是它所创造的事物构成“价值”的标准是什么。 虽然人工智能擅长提升*实用性*——创造功能性、解决问题的输出——但真正的价值超越了单纯的可用性。例如,一件手工编织的围巾,其意义源于创作过程中投入的时间和关怀,这是人工智能无法复制的。这种“意义”源于我们最宝贵的资源——时间的牺牲,以及与他人建立联系的愿望。 人工智能的优势在于高效地生成实用性。对于像简化软件开发(如华盛顿州的一份招聘信息所示)这样的任务,人工智能可以放大人类的努力,产生积极的影响。然而,在寻求情感共鸣或真诚连接——在艺术、礼物或个人表达中——优先考虑人类投入至关重要。 最终,作者提出了一种审慎的方法:利用人工智能提高实用任务的效率,同时保留人类创造力和个人投入的空间,在真正重要的领域创造意义。这并非拒绝人工智能,而是有意识地选择*如何*和*何时*使用它,认识到有些价值根本无法通过算法生成。

## TensorPool Agent:自主训练作业恢复(Beta) TensorPool Agent 是一个 Beta 系统,旨在自动监控和恢复在 Kubernetes、Slurm 或 TensorPool Jobs 上运行的长时间分布式训练作业(几天/几周)。它专注于初始检查点*之后*的运行时错误,例如 GPU 故障、通信失败以及基础设施/存储问题——旨在节省 GPU 时间和迭代周期。 Agent 通过分析日志并尝试从最新的检查点恢复工作,但**仅在您明确列入白名单的权限下**进行。如果尝试恢复,您将通过短信/电子邮件收到通知。如果成功,训练将恢复;否则,您将收到根本原因分析和建议的操作。 **目前,它无法解决早期错误**,例如依赖问题。设置需要通过 TensorPool 控制台提供凭据(作业 ID、kubeconfig 或 Slurm 登录详细信息)。 Agent 循环通过以下状态:待处理、已启用、凭据错误、恢复中和已完成。由于目前处于 Beta 版本,欢迎提供反馈!

## TensorPool Agent:分布式训练的自主恢复 TensorPool,一家专注于基础模型训练的大规模计算公司,发布了**TensorPool Agent**的公开测试版。该工具旨在解决因运行时错误导致训练作业中断这一令人沮丧且代价高昂的问题——这是影响研发周期的常见问题。 通过分析超过10万小时的多节点GPU运行时间,TensorPool开发了Agent,以**自主检测、诊断和恢复**诸如GPU错误(Xid错误、CUDA OOM)、通信问题(NCCL超时)以及存储/网络问题等故障。 该Agent与Kubernetes、Slurm和TensorPool Jobs集成,监控故障并尝试从上次检查点自动重启。如果自动恢复失败,它将提供根本原因分析和尝试过的解决方案,以帮助调试。目前,团队正在致力于检测“静默”故障,即作业看似正在运行但没有取得进展的情况。 TensorPool正在寻求对当前恢复方法以及该领域其他用户遇到的常见故障模式的反馈。

## AI 代理的责任缺口 AI 代理的日益普及带来了一个关键的安全和责任问题:证明*谁*授权了某个行动,而不仅仅是*发生了什么*。当前的日志系统虽然对跟踪事件有价值,但不足以建立清晰、可验证的人工到代理的授权链,尤其是在复杂的多代理系统中。“AI 做的”辩解越来越难以反驳。 问题在于依赖基于会话的身份验证和推断意图。解决方案是将授权视为一种一级对象——创建由人类签名的、可独立验证的“授权令”。这些加密对象精确定义了代理被允许做什么、持续多长时间以及在什么约束条件下。 像 Tenuo 这样的系统利用这些授权令,生成将人类授权与特定行动加密链接的“收据”。这使得责任从简单地记录事件转变为证明明确的授权,从而限制了潜在滥用的“爆炸半径”,并在发生事件时提供不可否认的证据。最终,依赖签名和约束比依赖提示工程或希望日志足以应对法律或监管审查,提供了一种更可靠的方法。

更多

联系我们 contact @ memedata.com