每日HackerNews RSS

最近的苏黎世联邦理工学院(ETH Zurich)研究挑战了日益流行的使用`AGENTS.md`及类似上下文文件来辅助AI编码代理的做法。尽管已被广泛采用——超过6万个开源仓库使用它们——但研究表明它们常常*降低*性能。 研究人员使用一种新的基准测试,AGENTbench,测试了四种AI代理,发现自动生成的上下文文件实际上使任务成功率*降低*了3%,并使推理成本增加了20%以上。虽然人工编写的文件显示任务成功率略有4%的提升,但这伴随着步骤和成本的增加(高达19%)。 该研究表明,代理会认真遵循这些文件中的指令,导致不必要的测试和文件探索,而没有改善结果。关键结论是:简洁、与任务相关的指导优于广泛的仓库概述。开发者对此表现出兴趣,认为精心编写的`AGENTS.md`文件,专注于独特的领域知识*可能*是有价值的,并且编写文件本身的过程可以使人类开发者受益,从而明确代码库的细节。

黑客新闻 新的 | 过去的 | 评论 | 提问 | 展示 | 工作 | 提交 登录 新研究重新评估了Agents.md文件对AI编码的价值 (infoq.com) 6点 由 noemit 44分钟前 | 隐藏 | 过去的 | 收藏 | 2评论 帮助 noemit 37分钟前 | 下一个 [–] 研究主要表明LLM生成的上下文会降低性能。人工生成的上下文可以提高性能,但任何类型的AGENTS.md文件都会增加token的使用,他们认为这是“虚假的思考”。需要更多的研究。回复 verdverm 40分钟前 | 上一个 [–] 这项研究被标题和点击党严重误读了...如果做得好,AGENTS.md文件非常有帮助。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都接受并拥护我们的开放、社群、卓越和用户数据隐私等价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交 登录 SWE-CI:通过CI评估代理在维护代码库中的能力 (arxiv.org) 9点 由 mpweiher 18分钟前 | 隐藏 | 过去 | 收藏 | 1评论 帮助 verdverm 11分钟前 [–] 一个非常长期的任务基准测试,显示了非常近期的模型显著改进,同时也显示了所有模型的回归率非常糟糕。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

在新冠疫情初期,N95口罩供应短缺之际,一个关键的解决方案来自一个意想不到的地方:位于宾夕法尼亚州和西弗吉尼亚州的Braskem America的聚丙烯工厂。为了应对感染导致工厂停工的风险,八十名员工自愿在工厂内生活一个月,实行12小时轮班,与外界完全隔离,以确保持续生产用于口罩制造的关键塑料颗粒。 Braskem对志愿者支付全额工资——甚至包括睡眠时间,并提供一周带薪休假,吸引了比可用空间更多的申请者。值得注意的是,这种完全的工厂隔离似乎是独一无二的;虽然其他公司都在调整生产线以生产个人防护装备,但没有一家选择完全隔离员工。 为期28天的承诺产生了4000万磅的聚丙烯,足以生产约5亿个N95口罩。这个故事突显了创造性、基层解决问题的力量,并表明通过适当的补偿来激励这种奉献精神,可以在紧急情况下释放关键的解决方案。

这场 Hacker News 的讨论围绕着工人们似乎拒绝完成一项任务,除非获得超出正常工资的报酬。一位名为“littlestymaar”的评论者反驳了人们仅仅由金钱驱动的观点,认为公平和价值感往往比复杂的经济计算更能激励工人。他们认为人们经常在没有经济利益的情况下做出牺牲,并庆幸人类行为并不符合纯粹的微观经济模型。 另一位评论者“readthenotes1”分享了一个相关的故事,讲述了第一次海湾战争期间类似的问题,并链接到一篇详细描述该事件的文章。核心观点是挑战了金钱激励是人类工作和奉献精神的主要驱动力的假设。

## 使用Lab色彩空间评估色彩准确性 传统的RGB色彩空间并不适合评估色彩差异,因为相同的RGB值变化并不总是等同于相同的*感知*色彩变化。Lab色彩空间通过成为感知均匀的来解决这个问题——这意味着数值差异对应于视觉差异。Lab将色彩分离为亮度(L*)和色彩分量(a*和b*,分别代表绿-红和蓝-黄)。 色彩准确性使用Delta E (ΔE) 在Lab空间内进行测量,提供对色彩差异的客观评估。将图像从RGB转换为Lab涉及几个步骤:标准化RGB值,应用伽马校正,转换为XYZ色彩空间,最后,计算Lab值。 至关重要的是,这种转换依赖于选择一个“白点”——一个在特定光照下“白色”外观的参考(例如,D65代表日光,D50代表印刷)。像Python中的scikit-image这样的库简化了这个过程,提供直接将RGB转换为Lab的功能,指定照明和观察角度。这允许在不同设备和工作流程中实现一致且准确的色彩再现。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 从 RGB 到 L*a*b* 颜色空间 (2024) (kaizoudou.com) 11 分,来自 kqr 1 小时前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## Rust 的未来:安全性、效果和表达力 作者概述了 Rust 的“宏伟愿景”,专注于三个关键发展领域:改进对**效果**、**子结构类型**和**细化类型**的支持。这些进步旨在将 Rust 提升为最安全的生产级语言,甚至超越 Ada/SPARK。 **效果**建立在现有的“函数颜色”(const fn、async fn、try fn)之上,以提供关于函数行为更强的保证——例如确保没有 panic、终止、确定性或外部 API 调用。 **子结构类型**扩展了 Rust 现有的借用检查器(仿射类型——最多使用一次),并提供更严格的保证。**线性类型**(精确使用一次)可以防止内存泄漏,而**有序类型**则确保稳定的内存位置,从而提供更大的控制。新的 trait,如 `Move` 和 `Forget`,是解锁这些功能的关键。 最后,**细化类型**(特别是“模式类型”)旨在改变运行时检查与编译时安全性的权衡,尤其是在边界检查方面。这允许在不牺牲内存安全的情况下进行优化,并通过“视图类型”实现更具表现力的借用。 这些特性,以及编译器和生态系统的持续改进,代表了作者对使 Rust 异常安全和强大的热情。

## Rust 的未来:复杂性问题与增强类型安全的愿景 最近 Hacker News 上出现了一场关于 Rust 功能扩展提案的讨论,引发了关于该语言发展方向的争论。虽然 Rust 因其速度和内存安全而受到欢迎,但一些开发者担心它正变得过于复杂,类似于 C++ 中存在的问题。担忧包括不断增长的功能集、难以掌握的概念(如 async/tokio)以及现有功能之间不直观的交互。 然而,另一些人认为 Rust *需要* 更多的表达能力,尤其是在需要高类型安全的关键系统中。支持者指出 Rust 的版本系统可以管理复杂性,允许添加新功能而不会破坏现有代码。这场讨论凸显了简洁性和对强大类型系统(能够进行形式化验证)的渴望之间的紧张关系。 许多人同意,自动重写和更清晰的功能移除路径将是有益的。最终,争论的焦点在于 Rust 是否应该优先考虑精简的核心,还是拥抱高级类型理论,可能走上类似于 Scala 等语言的道路——一些开发者希望避免的道路。Rust 的应用场景正在扩展到利基应用之外,在后端服务和命令行工具中日益普及。

马尔科姆·考利在塑造战后美国文学方面发挥了关键作用,他提拔了非传统的声音。他成功地将杰克·凯鲁亚克的《在路上》和肯·克西的《飞越疯人院》带到维京出版社,使两位作者声名鹊起,并像菲茨杰拉德和海明威在1920年代一样,对1960年代产生了重大影响。 那个时代涌现出许多有影响力的犹太编辑——如克诺普夫和埃普斯坦——他们冒着风险发掘新作家,对文学认可拥有相当大的权力。然而,早期的叙述常常忽略了女性编辑的重要贡献。像凯瑟琳·S·怀特(《纽约客》)和朱迪斯·琼斯(克诺普夫)这样的人物积极培养了伊丽莎白·毕肖普、西尔维娅·普拉斯和茱莉亚·查尔德等作家,为那些经常被主流出版业边缘化的女性作家拓展了机会。 这些编辑并非完美无缺,但他们确实塑造了美国文学文化,突出了边缘人才,并促进了新声音的蓬勃发展。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 帮助构建美国文学黄金时代的编辑 (newrepublic.com) 3 分,samclemens 发表于 2 小时前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## Qwen3.5 LLM 总结 阿里巴巴的Qwen3.5是一个强大的、多模态LLM的新系列,提供多种尺寸——从较小的0.8B到巨大的397B参数模型。这些模型在编码、视觉、聊天和长文本任务方面表现出色,支持201种语言的256K上下文。 最近的更新包括改进的量化算法和数据,以提高在聊天、编码和工具调用方面的性能。35B和27B模型可以在22GB的设备上运行,而397B模型需要高达256GB的RAM,并采用优化的量化。 主要特性包括支持通过参数调节的“思考”和“非思考”模式,以及与llama.cpp和LM Studio的兼容性。Unsloth动态量化提供最先进的性能,并且有工具可用于使用llama-server部署Qwen3.5以供生产使用。基准测试显示出色的性能,量化版本即使在大幅减少内存的情况下也能保持高精度。

## Qwen 3.5:强大的LLM现在可以在本地运行 最近Hacker News上的讨论强调了Qwen 3.5大型语言模型的出色性能,特别是它在消费级硬件上有效运行的能力。 用户报告在ASUS 5070ti 16G上实现了约100 tokens/秒的速度,在速度和输出质量上都超过了许多在线LLM服务。即使是35B模型在8GB RTX 3050上也能良好运行,证明其在编码任务方面具有能力。 该模型在OCR和文本格式化等领域表现出能力,并且一个专门的“coder”版本正在成功地自动化HTML和CSS任务。虽然一些用户在使用旧GPU时遇到内存分配问题,但总体共识是Qwen 3.5代表着在可访问、高质量本地LLM操作方面迈出了重要一步。

2018年,作者就职于一家采用传统、孤立方式进行软件部署的公司。一个独立的“运维”团队负责生产环境,仅每两周部署一次代码——这对于数据科学团队发现的问题修复来说是一个主要瓶颈,该团队负责构建机器学习模型。修复部署通常取决于运维团队的可用性和运气。 作者面临的挑战是:模型在生产环境中出现故障,需要只有运维团队才能实施的更新。现有的流程极其手动,缺乏版本控制和代码审查。为了解决这个问题,作者发起了一项“DevOps”倡议,与工程和运维团队合作,构建了一个内部PyPi仓库,并使用Chef自动化部署。 这包括创建一个带有版本标记的可重复部署流程,并建立基本代码审查机制。该解决方案成功解决了客户问题,并凸显了一个根本性的转变:从一个专注于*保护*生产环境的运维团队,到一种优先*加速*开发并使生产环境具有弹性的现代平台工程方法,重点是开发者体验和快速迭代。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 十年生产环境部署经验 (brandonvin.github.io) 5 分,来自 mooreds 2小时前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

此网站正在使用安全服务来保护自身免受在线攻击。我们正在检查您的浏览器以建立安全连接并保护您安全。请启用JavaScript以继续。

## 赫斯廷斯战役的重要性 - 摘要 一场 Hacker News 的讨论集中在 1066 年赫斯廷斯战役的历史意义上,普遍认为“非常重要”。 这场战役导致诺曼人完全取代了英国贵族,从根本上改变了英国文化和语言——在诺曼征服之后,受到了法语的强烈影响。 评论员指出,诺曼人是强大的征服者,他们还占领了西西里岛,并几乎击败了拜占庭帝国。 虽然一些人争论战争的长期影响,认为政治变革往往被夸大,而社会影响并不那么显著,但大多数人认为赫斯廷斯战役对英格兰来说是独一无二的变革。 其他人指出了持久的影响,例如英国阶级制度就源于这一事件。 讨论还包括反事实情景——如果哈罗德获胜会怎样?——但普遍的观点是威廉的军队势不可挡。 讨论还涉及战争、投降以及文化认同在征服之后常常被忽视的韧性等更广泛的主题。

## 软件工程的未来:迫在眉睫的转变 一位软件工程师反思着快速变化的行业,将2021年的安全感和机遇与对未来的日益增长的不确定性形成对比。核心担忧是人工智能代理日益增强的能力,能够自动化软件开发任务,可能取代各层级的工程师。 作者承认这种讽刺——软件工程师构建了自动化他们自己工作的工具——并预计会转向监督人工智能的角色,或者可能完全离开该领域。虽然过去对行业衰落的预测被证明是错误的,但这次感觉不同,因为人工智能威胁到工作的核心。 考虑了两种情况:科技公司要么低估人工智能的潜力,并更长时间地依赖人类工程师,要么高估并争夺有经验的人才来管理人工智能生成的代码。然而,作者怀疑“杰文斯效应”——软件需求的增加抵消工作岗位的减少——会成立,因为人工智能在编写和维护代码方面都在迅速提高。 最终,作者表达了对先前稳定职业的失落感,同时也认识到技术颠覆的必然性。尽管希望被证明是错误的,但他们认为该行业正面临重大衰退,需要工程师适应或寻求新的职业。

一个 Hacker News 的讨论围绕着人工智能快速发展时代软件工程师的职业保障。最初的帖子表达了对他们职业未来的担忧,引发了一系列关于潜在职业转变的讨论。 许多评论者分享了类似的焦虑,指出人工智能擅长*编写*代码,但目前缺乏更广泛影响所需的组织和决策能力。一个关键点是,人工智能目前在由具有实施变革能力的人使用时才能发挥最佳效果。 讨论中的替代方案包括心理学(认为人际连接仍然至关重要)和创业。普遍的认识是,技术进步是无情的,不可避免地会扰乱就业市场,一些人认为十年时间在当前变革速度下是一个具有欺骗性的长期时间框架。总体基调是不确定性以及需要考虑未来可期的职业选择。

更多

联系我们 contact @ memedata.com