每日HackerNews RSS

## AI辅助编程:熟练度等级 人工智能的编程*能力*正在迅速提升,但要充分发挥其*益处*,需要培养有效利用它的技能。这种进步并非追求最高的SWE-bench分数,而是弥合人工智能*能够*做的事情与我们如何*应用*它之间的差距。 作者概述了**八个**AI辅助编程熟练度等级。它从基本的**代码补全**(等级1)等功能开始,逐步发展到利用AI驱动的IDE进行多文件编辑(等级2)。**上下文工程**(等级3)——优化提示的清晰度——至关重要,并演变为**复合工程**(等级4),将经验教训编码为未来会话的规则。 等级5-7通过**定制工具和技能**(MCPs)解锁显著收益,赋予人工智能访问数据库、API和测试框架的权限,并最终**编排后台代理**以自主处理任务。当前的边界,**等级8**,涉及完全自主的代理团队直接协调,但管理复杂性仍然存在挑战。 关键要点是,每一层都建立在上一层之上,通过改进的模型来放大收益。在团队范围内投资熟练度——确保每个人不会被速度较慢的同事拖累——至关重要。未来指向更自然的界面,如语音控制,但核心原则仍然是:迭代开发,由越来越强大和自主的人工智能代理提供支持。

最近一篇Hacker News上的帖子链接到一篇题为“代理工程等级”(bassimeledath.com)的文章,引发了评论区的讨论。文章试图将不同的AI代理工作方法进行分类,但评论员们大多批评这种等级划分的想法。 许多用户认为这种列表会助长不必要的“门槛主义”和负面情绪,并提倡根据个人需求和舒适度来选择工具和技术。一位评论员将其比作软件编译,认为高级控制最终应该由更强大的底层自动处理。另一些人指出,目前对“长上下文”的关注与“Oceania”(可能指一种特定的AI技术)等既定实践相符。 总体情绪倾向于反对等级观念,强调*最好*的方法不一定是*最高*等级,而是最能有效完成当前任务的方法。

## 从废墟中思考:摘要 本文探讨了被殖民和边缘化人民所经历的失败的持久影响,特别关注作者的伊朗巴赫蒂亚里族背景以及石油开采对其土地的影响。作者的父亲传授了一个重要的教训:以“坦然的面孔”面对不可避免的失败——一种保持脆弱和暴露的意愿,拥抱从苦难中获得的知识。 文章借鉴了弗兰茨·法农的作品,认为失败不仅仅是一种被动体验,而是理解世界的一个关键视角。这是那些历史上被殖民力量“摧毁”的人所共有的处境,也是产生独特知识和抵抗形式的催化剂。 作者将这一概念与卡尔巴拉悲剧和特立尼达的霍赛仪式等历史事件联系起来,展示了哀悼和纪念如何成为生存和政治行动的强大工具。最终,文章倡导一种“悲观的希望”——即使在不可能的情况下也要继续斗争——以及一种能够设想在系统性不公正的废墟之外的生活的激进想象力。因此,失败不是终结,而是批判性思考的一种方法和未来可能性基础。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 击败作为方法 (cabinetmagazine.org) 7 分,akbarnama 1小时前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## 开源机器学习的简单幻觉 一位大学教授的建议——“如果出现错误,那是你的错”——对于大多数软件来说是适用的,但在开源机器学习基础设施方面却不成立。作者在尝试廉价地对Kimi-K2-Thinking(一个拥有1万亿参数的模型)进行后训练时,亲身体验了这一点。尽管Hugging Face上有现成的模型,但一个可用的训练流程却出乎意料地难以实现。 最初使用LLaMA-Factory和Hugging Face的Transformers库的尝试充满了错误,从由于冗余量化导致的无法解释的压缩延迟,到需要一个特定的、未记录的PyTorch设置才能解决GPU内存管理问题。进一步的障碍包括GPU上的权重分布不均匀、LoRA与量化权重的不兼容,以及由于不可微分的MoE门而阻止训练的关键断言错误。 最终,作者实现了训练——尽管速度明显较慢且成本高于使用专用API——方法是绕过抽象层并直接解决底层问题。这次经历凸显了开源ML堆栈中隐藏的“债务”,错误可能潜藏在深层的依赖关系中。虽然开源旨在 democratize AI,但作者认为,构建可靠的基础设施通常需要放弃修补,转而拥抱定制开发。

一场 Hacker News 的讨论集中在大型语言模型 (LLM) 的“开放权重”是否真正符合“开源”的定义。oscarmoxon 的核心观点是,发布模型权重类似于分发编译后的二进制文件——可用且可检查,但无法像真正的开源软件那样从头开始重现或扩展。 这种区别很重要,因为真正的开源依赖于可重现性和民主化的迭代,需要访问*整个*训练过程。虽然训练的计算成本正在降低,但一个重要的隐藏成本在于扩展这些模型所需的未记录基础设施。 其他人指出,即使*编译*(训练)LLM 的源代码成本也很高,使得二进制编辑更实用。然而,即使不进行修改,访问训练数据和模型架构(“源代码”的等效物)也提供了好处,例如安全审计、理解偏差以及为有效的应用策略提供信息。

## Autonoma 的彻底转型:从头重写 经过 1.5 年的开发和多次转型(企业搜索、代码代理、质量保证测试),Autonoma 正在重建其产品,尽管最近获得了客户和资金。 核心原因? 最初的一个令人遗憾的决定,即为了速度而牺牲代码质量,放弃测试和严格的 TypeScript。 最初,“无测试”的方法对于小型团队来说是可行的,但迅速导致了充满错误且难以维护的代码库,最终导致失去了一个客户。 认识到造成的损害,Autonoma 现在正在采用测试驱动开发方法,并使用严格的 TypeScript。 这次重写还涉及重大的技术栈转变。 他们正在放弃 Next.js 及其存在问题的服务器动作——引用了异步行为、测试困难和全局顺序执行的问题——转而使用 React 与 tRPC 以及 Hono 后端,以提高效率和降低成本(将资源使用量从 8GB 降低到接近免费)。 编排由 Kubernetes 原生的 Argo 处理,因为它在管理复杂的状态化工作流方面具有可靠性和可扩展性。 虽然具有挑战性,但这种方法避免了像 useworkflow.dev 和 Temporal 这样较新的工作流工具的限制。 Autonoma 欢迎反馈,并计划在几周内发布新产品。

一篇 Hacker News 帖子详细描述了一位开发者放弃了 18 个月的工作并重新开始一个项目 (tompiagg.io)。讨论迅速转向批评,评论者对这种情况表示难以置信。 一个关键点是项目缺乏测试文化,被一位用户认为是“疯狂的”。其他人则将失败归因于 Node.js 生态系统中的问题,特别是缺乏像 Rails 或 Django 这样全面的框架。 该帖子还引发了关于领导力和能力的争论,一位评论员表示,鉴于反复失败和公开承认重大错误,他不会信任这位开发者领导项目。总体基调是对开发者方法和公开讨论项目崩溃的意愿的严厉批评。

## 民主化企业知识:企业上下文层 构建一个全面、自我更新的公司知识库——“企业上下文层”(ECL)—— 令人惊讶地是可以实现的。尽管围绕复杂解决方案(如知识图谱)存在炒作,但最近的实验表明,仅使用 1,000 行 Python 代码和一个 GitHub 仓库就能取得成功。 挑战在于超越简单的文档检索,去*理解*公司的细微差别:产品消歧、发布细节、内部流程和冲突信息。现有的解决方案难以实现这种整体视图。 关键在于使用 AI 代理映射组织的各个方面——产品、人员、流程——并且至关重要的是,为每个声明*引用来源*,创建一个可追溯、可验证的知识库。这种方法不追求可读性,而是追求准确性和上下文。 该实验涉及 20 个代理生成 6,000 次提交,跨 1,020 个文件,映射从客户旅程到功能标志清单的所有内容。 结果系统超越了现有的检索系统,甚至可以识别出最适合路由到专业团队的敏感问题。 这并非一个产品,而是一种实践——所有公司内部 AI 代理的基础层,由机器构建和维护,并且随着 LLM 的改进而日益普及。 未来设想将从定制 AI 代理转向利用共享的、机器维护的上下文层来获取所有组织知识。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 企业上下文层 (andychen32.substack.com) 11 分,来自 zachperkel 1 小时前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## “氛围编码员”的变现问题 当前人工智能驱动的创作工具的一个关键问题是,虽然它们赋能了一批新的“氛围编码员”——那些无需传统编程即可构建应用程序的个人,但它们常常使变现变得复杂且昂贵。这些创作者面临着大量的“金融科技细节”和高昂的订阅费用(成功的课程可能每年超过10万美元),仅仅为了处理支付和基本的业务功能。 作者建议从传统的SaaS定价模式转向**基于成果的收入分成**。平台(如Lovable)可以不收取月费,而是抽取创作者收入的一部分(5-30%),从而使双方的激励目标保持一致,实现共同成功。这种模式将解锁对关键基础设施的访问——简化的支付、订阅管理、支持——这些目前对许多创作者来说是难以企及的。 “Lovable合作伙伴计划”可以提供白手套服务,随着成功而扩展支持,甚至提供迁移协助。重要的是,这些服务将产生有价值的数据,为平台创造复利优势,并改进其为所有用户提供的服务。最终目标?赋能氛围编码员建立繁荣的企业,并有可能向创作者支付10亿美元。这种方法认识到,未来属于那些优先考虑无摩擦变现和共享成功的平台。

这场 Hacker News 讨论的核心是人工智能和代理工具的成果定价模式。发帖者链接了一篇文章,建议这些工具的价格应根据其交付的结果来确定。 一位名为“doctor_love”的评论者提出了一种激进的转变:一个平台,专注于奖励“氛围编码者”,并将其收益与他们的成功挂钩,可能旨在分配 10 亿美元。他们认为这能将平台增长与构建者的收入结合起来,但也承认公司最终会优先考虑收入,而不仅仅是客户的成功。 另一位用户质疑这种模式的可持续性,想知道提议者是否会将相同的“按绩效付费”结构应用于*他们*的客户,以及这样的系统最终会导致何处。这场对话凸显了真正分享成功与通过传统方法(例如无论用户结果如何都销售工具)来最大化利润之间的紧张关系。

几个世纪以来,人类通过神秘主义解释未知,然后过渡到科学——寻求像E=mc²这样简洁的解释。这对于可以分解为可理解部分的“复杂”系统来说效果非常好,但在气候变化或经济等真正“复杂”的系统中却失效了,因为这些系统的相互作用*创造*了行为。圣菲研究所几年前就意识到了这一点,发现了复杂系统中的模式,但缺乏*利用*这些知识的工具。 如今的AI,特别是大型语言模型,提供了一个突破。与之前的尝试不同,这些模型之所以*有效*,是因为它们能够容纳表示复杂性所需的大量数据——仅靠笔和纸是无法做到的。模型*就是*理论,尽管是一个庞大的理论。 虽然这似乎与简洁优雅理论的理想相矛盾,但这些模型的底层*架构*——例如Transformer——却非常紧凑,并展现了跨越不同领域的潜力。通过“机制可解释性”研究这些训练好的模型,可能会揭示压缩本身*内部*的基本真理,从而提供一种新的理解途径。这表明过去无法解决的问题并非无法解决,而是超出了我们的理论媒介。我们正在从寻求因果机制转向构建预测模拟,接受概率置信度而不是确定性输出——这是对复杂世界的一种新的认知方式。

一场在Hacker News上的讨论围绕着“数十亿参数理论”——复杂的模型,通常是大型神经网络——以及它们的大小是否真的*必要*来理解世界。 worldgov.org的初始帖子引发了争论,一些人认为更简单的理论通常可以有效地捕捉核心现象(以全球变暖为例)。另一些人则捍卫复杂模型的价值,指出它们在生物学等领域的应用,并承认圣菲研究所的贡献,尽管在实际应用方面存在挑战。 评论员还涉及了历史背景,指出连接主义模型部分是作为对乔姆斯基语言理论的回应而产生的。 进一步讨论的点包括降维技术简化复杂模型的潜力、我们的认知偏差对建模的影响,以及对过度依赖复杂解决方案可能导致忽视重要主题的担忧。 最终,这场对话质疑了追求“完美”知识是否 оправдывает 越来越复杂的理论方法。

启用 JavaScript 和 Cookie 以继续。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 微软Copilot更新劫持默认浏览器链接 (reclaimthenet.org) 21点 由miohtama 1小时前 | 隐藏 | 过去 | 收藏 | 1评论 帮助 stevenhubertron 31分钟前 [–] 我喜欢这篇文章,点击后劫持了我的浏览器,并弹出一个全屏广告来注册这个网站。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## MariaDB 12.3 向量搜索性能总结 最近由 MariaDB 基金会赞助,Small Datum LLC 执行的基准测试表明,与 MariaDB 11.8 相比,MariaDB 12.3 在向量搜索方面有了显著的性能提升。使用 dbpedia-openai-X-angular 数据集(100k、500k 和 1000k 规模)的测试表明,MariaDB 12.3 一致地实现了最佳的召回率与精确率结果。 值得注意的是,MariaDB 12.3 的性能提升在更大的数据集上*更为*明显。使用 `vmstat` 的分析表明,这些改进源于每个查询的 CPU 使用率降低。MariaDB 11.8 在这些测试中也优于使用 pgvector 0.8.1 的 Postgres 18.2。 基准测试是在配备 48 个核心和 128GB RAM 的强大 Hetzner 服务器上运行的,使用了自定义编译的数据库版本以确保结果准确。测试证实了数据缓存,将性能隔离到数据库引擎本身。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 MariaDB创新:向量索引性能 (smalldatum.blogspot.com) 8点 由 gslin 1小时前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## AI 代理与安全:贝尔蒙特家族的方法 AI 代理的兴起带来独特的安全挑战。作者以《恶魔城》作类比:代理如同德库拉,强大,由目标(奖励模型)驱动,却缺乏内在道德,并执着地追求这些目标。因此,安全专业人员就像贝尔蒙特家族——永无止境地战斗,无法真正*获胜*,但必须不断防御。 代理以简单的循环运作——重复地向大型语言模型(LLM)请求输出并执行。尽管业界努力增加了复杂性(规划、记忆、多代理系统),但核心问题依然存在:**非确定性**。代理可能会产生幻觉输入或陷入循环,而且关键在于,LLM API 和框架的碎片化缺乏标准化,阻碍了可靠的调试和安全保障。 作者强调,信任代理是一个错误。目前的防御措施不足,依赖“AI 赋能的防御”存在风险。相反,我们必须利用现有的安全工具——异常检测、断路器、强大的数据控制——将代理负载视为本质上不可信。 关键要点?虽然令人兴奋,但代理工作负载需要务实、纵深防御的方法。标准正在出现,但在它们到来之前,专注于成熟的安全实践对于“赢得每一场战斗”对抗这种不断演变的安全威胁至关重要。

一篇 Hacker News 的讨论强调了公司发生数据泄露后缺乏严重的后果。用户认为,目前的处罚——通常是少量罚款和一年的信用监控——不足以构成威慑,尤其是在泄露事件频发的情况下。一位评论员指出,鉴于多次泄露和与泄露公司间接的关系,信用监控往往效果不佳。 虽然声誉损害,例如 Solarwinds 的案例,*可能* 会影响股东价值,但其他人认为,即使是大型泄露事件(Adobe、Oracle、Rockstar)也往往未受到惩罚。人们普遍认为缺乏问责制,并有人建议公司预先为数据监控服务提供资金,只有在没有发生泄露事件时才能退款——或者他们的供应商没有泄露。总体基调表明,这是一个系统性问题,企业经营成本包括接受数据泄露风险。

更多

联系我们 contact @ memedata.com