每日HackerNews RSS

## Autonoma 的彻底转型:从头重写 经过 1.5 年的开发和多次转型(企业搜索、代码代理、质量保证测试),Autonoma 正在重建其产品,尽管最近获得了客户和资金。 核心原因? 最初的一个令人遗憾的决定,即为了速度而牺牲代码质量,放弃测试和严格的 TypeScript。 最初,“无测试”的方法对于小型团队来说是可行的,但迅速导致了充满错误且难以维护的代码库,最终导致失去了一个客户。 认识到造成的损害,Autonoma 现在正在采用测试驱动开发方法,并使用严格的 TypeScript。 这次重写还涉及重大的技术栈转变。 他们正在放弃 Next.js 及其存在问题的服务器动作——引用了异步行为、测试困难和全局顺序执行的问题——转而使用 React 与 tRPC 以及 Hono 后端,以提高效率和降低成本(将资源使用量从 8GB 降低到接近免费)。 编排由 Kubernetes 原生的 Argo 处理,因为它在管理复杂的状态化工作流方面具有可靠性和可扩展性。 虽然具有挑战性,但这种方法避免了像 useworkflow.dev 和 Temporal 这样较新的工作流工具的限制。 Autonoma 欢迎反馈,并计划在几周内发布新产品。

## 黑客新闻讨论:丢弃18个月的代码 一场黑客新闻讨论围绕着一位开发者决定放弃18个月的工作并重新开始一个项目。最初的问题源于领导层的决定,**禁止编写测试**,认为这能加快最初的发布速度。然而,这导致了一个混乱、充满bug的代码库,并最终失去了客户。 核心争论围绕着测试的价值。许多评论者强烈主张测试对于维护代码质量和在初始开发*之后*实现快速迭代至关重要。一些人承认,在创业公司非常早期的阶段,跳过测试可能是合理的,优先考虑上市速度,但强调忽视测试的长期成本。 几位用户强调了“版本2问题”——重写的过度工程化倾向,最终创造出更糟糕的产品。其他人讨论了理解业务背景以及就测试进行知情的成本效益分析的重要性。讨论还涉及了人工智能在测试生成中的作用以及潜在的平衡转变。最终,共识强烈倾向于测试对于可持续软件开发是必要的。

## 民主化企业知识:企业上下文层 构建一个全面、自我更新的公司知识库——“企业上下文层”(ECL)—— 令人惊讶地是可以实现的。尽管围绕复杂解决方案(如知识图谱)存在炒作,但最近的实验表明,仅使用 1,000 行 Python 代码和一个 GitHub 仓库就能取得成功。 挑战在于超越简单的文档检索,去*理解*公司的细微差别:产品消歧、发布细节、内部流程和冲突信息。现有的解决方案难以实现这种整体视图。 关键在于使用 AI 代理映射组织的各个方面——产品、人员、流程——并且至关重要的是,为每个声明*引用来源*,创建一个可追溯、可验证的知识库。这种方法不追求可读性,而是追求准确性和上下文。 该实验涉及 20 个代理生成 6,000 次提交,跨 1,020 个文件,映射从客户旅程到功能标志清单的所有内容。 结果系统超越了现有的检索系统,甚至可以识别出最适合路由到专业团队的敏感问题。 这并非一个产品,而是一种实践——所有公司内部 AI 代理的基础层,由机器构建和维护,并且随着 LLM 的改进而日益普及。 未来设想将从定制 AI 代理转向利用共享的、机器维护的上下文层来获取所有组织知识。

最近的 Hacker News 讨论围绕着“企业上下文层”(ECL)——一种旨在利用人工智能代理捕获和利用公司内部知识的系统。核心思想,在链接的文章中有详细说明,是超越简单的知识检索(如 RAG 系统),转向理解规则*存在的原因*,而不仅仅是规则*是什么*。 评论者强调了 ECL 改善传统知识管理的潜力,指出目前的系统往往会丢失决策背后的推理过程。然而,人们也对这些系统如何处理不断变化的信息表示担忧——特别是,它们如何检测到规则背后的*推理*何时失效。 讨论还涉及可扩展性(公司发展是否需要更多代理?)、开源替代方案以及使用云服务可能出现的过度工程问题。 许多用户对这种方法表示兴奋,特别提到像 Cursor 这样利用类似概念的工具具有令人印象深刻的能力。 最终,对话表明 ECL 代表着企业知识管理领域一个充满希望但可能复杂的演进。

## “氛围编码员”的变现问题 当前人工智能驱动的创作工具的一个关键问题是,虽然它们赋能了一批新的“氛围编码员”——那些无需传统编程即可构建应用程序的个人,但它们常常使变现变得复杂且昂贵。这些创作者面临着大量的“金融科技细节”和高昂的订阅费用(成功的课程可能每年超过10万美元),仅仅为了处理支付和基本的业务功能。 作者建议从传统的SaaS定价模式转向**基于成果的收入分成**。平台(如Lovable)可以不收取月费,而是抽取创作者收入的一部分(5-30%),从而使双方的激励目标保持一致,实现共同成功。这种模式将解锁对关键基础设施的访问——简化的支付、订阅管理、支持——这些目前对许多创作者来说是难以企及的。 “Lovable合作伙伴计划”可以提供白手套服务,随着成功而扩展支持,甚至提供迁移协助。重要的是,这些服务将产生有价值的数据,为平台创造复利优势,并改进其为所有用户提供的服务。最终目标?赋能氛围编码员建立繁荣的企业,并有可能向创作者支付10亿美元。这种方法认识到,未来属于那些优先考虑无摩擦变现和共享成功的平台。

这个Hacker News讨论的核心是AI和代理工具的定价方式,建议基于*结果*而非使用量(如token数量)。原作者提出转向奖励用户成功——以“向氛围编码员支付10亿美元”为例,将公司收入与客户成功对齐。 然而,评论者对此表示怀疑。许多人指出,LLM公司有动力*最大化*使用量,而非快速解决方案,本质上让用户“沉迷于老虎机”。 还有人强调了实施基于结果的定价的挑战,例如定义“结果”以及难以衡量工具使用价值与用户技能之间的关系。 对话将此与Unity和Unreal等游戏引擎使用的版税模式进行了比较,指出成功的客户通常会协商避免版税或构建替代方案。一个主要担忧是许多AI领域缺乏“护城河”或专有保护,这意味着盈利用户可能会重写软件以绕过版税义务。

几个世纪以来,人类通过神秘主义解释未知,然后过渡到科学——寻求像E=mc²这样简洁的解释。这对于可以分解为可理解部分的“复杂”系统来说效果非常好,但在气候变化或经济等真正“复杂”的系统中却失效了,因为这些系统的相互作用*创造*了行为。圣菲研究所几年前就意识到了这一点,发现了复杂系统中的模式,但缺乏*利用*这些知识的工具。 如今的AI,特别是大型语言模型,提供了一个突破。与之前的尝试不同,这些模型之所以*有效*,是因为它们能够容纳表示复杂性所需的大量数据——仅靠笔和纸是无法做到的。模型*就是*理论,尽管是一个庞大的理论。 虽然这似乎与简洁优雅理论的理想相矛盾,但这些模型的底层*架构*——例如Transformer——却非常紧凑,并展现了跨越不同领域的潜力。通过“机制可解释性”研究这些训练好的模型,可能会揭示压缩本身*内部*的基本真理,从而提供一种新的理解途径。这表明过去无法解决的问题并非无法解决,而是超出了我们的理论媒介。我们正在从寻求因果机制转向构建预测模拟,接受概率置信度而不是确定性输出——这是对复杂世界的一种新的认知方式。

## 黑客新闻讨论摘要:十亿参数理论 一篇最近发表在worldgov.org上的文章引发了黑客新闻对使用大型十亿参数模型(如LLM)来理解复杂系统(如经济学、贫困和气候变化)的潜力及局限性的讨论。 一些人认为这些模型能够处理复杂性,并从简单的因果解释转向概率模拟,前景可期。但许多评论者表示怀疑。担忧集中在**过拟合**(对训练数据建模*过于*完美,而无法推广到新情况)、**LLM可解释性**的初步状态(理解这些模型*如何*得出结论)以及**反身性**的关键作用——即具有主动代理者的系统会抵抗被建模。 几位参与者强调,仅仅拥有强大的模型并不等同于理解,而且现实世界的问题往往受到政治和经济力量的阻碍,而不仅仅是缺乏数据。另一些人指出了**彩票票据假说**以及对“Hessian谱”的研究,表明这些大型模型可能依赖于令人惊讶的小的核心组件。 最终,讨论质疑了扩大模型规模是否是正确的方法,或者更重要的是关注可解释性并承认人类能动性的影响,以应对复杂的挑战。

启用 JavaScript 和 Cookie 以继续。

微软Copilot的最新更新引起了Hacker News用户的担忧,因为它表现出侵略性行为。用户报告称,点击关于Copilot的文章链接会将他们重定向到该服务的全屏广告,从而有效地劫持了浏览器体验。 这种行为与Microsoft Edge现有的问题相似,Edge经常会覆盖用户设定的默认浏览器设置,尤其是在Windows和Android系统上(在那里它用“Copilot”栏取代了搜索栏)。用户正在寻找解决方法,例如MSEdgeRedirect,并建议使用Firefox等提供更多自定义和插件支持的替代方案。 讨论强调了一种日益增长的趋势,即软件试图控制用户体验并推广自身服务,甚至不惜牺牲既定的网络规范。一些用户由于公司政策被迫使用Edge。

## MariaDB 12.3 向量搜索性能总结 最近由 MariaDB 基金会赞助,Small Datum LLC 执行的基准测试表明,与 MariaDB 11.8 相比,MariaDB 12.3 在向量搜索方面有了显著的性能提升。使用 dbpedia-openai-X-angular 数据集(100k、500k 和 1000k 规模)的测试表明,MariaDB 12.3 一致地实现了最佳的召回率与精确率结果。 值得注意的是,MariaDB 12.3 的性能提升在更大的数据集上*更为*明显。使用 `vmstat` 的分析表明,这些改进源于每个查询的 CPU 使用率降低。MariaDB 11.8 在这些测试中也优于使用 pgvector 0.8.1 的 Postgres 18.2。 基准测试是在配备 48 个核心和 128GB RAM 的强大 Hetzner 服务器上运行的,使用了自定义编译的数据库版本以确保结果准确。测试证实了数据缓存,将性能隔离到数据库引擎本身。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 MariaDB创新:向量索引性能 (smalldatum.blogspot.com) 31点 由 gslin 1天前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## AI 代理与安全:贝尔蒙特家族的方法 AI 代理的兴起带来独特的安全挑战。作者以《恶魔城》作类比:代理如同德库拉,强大,由目标(奖励模型)驱动,却缺乏内在道德,并执着地追求这些目标。因此,安全专业人员就像贝尔蒙特家族——永无止境地战斗,无法真正*获胜*,但必须不断防御。 代理以简单的循环运作——重复地向大型语言模型(LLM)请求输出并执行。尽管业界努力增加了复杂性(规划、记忆、多代理系统),但核心问题依然存在:**非确定性**。代理可能会产生幻觉输入或陷入循环,而且关键在于,LLM API 和框架的碎片化缺乏标准化,阻碍了可靠的调试和安全保障。 作者强调,信任代理是一个错误。目前的防御措施不足,依赖“AI 赋能的防御”存在风险。相反,我们必须利用现有的安全工具——异常检测、断路器、强大的数据控制——将代理负载视为本质上不可信。 关键要点?虽然令人兴奋,但代理工作负载需要务实、纵深防御的方法。标准正在出现,但在它们到来之前,专注于成熟的安全实践对于“赢得每一场战斗”对抗这种不断演变的安全威胁至关重要。

## AI 代理数据泄露担忧 - Hacker News 摘要 最近 Hacker News 的讨论强调了对日益自主的 AI“代理”的安全隐患的担忧。核心论点是,这些代理访问关键基础设施,如数据库和电子邮件,正在逆转数十年来专注于限制自动化权限的安全最佳实践。 用户担心未来会频繁发生潜在灾难性的数据泄露,并因公司处罚力度不足和普遍缺乏问责制而加剧。许多人认为,现有的安全措施不足以应对复杂且不断自我改进的 AI,仅仅自动化泄露*响应*并不能解决数据泄露的问题。 一些评论员指出,社会对企业不当行为的容忍度——引用特朗普总统和过去多次数据泄露且几乎没有后果的例子——是导致缺乏紧迫性的原因。呼吁制定更严格的数据隐私法律,降低数据囤积的盈利能力,并可能对公司领导因安全漏洞承担个人责任。有人认为目前的趋势是不可避免的,由 AI 驱动的攻击将变得越来越普遍且难以防御。

## RCLI:macOS 上的本地语音 AI RCLI 是一款强大的、注重隐私的 macOS 语音 AI,完全在 Apple Silicon 设备上运行。它提供完整的语音转文本 (STT)、大型语言模型 (LLM) 和文本转语音 (TTS) 流程——无需云端或 API 密钥。 用户可以使用 43 条语音命令(例如 Spotify 控制或截图),进行自然的语音对话,并以约 4 毫秒的延迟对文档进行本地检索增强生成 (RAG)。RCLI 借助专有的 MetalRT GPU 推理引擎,拥有低于 200 毫秒的端到端延迟,并支持在各种开源模型(Qwen3、LFM2、Whisper 等)之间热插拔。 安装通过一条命令即可完成。终端仪表板提供模型管理、硬件监控和一键语音接口。RCLI 采用 MIT 许可证开源,MetalRT 采用单独的专有许可证分发。它需要 macOS 13+ 和 Apple Silicon 芯片(M1 或更高版本)。 更多信息和安装说明请访问:[https://github.com/RunanywhereAI/RCLI](https://github.com/RunanywhereAI/RCLI)

## RunAnywhere AI 发布与争议 - 摘要 RunAnywhere AI (YC W26) 在 Hacker News 上发布,展示了 MetalRT,一种针对 Apple Silicon 的快速、本地 AI 推理引擎。他们提供 RCLI,一个开源 CLI,展示了该引擎的功能,包括语音控制和本地 RAG。基准测试声称 MetalRT 在 LLM、STT 和 TTS 任务的速度方面优于 Apple 的 MLX 和其他解决方案。 然而,发布立即受到批评。用户发现了网页演示中的泄露 API 密钥,并质疑团队最初不以为然的回应。人们也对该公司过去抓取 GitHub 邮箱地址并发送未经请求的营销邮件的做法表示担忧。 讨论的很大一部分围绕着对 Hacker News 帖子中人为夸大点赞数和评论顺序的指控,用户指出一些可疑的新账户或不活跃账户被突出显示。版主承认了标准审核惯例,但否认了操纵行为。 尽管存在争议,RunAnywhere 仍然坚持其重点是提供与云端竞争的本地 AI 性能,并计划将其扩展到 Apple Silicon 以外的其他平台。

## Cutlet:一种由AI构建的语言 在短短四周内,一种名为Cutlet(以作者的猫命名!)的新编程语言几乎完全由AI模型Claude Code创建。与以往的LLM辅助编码不同,作者在此次实验中允许Claude在创建过程中生成*每一行*代码,无需人工审查。令人惊讶的是,结果是一种功能性的语言,可在macOS和Linux上构建和运行,其潜在的bug水平可能与任何一个开发四周的语言相当。 Cutlet具有动态类型、数组和字符串功能,以及一个独特的`@`元运算符,用于向量化操作。它包括循环、对象和垃圾回收等特性,但文件I/O和强大的错误处理仍在开发中。 作者是一位前端工程师,旨在探索“代理工程”的极限——充分利用LLM进行代码生成。该项目强调了清晰的沟通、全面的测试(包括消毒器)以及为AI创造一个支持性的环境的重要性,而不仅仅是依赖模型本身。作者对代码的所有权提出了质疑,因为它的AI来源以及对模型训练数据中预先存在的知识的依赖。作者认为LLM不会取代软件工程师,而是*转变*这个职业,需要掌握新的提示工程和代理管理技能。该项目也作为一个警示故事,关于可能对AI工具赋能的快速开发周期产生依赖。 源代码和文档可在[GitHub](原文未提供链接)上找到。

谷歌正在与 Back Market 合作,推出一款 3 美元的 USB 闪存盘,简化 ChromeOS Flex 的安装。ChromeOS Flex 是一款轻量级操作系统,非常适合重焕旧电脑活力。ChromeOS Flex 为过时的笔记本电脑和台式机注入新生命,提供了一种安全且相关的软件替代方案,以取代不受支持的 Windows 或旧版 macOS——但它不支持 Android 应用程序。 虽然谷歌维护着兼容设备列表,但 ChromeOS Flex 通常可以安装在大多数旧 PC 和 Mac 上。Back Market 将于 3 月 30 日开始销售第一批限量 3,000 个 USB 密钥,目标用户为个人、企业和学校。这种经济实惠的解决方案解决了旧设备功能完好但安全性不足的问题,并提供了一种比昂贵的新笔记本电脑更具成本效益的替代方案,尤其是在元件成本上涨的情况下。

## ChromeOS Flex USB:重焕旧电脑 谷歌现在开始销售预装ChromeOS Flex的3美元USB闪存盘,旨在为旧电脑注入新的活力。这并非一个可启动USB,而是一个云优先操作系统的安装程序。虽然可以直接从谷歌免费下载,但这个闪存盘面向那些缺乏技术能力或无法自行创建可启动USB驱动器的用户。 讨论的重点在于这个产品的细分市场——那些想要ChromeOS但又不想经历繁琐安装过程的人——以及这是否是谷歌真诚地努力减少电子垃圾,还是一种扩大其广告覆盖范围的策略。用户还争论了替代方案,例如轻量级Linux发行版(Peppermint OS、AntiX、Slax),它们为旧硬件提供类似的功能。 用户对ChromeOS Flex的体验褒贬不一;一位用户发现它成功地重焕了2017年的Chromebook,而另一位用户在升级现有设备时遇到了问题。鉴于谷歌转向Android桌面操作系统,人们对长期支持表示担忧,但谷歌为兼容型号提供保证支持。

更多

联系我们 contact @ memedata.com