每日HackerNews RSS

LLM 评估器往往存在噪声,且与实际应用效果的相关性较差,因此在判断单个输出时(例如在生产环境的防护机制中)并不可靠。然而,对于模型选择或提示词优化等离线任务而言,这种噪声并非致命缺陷。 核心见解在于:**噪声会相互抵消**。在比较两个智能体时,评估器在单个输出上的偏差会在足够大的样本量下相互抵消。只要评估器不存在偏袒较差智能体的系统性偏差,其平均分就能可靠地识别出性能更优的版本。 在网格世界(Gridworld)、Wordle 和数据提取等多种任务的实证测试证实了这一点:尽管输出层面的相关性较低,但智能体层面的相关性却显著增强。在所有测试环境中,即使是存在噪声的评估器,也能成功识别出更好的智能体,其两两对比的胜率始终高于随机猜测。 **结论:** 从业者应区分输出层面的可靠性(生产环境防护所需)与智能体层面的可靠性(开发阶段所需)。只要评估数据集足够大,能够让信号从噪声中显现出来,即使是“有噪声”的评估器,也是用于离线模型选择和渐进式优化的有效工具。

抱歉。

为了确保备份可靠并加快工作流程,你可以使用本地“裸”(bare)仓库来托管自己的 Git 远程仓库。 设置方法如下:进入家庭服务器上的某个目录,运行 `git clone --bare /path/to/project`,即可创建一个专用于托管的仓库。之后,你可以通过以下命令将其添加为本地机器的远程仓库:`git remote add local ssh://USER@MACHINE:/path/to/bare/repo.git`。配置完成后,你就可以像操作其他远程仓库一样推送和拉取代码了。 这种方法具有多重优势:它为可能不稳定的异地服务器提供了一个高可用性的替代方案,降低了延迟,并能让你实现“两全其美”的设置——既保留了用于即时访问的本地远程仓库,又拥有用于冗余备份的异地副本。通过自建基础设施,你可以在享受更可靠开发流程的同时,保持数据独立于大型科技平台之外。

这个 Hacker News 讨论帖探讨了使用“本地” Git 远程仓库(即本地文件系统或网络共享路径)作为 GitHub 等云服务替代方案的实用性。 尽管一些用户认为本地远程仓库是多余的或浪费空间,但其他人强调了其具体的应用场景: * **工作流同步:** 开发者使用通过 Syncthing 或 Dropbox 等工具同步的本地裸仓库(bare repositories),在无需第三方托管的情况下保持多台工作站同步。 * **隔离与持续集成(CI):** 本地远程仓库支持“本地 CI”,开发者可将代码推送到单独的目录,以便在隔离容器(KVM/QEMU)中进行构建测试或运行自动化代理,而无需授予其对主项目的访问权限。 * **性能与隐私:** 这种方式提供了一种维护加密备份(使用 Rclone)的方法,无需管理凭据即可处理私有项目,或通过在多个本地克隆之间共享对象来节省磁盘空间。 * **可靠性:** 在上游服务不可用时,它能确保项目的连续性。 总而言之,该讨论强调了 Git 本身就是分布式的;将本地目录视为远程仓库是一项强大且未被充分利用的功能,适用于管理跨不同环境、局域网或受限沙箱的代码。

为了容纳罗马迅速增长的人口,该市首创了“因苏拉”(insula),即高密度、多层的公寓楼。这些建筑通常有数层高,底层为商铺,楼上为住宅单元。尽管它们代表了垂直居住方式的突破,却充满了隐患:居民面临着不稳定的结构风险、由劣质材料引发的频繁火灾,以及极差的卫生条件。 像克拉苏这样的富有企业家从这些危险状况中牟利,他们买下受火灾损毁的建筑进行翻修。公元64年罗马大火后,尼禄皇帝推行了强制使用防火材料的建筑规范,但风险依然存在。罗马人在混凝土方面的创新——将石灰与火山灰混合——最终实现了更耐用的建筑,这一点在港口城市奥斯提亚保存完好的因苏拉建筑中得到了印证。 尽管顶层单元通常狭窄、不舒适且缺乏自来水等基本设施,但因苏拉营造了一种充满活力、适合步行的城市文化。通过整合居住、商业和公共空间,它们为高密度生活创造了蓝图,这与现代城市中心不谋而合。尽管那个时代随着环境和经济的变迁而结束,但因苏拉依然是人类智慧的见证,展示了如何在受限、紧凑的建筑空间中解决住房短缺问题。

这条 Hacker News 讨论帖探讨了古罗马高密度居住的现实,重点关注了“因苏拉”(insulae,即公寓楼)。 参与者指出,这些建筑通常危险、狭窄且缺乏现代设施,是当时罗马城市密度的标准。讨论涵盖了几个关键主题: * **历史小说与媒体:** 用户推荐林赛·戴维斯(Lindsey Davis)的《法尔科》(Falco)系列和阿尔贝托·安吉拉(Alberto Angela)的作品,以获得对罗马日常生活的沉浸式了解。其他人则建议通过《遗忘之城》(The Forgotten City)和《刺客信条:探索之旅》(Assassin’s Creed: Discovery Tour)等游戏,以互动方式体验历史环境。 * **城市规划与分区:** 关于现代分区规划必要性的辩论随之展开。一些人认为限制性分区加剧了住房短缺和城市蔓延,而另一些人则认为这对于管理基础设施、公共卫生和灾害预防至关重要。 * **历史背景:** 参与者指出,城市高密度并非现代发明;前工业时代的城市往往在城墙内实现了高密度。然而,他们也承认,古城的浪漫化愿景与普通公民面临火灾、疾病和恶劣建筑条件等“人口陷阱”的严酷现实之间存在着巨大差距。

**aislop** 是一款开源的确定性工具,旨在捕获并清理 AI 代码助手经常生成的“垃圾内容”(slop),例如叙述性注释、被吞掉的异常、无效代码以及幻觉导入。虽然 AI 生成的代码可以通过测试和代码检查工具,但它们往往会随时间推移降低项目质量。 **主要功能包括:** * **质量评分:** 使用七种主流语言的 40 多条规则对代码进行 0–100 分的评分。 * **确定性分析:** 无需依赖大语言模型(LLM),确保结果一致,无需外部 API 调用,亦无延迟。 * **自动修复:** 自动解决琐碎问题(如未使用的导入、格式化等),并可直接与 Claude Code、Cursor 和 Gemini 等工具集成,在完整上下文下解决复杂问题。 * **支持 CI/CD:** 包含质量门禁,若代码质量低于预设阈值,可阻止合并。 * **易于使用:** 通过 `npx` 运行,无需安装,适用于任何项目,并支持自定义配置。 通过提供统一的质量门禁,aislop 可确保 AI 辅助的工作流保持整洁、可维护且专业。立即运行 `npx aislop scan` 开始使用。

抱歉。

伊拉克内政部已就曼陀罗(Datura,又称洋金花或魔鬼号角)在全国农田的入侵式蔓延发出紧急警告。虽然该植物含有有价值的药用生物碱,但对人类、动物和农作物具有剧毒。 该植物原产于中美洲,其在伊拉克的迅速扩张令科学家感到困惑。研究表明,曼陀罗具有独特的“即时适应潜能”,使其能够在各种环境中茁壮成长,从寒冷气候到伊拉克半干旱、富含氮的河岸地区均能适应。多年冲突导致的肥沃农田荒废以及农业疏于管理,进一步加剧了其蔓延。 伊拉克当局目前正开展全面的根除行动,通过利用杀虫剂、生物防治和公众宣传倡议进行治理。然而,专家警告称,该植物生命力极强,对全球生态系统构成持续威胁,并有进一步扩散至尚未被探索的温暖地区的可能。

维基媒体基金会(WMF)近期宣布解散其“社区技术”(Community Tech)团队。该团队此前一直致力于为维基百科的志愿者编辑开发各类所需工具。WMF 声称,此次重组旨在通过将技术职责分配给其他团队来消除工作瓶颈,但此举引发了编辑们的强烈不满,他们担心会因此失去与基金会之间的重要沟通桥梁。 由于受影响的员工此前据称参与了工会化运动,外界对“打压工会”的质疑进一步加剧了反弹。尽管 WMF 否认了相关指控,但社区正要求恢复该团队。不满情绪不断蔓延,已有超过 700 名编辑签署请愿书,表示愿意通过罢工进行抗议。 虽然正式的罢工方案仍在讨论中,但提议的行动包括屏蔽捐赠横幅或停止日常维护工作(如清理垃圾信息和更新条目等)。专家警告称,志愿者的停工可能导致维基百科的准确性和时效性迅速下降。鉴于维基百科作为互联网信息关键支柱以及 AI 模型训练源的重要性,贡献者们希望此次集体行动能迫使 WMF 重视其与维基百科站点背后志愿者之间的关系。

维基百科的资深编辑们正威胁要举行罢工,此前维基媒体基金会(WMF)近期决定裁撤其社区技术团队的成员。此举引发了强烈抵制,批评者认为维基媒体基金会是在报复工会化员工,并忽视了志愿者社区的需求。 这场潜在的罢工凸显了基金会的带薪员工与维持网站运营的无薪志愿者之间复杂的关系。虽然一些观察人士质疑志愿者罢工的有效性,但另一些人指出,这些贡献者执行着至关重要的、高技能的工作——例如巡查破坏行为和行政监管——平台很难轻易替代他们。 Hacker News 上的讨论也反映出有关维基百科编辑中立性和机构信任度的更广泛矛盾。尽管部分参与者认为罢工无效或支持对平台进行“硬分叉”,但也有人捍卫维基百科,认为它是依赖社区共识而非利润运作的重要且透明的资源。归根结底,这场抗议凸显了一个根本性的担忧:如果基金会与其志愿者群体之间的关系持续恶化,该平台是否还能维持其质量和完整性。

作者观察到,代理式代码生成往往绕过了短期记忆、工作记忆和长期记忆之间的相互作用,而这些认知过程对于真正掌握技能至关重要。依赖人工智能获取即时解决方案,类似于社交媒体令人上瘾的反馈循环,会导致“脑雾”而非真正的理解。 为了重新掌控并磨练技艺,作者主张在开发过程中重新“增加阻力”。通过刻意放慢速度,将认知投入置于速度之上。有效的策略包括: * 在寻求人工智能审查之前,先亲自编写初始代码。 * 将智能体作为教育工具,用于解释概念或比较架构方案。 * 执行“20分钟规则”,即在使用人工智能之前先独立尝试解决问题。 * 以传统学习方式补充数字工具,例如阅读学术论文和重新实现基础数据结构。 作者最终指出,编程的目标不应是寻求阻力最小的路径。为了精通开发,我们必须优先构建自己的思维基础,而非依赖模型的思维基础;简而言之,在这个过程中,人类在认知上应该比人工智能付出更多的精力。

对不起。

日本式的“过度设计”——即细致入微地解决哪怕最轻微的用户困扰——既令人忍俊不禁,又深受启发。百乐(Pilot)的“Kire-Na”荧光笔就是一个极佳的例子。百乐发现用户常受困于下笔力度不均和墨水渗漏问题,为此投入了长达六年的研发时间来寻求解决方案。 通过在斜切笔尖上增加小型塑料导向装置,百乐打造出了一款能自动调节角度与压力的荧光笔。结合其专利的超速干墨水,该产品消除了污损和渗墨现象,确保每次画出的线条都完美笔直。这种对完美的执着追求(包括曾将项目推倒重来)大获成功,上市首年销量便突破千万支。Kire-Na堪称工业设计的教科书,它展示了对“难以忍受”的用户体验痛点进行极致的关注,如何将平凡的日常用品转化为功能上的杰作。

对不起。

RM6237低值采购系统旨在简化小型企业的政府招标流程,但其中存在一个令人沮丧的官僚障碍:强制性的月度报告要求。即使企业当月零销售,也必须登录系统并完成多重身份验证,以提交一份“零申报”。 一份信息自由请求揭示了这种低效的真实规模。在2025年3月至2026年2月期间,该系统平均每月有超过1300名用户,然而其中约96%至97%的提交内容均为“零申报”。这意味着每月有超过一千家小型企业被迫浪费时间报告零业务。假设每次申报耗时两分钟,这每月总计造成了超过48小时的行政资源浪费。 作者认为,政府部门应当自行追踪支出情况,而不是将负担转嫁给供应商。更糟糕的是,政府商业机构声称他们并未针对RM6237收集用户反馈,这意味着他们既忽视了造成这一困境的根源,也未能衡量自身繁文缛节所带来的影响。

这次 Hacker News 的讨论聚焦于对政府过度官僚主义的挫败感,特别是针对英国的“低价值采购系统”(Low Value Purchase System)。用户们认为,要求小企业每月提交“零申报”(即使在没有销售额的情况下)纯属浪费时间,是行政摩擦不必要的典型案例。 讨论进而扩展到对全球政府系统的更广泛批评: * **无意义的官僚主义:** 许多评论者分享了关于伊利诺伊州税务系统难以操作的轶事(例如过路费支付问题、州级系统互不兼容等),以及毫无逻辑收益的重复性许可要求(如养犬证或电视执照)的荒谬之处。 * **采购障碍:** 供应商指出,政府的采购流程通常偏向大型成熟企业,通过复杂、昂贵且设计糟糕的投标要求,有效地将小型企业排斥在外。 * **系统性低效:** 一些人认为这些系统的存在是因为政府实体缺乏简化流程的动力,或者因为它们将罚款作为“利润中心”来运作。另一些人则认为,公务系统“表格优先”的心态将法律责任置于用户体验之上,这最终阻碍了创新并增加了纳税人的成本。

请启用 JavaScript 和 Cookie 以继续。

这篇 Hacker News 的讨论对广为流传的“郁金香狂热”叙事提出了批评,许多评论者认为这一事件被大大夸大了。参与者们指出,这并非一场广泛的心理狂潮,而是一小部分富人之间局部性的泡沫,且几乎没有历史证据表明其导致了灾难性的全民经济崩溃。 许多用户认为,“狂热”这一标签是一个方便的迷思,掩盖了政府政策或市场动态的作用。人们常将其与现代投机泡沫(如 NFT、豆豆娃和加密货币)进行比较,凸显出人类的一种反复出现的倾向:即一边参与类似的现代现象,一边将投机波动贴上“疯狂”的标签。 虽然有些人认为比特币等现代资产比郁金香球茎更具实用价值,但另一些人则认为所有此类泡沫都是由“博傻理论”驱动的。最终,该讨论帖达成共识:郁金香狂热的故事更多是一种文化隐喻,而非对经济灾难的准确历史记录,许多用户指出,投机周期仍然是人类社会的一个恒久特征。

更多

联系我们 contact @ memedata.com