每日HackerNews RSS

这位软件工程师认为工作中令人沮丧的方面是重复性的“打字练习”代码——例如大量的错误处理、管理众多数据类型和属性传播。然而,最近的进步,特别是人工智能驱动的工具,正在显著改善体验。 这位工程师利用人工智能来*生成*测试,设计可测试的架构并提供初始示例来指导人工智能。虽然通常信任人工智能的代码生成,但他们仍然对复制粘贴功能持谨慎态度,担心大型语言模型引入的微妙且难以检测的错误。 总的来说,这位工程师对这些新工具感到兴奋,它们正在自动化软件开发中最繁琐的部分,让他们能够专注于更具吸引力和智力刺激性的任务。他们认为这是职业生涯中的一个重大积极转变。

## micasa:从终端进行家庭管理 micasa 是一款基于终端的用户界面,旨在帮助您跟踪家庭的*所有*信息——维护、项目、电器、供应商等等——全部存储在一个 SQLite 文件中。它是一个注重隐私的云端解决方案替代品,无需账户或订阅。 忘记堆积如山的收据吧!micasa 允许您安排维护(例如熔炉滤网更换),管理从开始到结束的项目,比较报价,跟踪电器保修,记录事件(例如泄漏),并存储重要文件。 使用 Go 安装很简单,并且适用于大多数操作系统的二进制文件都可用。该界面由键盘驱动,灵感来自 VisiData,提供高效的导航、编辑和数据过滤。 本质上,micasa 旨在用集中化、可访问且安全的家庭管理系统取代分散的笔记和被遗忘的信息,所有这些都在您的终端中。

## Micasa:从终端追踪您的家 Micasa 是一款新的终端 UI 应用程序,旨在帮助用户在一个 SQLite 文件中追踪房屋维护、项目及其他相关信息——无需云服务、账户或订阅。这款应用由一位开发者创建,他厌倦了在笔记应用中丢失任务记录,Micasa 旨在提供一种简化的方式来管理从洗碗机滤网清洁到大型装修报价的一切。 该项目值得关注的一点是,它几乎完全由 AI 代理编写,开发者主要负责审查和合并代码。主要功能包括 Vim 风格的模态 UI、本地 LLM 聊天(可选)以及一个单文件数据库,方便备份。 虽然承认存在像电子表格或现有的房屋管理应用程序这样的替代方案,但开发者强调了专注于终端的解决方案的吸引力,以及利用 AI 辅助构建一个有用的个人项目的独特挑战。该项目因其巧妙的设计和实际应用而备受关注。

本报告详细介绍了 Gemini 3.1 Pro 的安全评估,评估依据是该组织的“前沿安全框架”(FSF)。FSF 利用五个关键风险领域(CBRN、网络安全、有害操控、机器学习研发和目标不一致)进行严格测试,以防止模型达到“关键能力水平”(CCLs)。 Gemini 3.1 Pro,包括其“深度思考”模式,经过了全面评估。结果表明,该模型目前在所有五个风险领域均*低于*警戒阈值。虽然之前的模型触发了网络安全风险的警报,但 Gemini 3.1 Pro 通过了额外的网络安全测试,证明了该领域持续的安全性能。 该策略依赖于通过持续、定期的测试和评估,以及由重大能力提升触发的评估,来实现“安全缓冲”。有关评估流程和已实施的安全措施的更多详细信息,请参阅完整的 Gemini 3 Pro 前沿安全框架报告。

## Gemini 3.1 Pro:摘要 Google 的 Gemini 3.1 Pro 现已发布,在 SVG 生成和编码等复杂任务方面优于 Gemini 3 Pro。用户报告该模型擅长提供详细回复,并利用 Google 搜索集成提供全面信息。定价保持不变,输入 2 美元/百万 token,输出 12 美元/百万 token。 然而,一些用户发现 Gemini 的输出过于冗长和“乐于助人”,即使在明确指示不要的情况下也会添加不需要的重构或注释。虽然在知识和视觉任务(例如根据提示创建图像——一只有脚踏车的鹈鹕是一个流行的测试!)方面表现出色,但目前在代理工作流程和工具使用方面落后于 Opus 4.6 等竞争对手。 尽管存在这些限制,Gemini 3.1 Pro 在 Terminal-Bench 2.0 和 Artificial Analysis 的 Intelligence & Coding Indexes 等基准测试中取得了领先的性能。Google 的营销受到批评,但此次更新代表着一个重要的进步,特别是对于 Google 生态系统内的用户,因为捆绑了存储和工作空间访问等服务。人们仍然担心该模型的未来能力可能会被“削弱”。

Google Cloud Console 无法加载来自 www.gstatic.com 的 JavaScript 资源。可能原因:您的网络管理员阻止了 www.gstatic.com 或其 IP 地址;Google 由于过多的自动化请求暂时阻止了您的帐户或网络。请联系您的网络管理员寻求帮助。

## PlanetScale 的零停机数据库迁移方案 数据库迁移通常令人担忧,因为它可能导致停机、数据丢失和成本增加。PlanetScale 通过一种专为大规模(太字节到拍字节)迁移设计的流程来应对这些挑战,*无需*停机。 他们的方案包括对现有数据库进行一致快照,然后持续复制更改到新的 PlanetScale 数据库。一个“VDiff”流程会在将应用程序流量逐步转移到 PlanetScale 之前验证数据完整性,同时仍然将查询路由回原始数据库进行测试。这允许进行彻底的验证,并且至关重要的是,如果出现问题可以立即回滚到旧系统。 该流程利用 Vitess 的 VReplication 进行数据复制和更改复制。成功的关键是在最终切换期间缓冲查询(持续时间小于一秒),并保持反向复制以实现无缝回滚。PlanetScale 还建议在迁移期间对数据库进行分片,以提高可扩展性。 最终,PlanetScale 的方案优先考虑平滑、无风险的过渡,允许用户升级、分片或切换数据库系统,而不会中断服务。他们旨在分享这些实践,以使更广泛的数据库社区受益。

## AI 代理:真实世界应用早期洞察 最近一项分析与 Anthropic 的 Claude Code 和公共 API 数百万次交互的研究揭示了人们实际如何使用 AI 代理。该研究强调了代理自主性日益增长的趋势——与 Claude Code 的最长会话长度在三个月内几乎翻倍,表明现有模型能够进行更独立的运作。 经验丰富的用户越来越多地赋予代理更多自由(自动批准操作),但也会在需要时积极监控和干预。有趣的是,代理本身经常会暂停以寻求澄清,通常比人类打断它们的频率*更高*。 虽然目前大多数代理活动集中在软件工程领域,并涉及低风险任务,但其使用正在扩展到医疗保健、金融和网络安全等敏感领域。尽管这些高风险部署尚未广泛普及,但该研究强调了对部署后进行稳健监控以及开发新的“人机交互范式”的必要性。 研究结果表明,有效的监督并非在于批准每一个操作,而是要确保人类能够在必要时进行干预。进一步的研究至关重要,以了解代理如何演变,并开发平衡自主性与负责任部署的保障措施。这些早期数据强调了代理行为是由模型、用户和产品设计共同构建的。

## 黑客新闻讨论:衡量人工智能代理自主性与机器人问题 Anthropic 最近发布的一篇关于衡量人工智能代理自主性的博客文章,在黑客新闻上引发了热烈讨论。文章重点关注追踪“回合时长”——人工智能在任务上花费的时间长度——作为衡量自主性的指标,并指出 2025 年 10 月至 2026 年 1 月之间,99.9 百分位数时长显著增加。 然而,许多评论者质疑该指标的有效性,并提出了对数据选择性、样本量小以及任务时长是否真正等同于自主性的担忧。一些用户报告了模型性能的波动,暗示 Anthropic 可能会出于成本原因调整能力。 对话的重要部分集中在黑客新闻网站上机器人数量的激增。用户识别出表现出机器人行为的可疑账户,向网站倾倒垃圾信息。人们担心这些机器人可能正在收集数据或为未来的恶意活动做准备。 许多评论者呼吁改进机器人检测方法,甚至建议对用户进行“沃伊特-坎普夫”测试。 最后,关于 Anthropic 数据收集实践的隐私问题也浮出水面,尤其是在其“克里奥”系统以及提供的匿名化程度方面。

2022年1月17日,我刚读完奥利弗·萨克斯的精彩著作《万物就位》。书中他提到,银杏树已有数亿年历史,其表型自那时起几乎没有改变——活化石。当然,这种树就是结银杏果(ぎんなん)的,银杏果是东亚的一种美食,常见于许多菜肴中,例如茶碗蒸。银杏的历史比恐龙还要久远!而且我们现在还在吃它!这太酷了。这让我开始思考——今天我们食用的最古老的食物是什么?标准:必须可供人类食用;自化石时代以来,形态没有改变。注:我只是一个业余爱好者,不是古植物学家。欢迎大家补充和修改,如果我分类错误或遗漏了什么。

## 恐龙食物:黑客新闻摘要 黑客新闻上最近的一篇帖子讨论了一篇文章,该文章详细介绍了今天仍在食用的食物,其起源可以追溯到一亿多年前。 这番讨论引发了关于文章中物种年龄主张准确性的争论,特别是关于地衣和“形态未变”的定义。 用户指出,由于进化和不完整的化石记录的复杂性,很难确定物种的年龄。 讨论范围从盐和水等古老主食的起源,到更晦涩的例子,如莲藕、银杏,甚至泥土(土食症)。 许多评论者分享了他们对这些食物的个人经历,并注意了食用区域的差异。 该帖子还涉及了一些“古老”食物的潜在毒性,例如银杏果和人参,以及食物来源的进化历史,包括现在已灭绝的巨型动物在种子传播中的作用。 最终,该帖子突出了古生物学、植物学和烹饪历史的迷人交汇点。

启用 JavaScript 和 Cookie 以继续。

## 随机性能改进科学理论吗? 一项最新研究出人意料地表明,*随机*的实验选择可能比基于现有知识驱动的方法产生更好的科学理论。该研究使用一个简化的科学模型,涉及寻找隐藏的高斯分布,发现随机抽样优于理论指导的实验,尤其是在高维度情况下。 然而,评论员提出了一些关键点。该模型过于简化——现实世界的问题,例如绘制分子构型,要复杂得多,而随机搜索很快就会变得不切实际。 还有人指出,许多成功的发现源于有针对性的研究(例如抗生素、晶体管和脊髓灰质炎疫苗),并强调了科学家专业知识和诚信的重要性。 这场讨论凸显了科学中定向探索和非定向探索之间的张力。虽然随机方法可以发现意想不到的结果(例如哈勃深空场),但复制和证伪仍然至关重要。 一些人建议采取平衡的方法——在有针对性的研究之外,随机抽样一部分可能的实验空间,从而“注入意外性”。 最终,争论的中心在于科学是更受益于系统地检验假设,还是拥抱一定程度的偶然性。

## 大型语言模型实用指南:摘要 《大型语言模型实用指南》是一本面向分析师和数据科学家,介绍如何使用Python将大型语言模型整合到工作流程中的实践教程。本书共354页,涵盖了来自主要供应商(OpenAI、Anthropic、Google和AWS Bedrock)的基础模型的实际应用,超越理论,专注于*如何*使用它们进行构建。 读者将学习API调用、结构化输出生成(使用JSON、XML和YAML),以及诸如检索增强生成(RAG)等技术,并结合各种向量数据库(OpenAI、AWS S3、Google BigQuery)。本书还探讨了工具调用、模型上下文协议(MCP)和构建智能体等高级概念。 本书的独特之处在于它涵盖了由大型语言模型驱动的编码工具,如GitHub Copilot、Claude Code和Google的Antigravity,并提供了实用的设置和使用示例。尽管承认大型语言模型领域的快速发展,本书仍能为理解核心原理和构建实际应用提供坚实的基础,即使示例侧重于犯罪学,但可应用于各个领域。 本书有平装本(59.99美元)和epub版本(49.99美元),包含超过250个代码片段和80张截图,前60页提供免费PDF预览。

## 弥补遗憾:这并非关于拖延 传统观念认为,退休储蓄不足与拖延症有关——人们本打算储蓄,却屈服于当下偏好。然而,一项针对美国和新加坡60-74岁人群的新研究对此提出了挑战,发现拖延症与对储蓄的遗憾之间关系微弱,甚至呈*反向*关系。 相反,**经济冲击**是希望自己储蓄更多的主要预测因素。近70%的经历财务困境(失业、医疗费用、离婚)的美国人表示后悔,而没有经历冲击的人中,这一比例为42%。在新加坡,由于健全的社会保障体系和强制储蓄计划(如中央公积金)可以缓冲这些影响,这种差异并不明显。 该研究强调,问题不在于缺乏意志力,而在于缺乏机构支持来应对不可避免的生活事件。虽然行为“助推”有其价值,但解决潜在的财务不稳定——通过更强的社会保险和风险管理——对于提高退休保障至关重要。此外,理解概率的能力,而不仅仅是金融素养,与更低的遗憾相关,表明为不确定性做好准备是关键。

更多

联系我们 contact @ memedata.com