每日HackerNews RSS

## micasa:从终端进行家庭管理 micasa 是一款基于终端的用户界面,旨在帮助您跟踪家庭的*所有*信息——维护、项目、电器、供应商等等——全部存储在一个 SQLite 文件中。它是一个注重隐私的云端解决方案替代品,无需账户或订阅。 忘记堆积如山的收据吧!micasa 允许您安排维护(例如熔炉滤网更换),管理从开始到结束的项目,比较报价,跟踪电器保修,记录事件(例如泄漏),并存储重要文件。 使用 Go 安装很简单,并且适用于大多数操作系统的二进制文件都可用。该界面由键盘驱动,灵感来自 VisiData,提供高效的导航、编辑和数据过滤。 本质上,micasa 旨在用集中化、可访问且安全的家庭管理系统取代分散的笔记和被遗忘的信息,所有这些都在您的终端中。

## Micasa:基于终端的家庭追踪 Micasa (micasa.dev) 是一款新的、基于终端的用户界面,用于追踪家庭维护和信息,存储在一个 SQLite 文件中——无需云服务、账户或订阅。它由一位开发者创建,这位开发者厌倦了在笔记应用中丢失与家庭相关的任务,它允许用户记录从洗碗机滤网清洁计划到承包商报价的所有内容。 该项目值得关注的一点是,它几乎完全使用人工智能构建,开发者主要负责审查和合并代码。主要功能包括 Vim 风格的界面、本地 LLM 聊天(可选)以及简单、单文件的数据库。 Hacker News 的评论员称赞了 TUI 的设计以及利用人工智能和视觉智能的“家庭管理器”类别的潜力。一些人建议提供 Web UI 以供家庭成员更广泛地访问,而另一些人则分享了他们使用 Emacs 和 org-mode 等工具的现有解决方案。你可以使用 `go install github.com/cpcloud/micasa/cmd/micasa@latest && micasa --demo` 来试用 Micasa。

本报告详细介绍了 Gemini 3.1 Pro 的安全评估,评估依据是该组织的“前沿安全框架”(FSF)。FSF 利用五个关键风险领域(CBRN、网络安全、有害操控、机器学习研发和目标不一致)进行严格测试,以防止模型达到“关键能力水平”(CCLs)。 Gemini 3.1 Pro,包括其“深度思考”模式,经过了全面评估。结果表明,该模型目前在所有五个风险领域均*低于*警戒阈值。虽然之前的模型触发了网络安全风险的警报,但 Gemini 3.1 Pro 通过了额外的网络安全测试,证明了该领域持续的安全性能。 该策略依赖于通过持续、定期的测试和评估,以及由重大能力提升触发的评估,来实现“安全缓冲”。有关评估流程和已实施的安全措施的更多详细信息,请参阅完整的 Gemini 3 Pro 前沿安全框架报告。

## Gemini 3.1 Pro:摘要 Google 的 Gemini 3.1 Pro 现已发布,在 SVG 生成和编码等复杂任务方面优于 Gemini 3 Pro。用户报告该模型擅长提供详细回复,并利用 Google 搜索集成提供全面信息。定价保持不变,输入 2 美元/百万 token,输出 12 美元/百万 token。 然而,一些用户发现 Gemini 的输出过于冗长和“乐于助人”,即使在明确指示不要的情况下也会添加不需要的重构或注释。虽然在知识和视觉任务(例如根据提示创建图像——一只有脚踏车的鹈鹕是一个流行的测试!)方面表现出色,但目前在代理工作流程和工具使用方面落后于 Opus 4.6 等竞争对手。 尽管存在这些限制,Gemini 3.1 Pro 在 Terminal-Bench 2.0 和 Artificial Analysis 的 Intelligence & Coding Indexes 等基准测试中取得了领先的性能。Google 的营销受到批评,但此次更新代表着一个重要的进步,特别是对于 Google 生态系统内的用户,因为捆绑了存储和工作空间访问等服务。人们仍然担心该模型的未来能力可能会被“削弱”。

Google Cloud Console 无法加载来自 www.gstatic.com 的 JavaScript 资源。可能原因:您的网络管理员阻止了 www.gstatic.com 或其 IP 地址;Google 由于过多的自动化请求暂时阻止了您的帐户或网络。请联系您的网络管理员寻求帮助。

## PlanetScale 的零停机数据库迁移方案 数据库迁移通常令人担忧,因为它可能导致停机、数据丢失和成本增加。PlanetScale 通过一种专为大规模(太字节到拍字节)迁移设计的流程来应对这些挑战,*无需*停机。 他们的方案包括对现有数据库进行一致快照,然后持续复制更改到新的 PlanetScale 数据库。一个“VDiff”流程会在将应用程序流量逐步转移到 PlanetScale 之前验证数据完整性,同时仍然将查询路由回原始数据库进行测试。这允许进行彻底的验证,并且至关重要的是,如果出现问题可以立即回滚到旧系统。 该流程利用 Vitess 的 VReplication 进行数据复制和更改复制。成功的关键是在最终切换期间缓冲查询(持续时间小于一秒),并保持反向复制以实现无缝回滚。PlanetScale 还建议在迁移期间对数据库进行分片,以提高可扩展性。 最终,PlanetScale 的方案优先考虑平滑、无风险的过渡,允许用户升级、分片或切换数据库系统,而不会中断服务。他们旨在分享这些实践,以使更广泛的数据库社区受益。

## 拍字节级零停机迁移 (2024) - 摘要 最近 Hacker News 的讨论围绕 PlanetScale 博客文章,详细介绍了拍字节级的零停机数据迁移。核心挑战在于迁移大型数据库(例如 400TB+),同时不中断全球可访问应用程序的服务。 提出的解决方案涉及将数据复制到新数据库,赶上更改,然后无缝切换流量。关键技术包括初始数据转储、复制和用于识别和合并差异的“VDiff”流程。然而,评论员指出,在复制过程中确保数据一致性以及对于持续全球使用的系统而言,真正实现零停机时间是不切实际的复杂性。 讨论强调了一个权衡:虽然存在用于最大限度减少停机时间的方法,但许多系统*可以*容忍计划的维护窗口。零停机迁移的可行性很大程度上取决于特定应用程序及其正常运行时间要求。PlanetScale 提供托管和自带云选项,并支持这些迁移,具有在线模式更改等功能。博客文章的作者正在积极与评论员互动以解答问题。

## AI 代理:真实世界应用早期洞察 最近一项分析与 Anthropic 的 Claude Code 和公共 API 数百万次交互的研究揭示了人们实际如何使用 AI 代理。该研究强调了代理自主性日益增长的趋势——与 Claude Code 的最长会话长度在三个月内几乎翻倍,表明现有模型能够进行更独立的运作。 经验丰富的用户越来越多地赋予代理更多自由(自动批准操作),但也会在需要时积极监控和干预。有趣的是,代理本身经常会暂停以寻求澄清,通常比人类打断它们的频率*更高*。 虽然目前大多数代理活动集中在软件工程领域,并涉及低风险任务,但其使用正在扩展到医疗保健、金融和网络安全等敏感领域。尽管这些高风险部署尚未广泛普及,但该研究强调了对部署后进行稳健监控以及开发新的“人机交互范式”的必要性。 研究结果表明,有效的监督并非在于批准每一个操作,而是要确保人类能够在必要时进行干预。进一步的研究至关重要,以了解代理如何演变,并开发平衡自主性与负责任部署的保障措施。这些早期数据强调了代理行为是由模型、用户和产品设计共同构建的。

## 黑客新闻讨论:衡量人工智能代理自主性与机器人问题 Anthropic 最近发布的一篇关于衡量人工智能代理自主性的博客文章,在黑客新闻上引发了热烈讨论。文章重点关注追踪“回合时长”——人工智能在任务上花费的时间长度——作为衡量自主性的指标,并指出 2025 年 10 月至 2026 年 1 月之间,99.9 百分位数时长显著增加。 然而,许多评论者质疑该指标的有效性,并提出了对数据选择性、样本量小以及任务时长是否真正等同于自主性的担忧。一些用户报告了模型性能的波动,暗示 Anthropic 可能会出于成本原因调整能力。 对话的重要部分集中在黑客新闻网站上机器人数量的激增。用户识别出表现出机器人行为的可疑账户,向网站倾倒垃圾信息。人们担心这些机器人可能正在收集数据或为未来的恶意活动做准备。 许多评论者呼吁改进机器人检测方法,甚至建议对用户进行“沃伊特-坎普夫”测试。 最后,关于 Anthropic 数据收集实践的隐私问题也浮出水面,尤其是在其“克里奥”系统以及提供的匿名化程度方面。

2022年1月17日,我刚读完奥利弗·萨克斯的精彩著作《万物就位》。书中他提到,银杏树已有数亿年历史,其表型自那时起几乎没有改变——活化石。当然,这种树就是结银杏果(ぎんなん)的,银杏果是东亚的一种美食,常见于许多菜肴中,例如茶碗蒸。银杏的历史比恐龙还要久远!而且我们现在还在吃它!这太酷了。这让我开始思考——今天我们食用的最古老的食物是什么?标准:必须可供人类食用;自化石时代以来,形态没有改变。注:我只是一个业余爱好者,不是古植物学家。欢迎大家补充和修改,如果我分类错误或遗漏了什么。

## 恐龙食物:黑客新闻摘要 黑客新闻上最近的一篇帖子讨论了一篇文章,该文章详细介绍了今天仍在食用的食物,其起源可以追溯到一亿多年前。 这番讨论引发了关于文章中物种年龄主张准确性的争论,特别是关于地衣和“形态未变”的定义。 用户指出,由于进化和不完整的化石记录的复杂性,很难确定物种的年龄。 讨论范围从盐和水等古老主食的起源,到更晦涩的例子,如莲藕、银杏,甚至泥土(土食症)。 许多评论者分享了他们对这些食物的个人经历,并注意了食用区域的差异。 该帖子还涉及了一些“古老”食物的潜在毒性,例如银杏果和人参,以及食物来源的进化历史,包括现在已灭绝的巨型动物在种子传播中的作用。 最终,该帖子突出了古生物学、植物学和烹饪历史的迷人交汇点。

启用 JavaScript 和 Cookie 以继续。

## 随机性能否改善科学理论? 一项最新研究出人意料地表明,*随机*的实验选择可能比基于现有假设的实验更能产生更好的科学理论。研究人员使用了一个模型,其中“代理人”试图发现隐藏的模式(高斯分布),结果发现随机抽样优于基于理论动机的策略,尤其是在复杂情况下。 然而,这些发现存在争议。评论员指出该模型的局限性——它没有考虑到定义现实搜索空间的难度,以及即使是选择实验也具有内在的理论负载性。现实世界中的例子,如通过随机筛选发现抗生素,或像青霉素和强力胶这样的“意外”发现,提供了支持,而另一些人则强调了重点研究的重要性,例如晶体管或脊髓灰质炎疫苗的开发。 核心争论在于平衡有针对性的调查与无偏探索,以及过度依赖现有理论是否会阻碍真正的新发现。最终,这场讨论凸显了科学方法论的哲学基础以及机遇在进步中的作用。

## 大型语言模型实用指南:摘要 《大型语言模型实用指南》是一本面向分析师和数据科学家,介绍如何使用Python将大型语言模型整合到工作流程中的实践教程。本书共354页,涵盖了来自主要供应商(OpenAI、Anthropic、Google和AWS Bedrock)的基础模型的实际应用,超越理论,专注于*如何*使用它们进行构建。 读者将学习API调用、结构化输出生成(使用JSON、XML和YAML),以及诸如检索增强生成(RAG)等技术,并结合各种向量数据库(OpenAI、AWS S3、Google BigQuery)。本书还探讨了工具调用、模型上下文协议(MCP)和构建智能体等高级概念。 本书的独特之处在于它涵盖了由大型语言模型驱动的编码工具,如GitHub Copilot、Claude Code和Google的Antigravity,并提供了实用的设置和使用示例。尽管承认大型语言模型领域的快速发展,本书仍能为理解核心原理和构建实际应用提供坚实的基础,即使示例侧重于犯罪学,但可应用于各个领域。 本书有平装本(59.99美元)和epub版本(49.99美元),包含超过250个代码片段和80张截图,前60页提供免费PDF预览。

## 弥补遗憾:这并非关于拖延 传统观念认为,退休储蓄不足与拖延症有关——人们本打算储蓄,却屈服于当下偏好。然而,一项针对美国和新加坡60-74岁人群的新研究对此提出了挑战,发现拖延症与对储蓄的遗憾之间关系微弱,甚至呈*反向*关系。 相反,**经济冲击**是希望自己储蓄更多的主要预测因素。近70%的经历财务困境(失业、医疗费用、离婚)的美国人表示后悔,而没有经历冲击的人中,这一比例为42%。在新加坡,由于健全的社会保障体系和强制储蓄计划(如中央公积金)可以缓冲这些影响,这种差异并不明显。 该研究强调,问题不在于缺乏意志力,而在于缺乏机构支持来应对不可避免的生活事件。虽然行为“助推”有其价值,但解决潜在的财务不稳定——通过更强的社会保险和风险管理——对于提高退休保障至关重要。此外,理解概率的能力,而不仅仅是金融素养,与更低的遗憾相关,表明为不确定性做好准备是关键。

## -fbounds-safety:摘要 `-fbounds-safety` 是一项编译器特性,旨在通过严格的边界检查来防止 C 代码中的越界内存访问。它通过将显式或隐式边界信息与每个指针关联来实现这一点,确保访问保持在定义的限制内,并在违反时触发确定性的陷阱。 该系统利用多种方法:**宽指针**(内部携带边界数据)和**边界注释**(如 `__counted_by(count)` 指定缓冲区大小)。为了方便采用,局部变量默认使用宽指针,从而最大限度地减少注释需求,而函数参数仍然采用传统注释以保持 ABI 兼容性。注释如 `__single` 可以防止指针算术,从而提高安全性。更通用的注释包括 `__counted_by`、`__sized_by` 和 `__terminated_by`,用于数组和字符串。 编译器通过限制对指针及其相关边界的更新来强制正确性,并可能插入运行时检查。它还提供 `__unsafe_` 函数,以便与缺乏边界安全的旧代码互操作。默认指针类型会根据 ABI 可见性进行智能分配——`__single` 用于 ABI 可见指针,`__bidi_indexable` 用于局部变量——从而减少注释负担。细致的规则管理指针转换,以维护边界完整性,防止不安全的转换,同时允许通过显式转换或内置函数进行受控转换。目标是在最大限度减少对现有 C 代码库的干扰的同时,提供强大的内存安全保证。

一个 Hacker News 的讨论围绕着 Clang 编译器中用于 C 代码的 `-fbounds-safety` 标志,它强制边界检查以提高安全性。用户们争论着操作系统发行版将 *所有* C 代码用此标志编译的可行性。 主要挑战在于,使用 `-fbounds-safety` 通常需要代码注释来跟踪分配大小。虽然 C++ 容器可以使用类似的检查,且开销很小(谷歌测量结果低于 0.5%),但将其广泛应用于以 C 为主导的操作系统发行版需要大量的代码修改。 建议包括使用 Gentoo 并手动修复编译错误,或者直接切换到 C++,后者提供更可移植的边界检查机制,尤其是在即将到来的 C++26 标准中。有人指出,汇编语言可以完全绕过编译器问题,但这对于大多数人来说不是一个实用的解决方案。这场讨论凸显了将安全特性回溯性地添加到现有的 C 代码库的难度。

更多

联系我们 contact @ memedata.com