每日HackerNews RSS

Cognition 推出了 **FrontierCode**,这是一项旨在评估人工智能模型编写高质量、可投入生产的代码(而非仅仅是功能性代码)能力的新基准。与 SWE-Bench 等侧重于基础正确性的现有基准不同,FrontierCode 衡量的是“可合并性”(mergeability),即人类维护者批准合并请求(Pull Request)时所要求的标准。 FrontierCode 的主要特性包括: * **专家精选:** 由 20 多位世界级的开源项目维护者参与,每个任务耗时 40 多个小时,旨在为各自的存储库定义真实的行业标准。 * **严谨的方法论:** 该基准采用了一套全新的综合评分技术,包括对抗性测试、单元测试、代码范围约束和基于大语言模型的评分规则,使误报率较现有基准降低了 81%。 * **综合评估:** 从行为表现、回归安全性、代码整洁度以及对代码库规范的遵守程度等方面对模型进行评估。 目前的测试结果显示,即使是最先进的模型在这一高标准下也表现吃力;表现最好的 Claude Opus 4.8 在难度最高的“钻石级”子集上仅获得了 13.4% 的分数。通过超越基础的功能性检查,FrontierCode 为评估 AI 在复杂、专业的软件环境中工作的能力提供了更准确、高保真的信号。

Cognition.ai 推出的全新基准测试项目 FrontierCode,旨在通过评估生成的代码是否真正“可合并”来衡量 AI 的编程能力。该团队超越了 SWE-Bench 等传统基准,花费了 1000 多个小时收集真实的维护者工作流,并定义了 3000 多条代码质量准则。 每项任务都由研究人员进行人工审核,以确保其符合专业软件工程标准。该项目旨在解决现有基准测试中常见的陷阱,特别是针对误报率以及开源维护所需的“品味”。 Hacker News 上的讨论重点包括: * **方法论:** 该团队计划公开这些任务,以防止饱和并鼓励社区构建测试框架。 * **性能与冗余:** 批评者指出,基于“努力程度”设置来比较模型性能是有缺陷的,因为某些模型仅仅通过消耗更多的 Token 和时间就能获得更高分数。 * **人在回路:** 一些参与者表示,当前的 AI 趋势优先考虑“从提示到完成”而非协作辅助,他们认为模型应专注于规划和迭代,而不是“黑盒”式的代码交付。 尽管对“努力程度”指标存在担忧,但社区普遍对这种转向更严谨、更注重质量的评估标准的举措表示赞赏。

请启用 JavaScript 和 cookie 以继续

**Courtside** 是一款基于键盘操作的终端 UI 工具,用户可通过它关注 NBA 比赛、查看详细的技术统计、追踪逐球实况以及查询联盟排名。该应用程序直接从非官方的 NBA JSON 接口获取数据,因此无需任何 API 密钥或账户。 主要功能包括: * **实时更新:** 进行中的比赛每 15 秒自动刷新一次。 * **历史查询:** 用户可跳转至任意日期查看过往比赛结果。 * **直观导航:** 整个界面均通过键盘快捷键控制,方便浏览比分牌、查看比赛详情及查询排名。 **安装方式:** 您可以通过 Go 安装此工具: `go install github.com/NolanFogarty/courtside@latest` 或者,您也可以克隆该仓库、构建二进制文件,并将其移动到您的本地路径中。 *注意:由于该应用依赖于未公开的 NBA 接口,其功能可能会受到频率限制或接口变动的影响。*

抱歉。

这篇文章探讨了一个常见问题:尽管证书在 OpenSSL 中验证通过,但在 Go 中却验证失败。作者通过两个几乎完全相同的根 CA 证书进行了演示,这两个证书唯一的区别在于 ASN.1 编码:一个使用 `PrintableString`,另一个使用 `UTF8String`。 虽然 OpenSSL 将这些数据类型视为等效,但 Go 的 `crypto/x509` 包会对 `RawSubject` 和 `RawIssuer` 字段执行严格的逐字节比较。由于叶子证书是使用 `UTF8String` 标识符颁发的,因此在证书链构建过程中,它无法与 `PrintableString` 版本的 CA 证书匹配。 作者指出,这种“故障关闭”(fail-closed)的行为在 Go 社区中一直存在争议。为了避免意外中断(如果证书生成工具随时间改变了默认编码,就可能发生这种情况),开发者应确保证书编码实践的一致性。核心结论是:即便证书内容在肉眼或更宽松的工具看来完全一致,ASN.1 类型的二进制差异也可能导致验证失败。

该网站目前受到流量限制。由于网站所有者已达到其套餐限额,您暂时无法访问此网站。请稍后流量下降时再试。如果您是该网站的所有者,请前往 Cloudflare Workers 控制面板升级您的套餐,以防止此类情况再次发生。了解有关此问题的更多信息 →

**Gitdot** 是一个基于 Rust 构建的全新开源 Git 托管平台,主打速度与极简的命令行风格界面。与传统重型网页平台不同,其设计强调键盘驱动的交互和“灵敏”的性能,目标是实现 100 毫秒的首屏内容渲染。 功能方面,Gitdot 目前支持用户注册、组织创建和代码仓库托管,包括 GitHub 导入功能。尽管开发者起初将该项目描述为“反 AI”,但在评论中澄清,这指的是对用户隐私的承诺——即不使用用户数据进行训练,且不内置 AI 辅助编程工具。相反,他们计划构建能够帮助开发者应对 AI 挑战的工具,例如用于辅助审查 AI 生成代码的“堆叠式差异(stacked diffs)”。 该项目在 Hacker News 上引发了关于其 UI/UX 选择(如悬停导航)以及相较于 Forgejo 等成熟替代方案的长期可行性的热烈讨论。虽然一些用户欣赏这种新颖的极简方案,但也有人建议开发者优先考虑标准的无障碍性和易用性。由 Paul 和 Mikkel 领导的团队表示,他们已注意到这些挑战,并计划根据社区反馈改进设计。

所提供的文本并非可读文档,而是 **PDF 文件**的原始二进制源代码。 其内容由技术结构元素组成,例如对象定义(`1 0 obj`、`3 0 obj`)、交叉引用元数据以及压缩数据流(由 `stream` 和 `endstream` 标签标记)。这些数据流包含布局或文本等编码信息,由于使用了 DEFLATE 算法压缩,因此显示为乱码(例如 `xœ• ½JÃ`)。 总之,这是 PDF 文件的底层计算机表示形式。它在当前格式下不包含人类可读的文本或信息,需要使用 PDF 阅读器软件才能解析并显示实际内容。

Hacker News 社区目前正在讨论 Signal 针对英国隐私立法威胁所发表的声明。讨论核心在于政府推动在消费者设备上实施年龄验证和客户端扫描,批评者认为这实质上是以保护儿童为幌子进行的各种大规模监控。 讨论揭示了几个关键主题: * **“平庸的邪恶”:** 许多用户认为,科技从业者促成威权主义的结果往往并非出于恶意,而仅仅是因为他们在履行雇佣合同并遵循行业趋势,例如对“围墙花园”和数字版权管理(DRM)的常态化。 * **“滑坡谬误”:** 持怀疑态度者担心,强制实施设备端扫描以进行年龄验证会开创一个危险的先例。他们认为,一旦建立起设备全面监控的基础设施,将其扩展为更广泛的国家监控只是时间问题。 * **安全与自由的辩论:** 部分用户认为,为了打击现实中的网络犯罪和诈骗,某种程度的自动化保护是必要的。然而,反对者坚称,国家越权及个人自主权丧失(即设备不再真正由用户“拥有”)所带来的风险,远大于其所声称的安全益处。

受史蒂夫·乔布斯对用户体验极致追求的启发,本文提出了“瘦网络”(Thinnernet)的概念,旨在构建一个更可靠、高效且公平的互联网。 作者认为,现代互联网基础设施已变得臃肿,过度优先考虑高带宽和“俗丽”的软件,而非持久的易用性。正如早期的设计改革者曾批评工业时代不切实际的装饰主义,作者指出当今数字用户体验也深受类似的过度设计之苦。 文中提出的解决方案是一个具有适应性的分层互联网,确保基本数据在任何带宽下都能被获取。通过将核心功能置于沉重的资源消耗型界面之上,网络可以提供一种可预测的、“乔布斯式”的体验,在不同速度下均能可靠运行。作者推测,21世纪的史蒂夫·乔布斯若在世,可能会从硬件设备转向完善这种数字基础设施,将带宽视为一种标准化的、质量可控的服务——就像过去的铁路一样。归根结底,本文呼吁对互联网进行一场“设计改革”,摒弃强制性过时,转向一种以性能为核心、可持续的未来,让用户在任何连接条件下都能从中获益。

“Thinnernet” 是 Hacker News 上讨论的一项概念性提案,旨在解决现代网络臃肿、隐私隐患和过度延迟等问题。作者并未提议构建一个新的物理互联网,而是设想了一种应用层面的转变——即一个针对效率、可预测性和性能进行优化的“轻量级”网络版本。 该提案强调: * **性能:** 偏好轻量级的静态内容,而非充斥 JavaScript 和广告的环境。 * **标准化:** 实施服务质量 (QoS) 和协议优化(如 QUIC 和 UDP),以确保在连接质量不佳的情况下,邮件或新闻等基本任务依然能够快速完成。 * **理念:** 从早期移动平台(如 Symbian)的效率中汲取灵感,并倡导“无浏览器”或极简浏览器的使用体验。 此讨论在用户间引发了争论,许多人质疑这种“并行”基础设施在技术上的可行性,以及在没有中心化控制的情况下强制执行此类标准的难度。批评者指出,此前旨在遏制臃肿的尝试(如 Google AMP)因商业动机而失败。虽然一些人提出了 Gemini 或纯 Markdown 协议等现有替代方案,但该共识反映了业界对现代商业网络在复杂性、追踪机制和不可靠性方面更广泛的挫败感。

此页面需要 JavaScript。请在浏览器中开启 JavaScript 并刷新页面以查看内容。

这次 Hacker News 的讨论围绕苹果发布的 **Core AI 框架**展开,这是一套用于在苹果 CPU、GPU 和神经网络引擎(ANE)上优化及运行 AI 模型的新工具集。 讨论的主要要点包括: * **目的**:Core AI 似乎是 Core ML 的继任者,旨在简化模型转换流程,提升模型在本地硬件上的运行效率。 * **行业情绪**:许多开发者对转向高性能本地 AI 感到兴奋。用户认为,现代小型模型(如 Qwen 系列)的性能已足以处理大量工作负载,这可能减少对昂贵的云端订阅服务的依赖。 * **争议**:社区对于本地模型是否能真正取代企业级大规模云端模型仍存在分歧。怀疑论者指出了移动设备在功耗和内存方面的限制,并认为顶尖的“智能体”任务仍需要中央服务器的巨大资源支持。 * **碎片化**:人们对苹果目前杂乱的 AI 生态表示担忧,用户指出 Core ML、MLX 以及新发布的 Core AI 框架之间角色重叠,容易引发困惑。

这份摘要详细介绍了 **Nosdesk** 的架构,这是一个历时一年、由 12 万行 Rust 代码构建的后端系统。该系统通过三大核心习惯优先保证稳定性和长期可维护性:将错误纳入类型系统、解耦纯逻辑与 I/O 操作,以及将注释重点放在设计决策的“原因”上。 **关键架构特性:** * **数据流水线:** 系统将数据视为带有内置背压(mpsc 通道)的流,以防止负载过高时出现内存峰值。 * **同步引擎:** Postgres 中的单一追加日志处理所有事件,确保 HTTP 增量同步、实时推送和审计追踪的一致性。 * **韧性:** 技术栈利用“恐慌边界”(`catch_unwind`)来隔离外部库,使用断路器确保邮件投递的稳健性,并采用确定性标识符防止 CRDT 分歧。 * **安全性:** 通过自动执行行级安全(Row-Level Security)的自定义数据库提取器强制实现多租户隔离;出站请求则由自定义 DNS 解析器保护,以防止 SSRF 攻击。 通过利用 Rust 严格的编译器,作者构建了一个自纠正系统,使得并发问题或安全配置错误等常见的故障模式在设计上即不可行,从而确保后端系统能够承受显著的生产压力。

苹果公司宣布对其“Apple Intelligence”平台进行重大升级,该平台采用了与谷歌共同开发的新型基础模型。这些模型利用基于 Gemini 的技术,提供更强的推理能力、多模态支持以及先进的图像生成和编辑功能。 该架构由全新的“系统协调器”管理,负责协调 Apple 设备和应用程序之间的任务,以提供具备语境感知能力的系统级智能。虽然部分功能在设备本地运行,但其他功能会利用 Apple 的私有云(Private Cloud Compute)基础设施。部分高端设备将获得先进功能的独家访问权,例如更卓越的语音生成和更精准的听写功能。 此次发布的核心是 Apple 对隐私的一贯重视。该公司坚持认为,无论是设备本地处理还是云端处理,所有数据处理过程均是严格临时的,第三方无法访问。Apple 还强调,其隐私保障措施仍可经由独立专家验证,并将其方案定位为 AI 领域中更安全、更以用户为中心的替代选择。

苹果将谷歌 Gemini 模型集成到“Apple Intelligence”中的举措,在 Hacker News 上引发了激烈辩论。尽管苹果将此举描述为以隐私为中心的进步,但批评者对其架构及公司的长期战略看法不一。 主要讨论点包括: * **隐私与保护:** 许多评论者称赞苹果的“私有云计算”(PCC)是一种复杂且安全的方法;而怀疑论者则认为这仅仅是“数据保护”,依然需要信任苹果和谷歌。一些人担心工具调用功能和提示词注入可能导致数据泄露。 * **苹果与谷歌的关系:** 用户在争论这是战略上的弱点还是务实的举措。一些人认为苹果将 AI 模型视为一种商品,使其有能力在必要时更换供应商以保持主动权。另一些人则认为苹果内部创新失败,被迫依赖主要竞争对手。 * **监管冲突:** 讨论的焦点在于苹果以《数字市场法案》(DMA)为由,推迟在欧盟推出该功能。虽然一些人支持苹果对隐私的考量,但另一些人指责该公司以“隐私”为借口,意在维持供应商锁定并扼杀竞争。

更多

联系我们 contact @ memedata.com