每日HackerNews RSS

## Chrome应对量子抗性HTTPS的计划 Chrome正在主动为量子计算机对当前HTTPS证书安全造成的威胁做准备。Chrome没有直接将量子抗性密码学实现到传统的X.509证书中——这将显著增加带宽使用量——而是率先采用**Merkle树证书 (MTC)**。 MTC提供了一种更高效的解决方案,它用紧凑的“证明”取代了冗长的证书链,以验证包含在认证机构 (CA) 签名的公共树中。这在增强安全性的同时,保持了速度和透明度。 Chrome的推广分为三个阶段:**阶段1 (正在进行中)** 是与Cloudflare进行的可行性研究,并以现有的X.509证书作为安全保障。**阶段2 (2027年第一季度)** 邀请已建立的证书透明度 (CT) 日志运营商启动公共MTC。**阶段3 (2027年第三季度)** 将启动专用的“Chrome量子抗性根存储库” (CQRS) 用于MTC,与现有的根程序并行。 除了MTC的开发,Chrome将继续支持当前的CA,并探索用于私有PKI的量子抗性X.509证书。该举措旨在构建一个更快、更安全、更透明的网络基础,使其能够抵御未来的量子计算进步。

## Google 的抗量子 HTTPS 及讨论总结 Google 正在使用 ML-KEM 密码学实现强大、高效的抗量子 HTTPS,引发了 Hacker News 的讨论。焦点正在转向 Merkle 树证书 (MTC),作为后量子密码学 (PQC) 的首选方法。 主要讨论点包括:虽然证书尺寸增加 40 倍(约 160KB)对于宽带连接来说并非灾难性,但对于低带宽用户来说*可能*会比较明显,并且会显著影响高延迟或丢包的连接,尤其是在使用 HTTP/1.1 等旧协议时。 也有人对证书透明度日志的影响表示担忧。 讨论集中在优化初始拥塞窗口大小以及使用 QUIC 等较新协议的优势。 许多评论员认为,现有的网络低效和设计不良的协议才是*真正*的问题,而仅仅增加证书尺寸只会暴露这些潜在问题。 几位用户指出需要更新 Mozilla SSL Config Generator 等工具以支持 PQC 参数。 Let's Encrypt 也在积极探索 MTC 的实现。

## 决策树:总结 决策树通过创建一系列规则来对数据进行分类,将数据分割成越来越纯净的区域。这个过程的核心在于**熵**,它是数据杂质度的度量——熵越低,数据集越同质。算法旨在*最大化信息增益*,即分割后熵的减少量。 **ID3算法**计算每个可能分割的信息增益(基于特征和值),选择产生最大增益的分割。这个过程是递归的,自上而下地构建树,直到叶节点主要包含一个类别(纯净)或满足停止条件(例如最大深度)。 虽然**基尼不纯度**可以作为一种指标进行比较,但熵在不平衡数据集上可能更稳健。决策树易于解释、训练速度快且能很好地处理异常值,但容易出现**过拟合**——创建过于复杂的树,无法很好地泛化到新数据。可以通过诸如剪枝(限制树的深度/大小)等技术来减轻这种不稳定性,或者更有效地通过将多个树组合成**随机森林**来解决。

## 决策树:一种强大且常被低估的工具 最近的 Hacker News 讨论强调了决策树在机器学习中的“非凡力量”。尽管目前关注的重点是神经网络,但决策树因其可解释性、速度和有效性而仍然具有价值,尤其是在与其他技术结合使用时。 一种有效策略是首先构建一个强大的线性分类器,然后将其输出用作决策树的附加特征。这利用了两者的优势:树难以处理线性函数不适用的复杂递归划分数据,而线性模型则难以处理这些结构。 讨论还涉及了与强化学习的相似之处——两者都涉及建立在现有状态信息之上——以及特征工程对树的最佳性能的重要性。虽然神经网络可以自动发现特征,但决策树很大程度上依赖于精心设计的输入。 最终,对话强调了决策树和提升树系统通常出奇地有效,在性能和透明度之间取得了平衡,而更复杂的模型往往缺乏这种平衡。它们代表了一种基础技术,在现代机器学习中仍然相关。

## 室内植物编程:为我而写,由我而造 Hannah Ilea 提出了“室内植物编程”的概念——创建小型、个性化的软件解决方案,旨在解决*你*的具体问题,而无需追求广泛适用性。受 Recurse Center 同行的启发,这种理念拥抱“仅为自己构建”的自由,其中“在我机器上能运行”是成功,而非道歉。 这种方法与专注于生产和大规模使用的传统软件开发形成对比。就像照料室内植物一样,这些项目是为了个人享受和实用性而培育的。即使它们无法茁壮成长,或需要独特的照料也没关系——可以轻松地“堆肥”(删除)或分享给他人进行调整。 Ilea 还将“花束编程”定义为更加短暂的一次性脚本,用于执行特定任务,且不期望维护。她鼓励分享这些个人项目,提供徽章来识别它们,并重新构建围绕分享未完成或高度定制代码的心态。最终,室内植物编程是关于创造的乐趣以及软件存在的价值,仅仅是为了满足个人需求。

## Hacker News 讨论:“盆栽编程” 一篇最近发表在 hannahilea.com 上的文章引发了 Hacker News 关于个人软件项目——那些为解决个人需求而构建的“一次性”程序——的讨论。用户们争论是否一个新的术语“盆栽编程”更能体现这些通常很小、精心维护的工具的精神,而传统上它们被称为“实用工具”。 核心思想是创建软件并非为了广泛重复使用,而是为了个人享受和持续的实用性,就像照料盆栽一样。 也有人提出了“自制应用”和“生存式开发”等替代方案,一些人认为现有术语无法传达相同的个人关怀和持久性。 对话还涉及了更广泛的软件开发状态,一些人哀叹智力追求的衰落,并对人工智能的影响表示担忧——担心它会导致质量较低、快速生产的软件,而不是释放时间用于有意义的创作。 另一些人认为人工智能是一种有用的工具,但警告不要过度依赖它。 最终,许多人表达了对更多“盆栽”风格项目的渴望——小型、精心制作的工具,它们充满热情和关怀。

## 10-202:现代人工智能物流导论 - 课程概要 本课程将于2026年春季在CMU开课,介绍驱动现代人工智能(如ChatGPT)的核心机器学习方法和大型语言模型(LLM)。尽管它们很复杂,但其底层技术却令人惊讶地易于理解——学生甚至将从头开始构建一个基本的AI聊天机器人。 课程涵盖了广泛的主题,从人工智能的历史和监督学习到神经网络、Transformer以及微调、强化学习和AI安全等高级技术。课程的很大一部分涉及使用Python和PyTorch等工具进行实践编程作业,最终训练并运行一个开源LLM。 成绩评估基于作业(20%)、小测验(40%)和期中/期末考试(40%)。课程的精简免费版本将在线提供,内容发布延迟两周。学生允许将AI助手作为学习工具用于作业,但预计独立完成最终提交,并且禁止在考试中使用它们。 **先修课程:** 基本Python编程(15-112/15-122)和微积分入门(21-111/21-120)。

## 卡内基梅隆大学现代人工智能课程与人工智能工具使用 来自卡内基梅隆大学(CMU)的一门新的入门人工智能课程正在Hacker News上引发讨论。该课程 ([modernaicourse.org](modernaicourse.org)) 明确允许学生将ChatGPT等人工智能助手*用于*家庭作业和作业,作为一种学习工具,但强烈鼓励提交最终作业时不使用人工智能辅助。其理由是,虽然人工智能可以帮助理解,但过度依赖会阻碍真正的学习和评估表现。 评论者普遍认同这种方法,将其视为利用人工智能优势与确保学生培养核心技能之间的平衡。一些人强调该课程讲师与OpenAI的关联。讨论还涉及该课程通过允许学生处理更复杂的项目来加速学习的潜力,以及即使*在*人工智能辅助下,调试技能的重要性。 一个反复出现的主题是关于“现代人工智能”定义的争论,一些人认为专注于LLM过于狭隘,忽略了其他重要的人工智能领域。另一些人则指出该课程的实践重点,反映了行业趋势。

这段 JavaScript 代码创建了网页上由特定元素触发的交互式工具提示(气泡)。它解析页面文本内容中的自定义 `[[术语|标题|内容]]` 标记,将其替换为按钮。点击或聚焦这些按钮,将显示包含与 `术语` 关联的 `标题` 和 `内容` 的工具提示。 该代码智能地将工具提示相对于触发元素定位,确保其保持在视口内,并通过调暗触发元素分支外部的区域来避免覆盖内容。它处理鼠标交互(悬停/点击)和键盘导航(聚焦、Esc 键)以打开和关闭工具提示。 该脚本还适应不同的输入方法,为触摸设备提供“粗略”模式,并包含打开和关闭工具提示的动画。最后,它在窗口大小调整或滚动事件时重新定位工具提示,以保持其可见性和位置。

## 使用 `uv` 和 `Dagger` 轻松构建 Python Monorepo Monorepo(单仓库包含多个项目)在谷歌和 Facebook 等大型公司很常见,但管理起来可能具有挑战性。本文详细介绍了一种使用工具 `uv` 和 `Dagger` 构建 Python Monorepo 的简化方法。 传统上,Python Monorepo 的设置很复杂,因为依赖管理和构建速度慢。然而,`uv` 简化了打包和依赖解析,而 `Dagger` 提供了一个强大的构建系统。这种组合能够实现具有端到端缓存的快速、模块化流水线。 核心思想是利用 `uv` 的 workspace 功能和 `Dagger` 以编程方式定义构建过程的能力。通过解析 `uv.lock` 文件,系统可以智能地仅复制必要源代码,避免因无关项目中的更改而触发完整重建。这是通过一个构建 Docker 镜像的 Dagger 模块实现的,利用现有的 Dockerfile 阶段并添加一层用于依赖管理。 这种方法具有维护成本低、本地和 CI 兼容性以及通过缓存实现显著速度提升等优点。虽然需要一些初始设置,但由此产生的流水线高效且可扩展,使 Python Monorepo 更易于管理和性能更高。作者鼓励查阅 `uv` 和 `Dagger` 文档以进行自定义和优化。

一个 Hacker News 的讨论围绕着一篇名为“破解 Python Monorepo”的博文展开。核心讨论围绕着 monorepo 的挑战和优势,特别是对于 Python 项目。 用户指出,Python monorepo 中最大的资源消耗不是打包,而是运行测试——高效的测试缓存至关重要。博文作者确认 Dagger 被用于促进这种缓存,通过正确组装容器并跳过未更改代码的测试。 几位评论者表示,比起 Git 子模块等替代方案,他们更喜欢 monorepo,理由是后者令人沮丧且容易出错。然而,一位用户批评该文章更像是一则 Dagger 广告,而另一位则建议解决静态类型问题可能比采用 monorepo 带来更快的好处。

## 硬木:高性能 Parquet 解析 硬木是一个新的系统,专为高性能 Parquet 文件处理而构建,借鉴了 1BRC 的经验。其主要重点是通过并行化最大化 CPU 利用率,即使在 Parquet 格式的复杂性下也能实现高吞吐量。 硬木采用了多种技术:**页面级并行**(使用多个线程解码数据页面)、**自适应页面预取**(优先处理解码速度较慢的列)和 **跨文件预取**(重叠文件解码)。这些,以及减少分配等优化措施,显著提升了性能。 在 MacBook Pro M3 Max 上,硬木可以在约 1.2 秒内对 ~9.2GB 纽约出租车数据集的三个列求和(列读取器 API),并在约 1.3 秒内解析 900MB 的嵌套 Overture Maps 数据文件。 该项目利用 JDK Flight Recorder 进行瓶颈识别,并包含自动化性能测试,并计划使用 Apache Otava 构建自动化回归检测流水线,以确保持续的性能改进。

## 硬木:一种新的Java Parquet解析器 一个名为**硬木 (Hardwood)** 的新Java库旨在为处理Parquet文件提供一个比广泛使用的 `parquet-java` 更简单、性能更高的替代方案。开发者长期以来一直苦于 `parquet-java` 复杂的依赖结构、笨拙的API和相对较慢的性能。 硬木通过提供**零强制依赖**来解决这些问题,允许用户仅添加他们需要的压缩和日志库。初步基准测试表明,在诸如对大型数据集(纽约出租车数据)中的列求和等任务中,硬木的性能明显优于 `parquet-java`,速度达到~1.2-2.7秒,而 `parquet-java` 则较慢。 目前,硬木在处理扁平、完全解析的数据集方面表现出色,但缺乏谓词下推优化——该功能计划在未来开发中实现。该项目提供了一个性能测试框架,允许用户在自己的机器上将其与 `parquet-java` 和 PyArrow 进行比较。

启用 JavaScript 和 Cookie 以继续。

## AI生成文本检测的演变挑战 最近的Hacker News讨论集中在可靠检测大型语言模型(LLM)生成的文本的难度上。一篇2024年的文章已被指出已过时,因为像Llama这样的开放权重模型产生的文本在统计上与人类写作无法区分。 评论者指出,较新的模型越来越复杂,模仿人类风格,甚至融入了怪癖,例如特定的词汇选择(“delve”),这可能受到训练者人口统计学特征的影响。虽然最初的检测依赖于识别统计异常或“公司用语”,但这些方法只需用户付出最小的努力——例如向LLM提供他们自己写作风格的示例——就可以轻易绕过。 水印技术提供了一种潜在的解决方案,但需要LLM提供商的普遍采用,这不太可能。更大的担忧不仅仅是直接的AI生成内容,而是对不准确或细微的LLM输出进行改写,以及外包批判性思维。多位用户指出,这些工具被广泛用于学术不端行为,以及学生在没有它们的情况下工作的能力下降。开源指纹识别工具存在,但军备竞赛仍在继续。

不要陷入过时的 SQL 与 NoSQL 争论——现代数据库通常足以应对大量负载。性能问题很少源于数据库*引擎*本身,而是源于糟糕的设计选择,例如低效的查询、缺少索引或规划不周的迁移。 关键在于理解你的*工作负载*。关系数据库擅长一致性读取(如金融交易),而 NoSQL 解决方案可能更适合高容量、最终一致性的写入。 选择数据库不是为了面向未来,而是承认故障模式及其影响。过于复杂、分布式系统会引入显著的开销并可能阻碍开发。通常,一个更简单、建模良好的关系数据库会为你提供更长时间的服务。 明智的扩展首先关注数据建模和优化。优先考虑清晰性并避免不必要的复杂性。资深工程师不会测试你对数据库类型的了解,而是测试你评估权衡、理解风险以及选择最符合业务需求和团队能力解决方案的能力。

Hacker News新 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交登录[已标记]janandonly 2天前 | 隐藏 | 过去 | 收藏 wrqvrwvq 1天前 | 下一个 [–] 他们称之为有史以来人工智能生成的Hacker News帖子。 ChicagoDave 1天前 | 上一个 | 下一个 [–] 架构是由商业模式驱动的。这包括所选择的运营数据存储类型。如果业务或上下文建模良好,技术栈就会显现出来。即使这样,你也可以运行POC来验证模型及其性能要求。 你不会先选择技术栈。解决方案决定了技术栈。 DeathArrow 1天前 | 上一个 [–] 在选择数据结构和数据库之前,你必须查看数据。 它的形状如何?你将如何使用它? 回答这两个问题将帮助你做出决定。 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## DISH:一种体积3D打印系统 - 摘要 本研究详细介绍了DISH(基于衍射成像的水凝胶成型)的开发,这是一种新型的体积3D打印系统,能够快速、高分辨率地在各种水凝胶材料中制造复杂的结构。DISH利用由数字微镜器件(DMD)调制并经由棱镜投影到旋转的比色杯中的405nm激光束。DMD投影与比色杯旋转之间的精确同步能够使3D图案在整个体积内固化。 该系统采用复杂的校准过程,包括自适应光学和全息优化,以确保准确的光线传递和剂量控制。这使得能够打印具有亚毫米分辨率的特征。研究人员通过成功地使用一系列材料进行打印——包括PEGDA、SilMA、GelMA和各种树脂——展示了DISH对不同化学性质和粘度的适应性。 通过严格的测试和表征,包括X射线计算机断层扫描,研究团队展示了DISH创建复杂几何形状、空心结构和复杂设计的能力,打印时间以秒为单位。该系统的性能通过优化的算法和材料配方得到进一步提升,为更快、更精确的体积3D打印铺平了道路。

## 次秒级3D打印与全息光场 一篇发表在《自然》杂志上的文章(链接)详细介绍了一种实现次秒级体积3D打印的新技术。研究人员使用“数字全息光场的不相干合成”——本质上是利用投影光来体积固化光敏树脂,在整个物体形状中*同时*创建物体,而不是逐层构建。 该过程利用旋转镜和数字微镜器件(DMD)从多个角度投影光线,有效地“绘制”树脂。虽然目前的打印尺寸较小(小于一厘米,通常在5-6毫米左右),但该方法展示了创建复杂形状的能力,如图中的鱿鱼和一个微型Benchy船。 评论员强调了令人印象深刻的分辨率(12微米特征)以及无需重新工具即可快速、大规模生产复杂零件的潜力,类似于芯片制造。它不是一个能够制造任何材料的“星际迷航复制器”,而是朝着更快、更高效的基于聚合物的3D打印迈出的重要一步。

更多

联系我们 contact @ memedata.com