MemeData

高性能 EP 内核剖析 Anatomy of a high-performance EP kernel 20 天前

大型语言模型（LLMs），特别是混合专家（MoE）模型，需要复杂的并行策略才能在多个 GPU 上高效运行。标准并行化采用固定的通信模式，而 MoE 则需要“专家并行”（Expert Parallelism, EP），其数据路由是动态的，且在运行时确定。专家并行的核心挑战在于将 Token 发送至指定的专家（“分发/Dispatch”），并将计算结果返回（“合并/Combine”）。其效率取决于服务阶段： * **高吞吐量（预填充/Prefill）：** 系统在移动数据前，会执行“协调步骤”以获取精确的 Token 计数。这使得系统能够分配紧凑且内存高效的缓冲区，从而将通信开销隐藏在计算密集型的矩阵乘法之后。 * **低延迟（解码/Decode）：** 为了避免网络往返带来的开销，该方法放弃了缓冲区紧凑性。它为每个源-专家对预留最坏情况下的内存缓冲区，从而实现 Token 的即时发送。这种方式通过消除协调延迟，以牺牲内存换取速度。最终，诸如 DeepEP 等现代实现以及不断发展的 UCCL 项目，通过优化内核来处理 MoE 的动态特性，确保 Token 能够高效地在网络架构中穿梭，以匹配相应的专家并返回结果，无论系统侧重于带宽还是延迟。

抱歉。

Babel-USB：包含所有文件的 USB 驱动器 Babel-USB: USB drive with every file 20 天前

该项目将 ESP32-S3 开发板转换为受“巴别图书馆”启发的无限文件系统，可通过 USB 访问。 **设置：** 1. 使用 ESP32-S3 开发板（建议使用 USB 闪存盘形状的规格）。 2. 在 VS Code 中使用 PlatformIO 插件克隆存储库及其子模块。 3. 按住“BOOT”按钮的同时将设备连接到电脑，以烧录固件。 **使用方法：** 烧录完成后，开发板将显示为 MTP 设备。若要查找特定文件，请使用提供的 `bun run file-to-path.js <path>` 命令生成路径字符串。导航至设备上的相应文件夹（以 `disk/` 为前缀），即可将文件复制到电脑。 *注意：大文件的生成需要较长时间。本项目基于 `esp32s3-tusb-mtp` 和 `espressif-tinyusb-component` 库构建。*

**Babel-USB** 是一个利用 ESP32 微控制器模拟 USB 存储设备的项目，该设备能够容纳一定大小范围内的“所有可能的文本文件”。该设备并不存储实际数据，而是根据用户访问的目录路径，即时生成文件内容。通过使用特定的 70 字符编码方案来管理文件夹深度和路径长度，该项目模拟了豪尔赫·路易斯·博尔赫斯的《巴别图书馆》这一概念。由于文件系统是算法生成的，因此无法搜索特定内容；用户必须已经知道确切路径（该路径对应文件的二进制内容），才能“定位”到特定文件。该项目利用媒体传输协议 (MTP) 来简化模拟过程。尽管在实际上完全浏览该设备是不可能的，但这一概念因其有望扰乱自动磁盘扫描软件（这些软件会被无限的目录结构所淹没）而引起了开发者的兴趣。

Show HN: Extend UI – 用于现代文档应用的开源 UI 工具包 Show HN: Extend UI – open-source UI kit for modern document apps 20 天前

Extend 是一个开源 UI 工具包，专为构建现代以文档为核心的应用程序而设计。它提供了一套即用型组件，用于处理 PDF、DOCX、XLSX 和 CSV 等多种文件格式。其主要功能包括高级文档查看器、文件上传、边界框引用以及电子签名功能。该工具包还提供了一些专用工具，例如用于配置 JSON 数据结构的 Schema Builder（模式构建器）和文档拆分工具。这些组件专为无缝集成而设计，可以轻松嵌入到面向用户的流程、AI 智能体或内部业务工具中。该项目现已在 GitHub 上开源，为开发者构建专业级文档工作流提供了灵活的框架。

Extend 开源了 **Extend UI**。这是一个基于 MIT 协议的 React 组件库，专为文档密集型应用而设计。该库最初是为 Extend.ai 内部使用而构建的，包含 14 个可定制组件，例如 PDF、DOCX 和 XLSX 查看器、文件上传器以及电子签名工具。开发者在发现现有的文档查看器无法满足其需求后，开发了该库。其主要技术特点包括： * **性能：** 使用 `react-virtual` 进行文档渲染优化。 * **自定义解析：** 包含一个基于 Rust 开发并编译为 WASM 的自定义 XLSX 解析器，相比标准库性能更优。 * **灵活性：** 提供可与各类设计系统集成的构建模块。该项目的发布在 Hacker News 上引发了热烈讨论。虽然用户称赞该库在 AI 原生文档工作流和内部工具方面非常实用，但许多人指出其登陆页面存在性能瓶颈，这可能是由于同时加载了多个重量级组件所致。作者已关注到这些反馈，表示正在进行优化，并会改进关于该库 React 依赖关系的文档。尽管面临性能方面的批评，社区仍将其视为一种有价值的资源，可用于以客户端预览取代服务端文档转换。

医疗服务提供者，而非保险公司，应对美国医疗成本过高负责（2024） Providers, not insurers, are responsible for excess U.S. health care cost (2024) 20 天前

公众对美国医疗保险公司的愤怒情绪十分强烈，但这其实找错了对象。虽然保险公司常被视为医疗体系失灵的罪魁祸首，但数据表明，它们并非美国高昂医疗费用的主要推手。保险公司的利润率通常极低，往往在 1% 到 6% 之间，远低于标普 500 指数的平均水平。即便取缔这些公司或将其转为非营利机构，所节省的开支也微不足道。此外，保险公司扮演了“替罪羊”的角色，承担了消费者因理赔被拒而产生的怒火，而实际上，是医院、制药公司和医疗设备供应商等医疗服务提供方收取了远高于其他发达国家的费用。作者认为，进步派对保险公司的关注是一种干扰。美国医疗成本高昂的根源在于提供方本身，他们实际上是将讨债和拒绝赔付这类招致不满的工作外包给了保险公司。若要实现真正的经济可负担性，必须将重点从攻击保险中介转移到解决医疗服务的成本根源上，这可能需要通过政府主导的价格谈判和增加提供方体系内的竞争来实现。聚焦保险公司虽然能带来情绪上的宣泄，但在解决危机方面却收效甚微。

抱歉。

为什么 SpaceX 2040 年 4.3 万亿美元的营收预测极不可能实现 Why SpaceX 2040 Revenue FCST $4.3T in highly unlikely 20 天前

SpaceX 创纪录的 1.77 万亿美元 IPO 基于一项激进的预测：在 15 年内保持 41.5% 的年增长率，从而在 2040 年实现 3.4 万亿美元的营收。尽管摩根士丹利通过将 SpaceX 与特斯拉等历史上高增长公司进行比较来为其辩护，但这种计算忽略了规模带来的“重力”效应。金融史表明，随着公司基数的扩大，增长率会自然衰减。SpaceX 试图从一个比特斯拉起飞阶段大 160 倍的基数上进行扩张，这实际上要求其实现比历史上任何异常值高出 44% 的增长表现。再加上 79% 的息税折旧摊销前利润（EBITDA）这一不切实际的利润率——甚至超过了沙特阿美公司——该估值看起来更像是一种人为制造的叙事，而非现实的预测。归根结底，迫使指数基金购买仅 4% 流通股的 IPO 结构制造了人为需求，使内部人士能够在禁售期结束后抛售股票。作者认为，这并非一种长期的投资逻辑，而是一种获利的市场再平衡机制，押注的是市场愿意将埃隆·马斯克过去的成功，投射到一种史无前例、甚至在物理上可能无法实现的未来规模之上。

抱歉。

JPL 如何让 13 岁的“好奇号”火星车持续开展科学探测 How JPL keeps the 13-year-old Curiosity rover doing science 20 天前

在登陆火星十三年后，NASA 的“好奇号”火星车依然是卓越工程设计的见证。尽管在严苛的异星环境中运行，得益于喷气推进实验室（JPL）工程师们的独具匠心，这辆火星车至今仍在进行有意义的科学研究。工程运营助理团队负责人亚历山德拉·霍洛威（Alexandra Holloway）解释说，火星车能够长寿，归功于持续、细致的维护和创造性的软件更新。面对严重的内存故障等显著挑战，团队通过创新的“救生艇”程序，重新分配飞行软件内存，从而使系统得以继续运行。虽然“好奇号”面临着车轮磨损和核动力源电力下降等物理限制，但团队通过优化运营（如减少开机时间、提高运行效率）来应对这些困难。这些经验直接影响了“毅力号”等更新型火星车的设计。展望未来，团队预计“好奇号”至少能持续工作到 2035 年。霍洛威强调，火星车的成功为未来任务提供了一个重要教训：让操作人员从一开始就参与设计过程，对于任务的长期成功至关重要。

最近的一场 Hacker News 讨论凸显了“好奇号”火星车令人惊叹的长寿表现。它凭借有限的计算能力和远程维护，在火星上持续开展科学探测已达 13 年之久。这场讨论引发了关于机器人探测与载人航天价值的辩论。机器人任务的支持者强调其极高的成本效益——指出发送数千台机器人的费用仅相当于一次载人任务的成本——并强调它们在长期收集海量数据方面已被证实的能力。反之，载人航天支持者认为，宇航员具备机器人目前所欠缺的独特实时决策能力和灵活性，这可能会加快发现的速度。然而，批评者指出将人类送往火星存在巨大的技术、安全和后勤障碍，包括辐射、生命支持系统以及极其高昂的成本。最终，讨论帖达成了一项共识：尽管载人航天仍然是一个鼓舞人心的目标，但由于机器人探测具有安全性、经济性以及在人类无法生存的环境中作业的能力，它依然是高价值实用科学研究的支柱。

展示 HN：Ustps（UDP 高速传输安全协议）和 USSH Show HN: Ustps (UDP Speedy Transmission Protocol Secure) and USSH 20 天前

**UDP 快速传输协议安全版 (USTPS)** 是一款处于测试阶段的传输协议，旨在实现基于 UDP 的高性能、速度优先的数据传输。与 TCP 不同，USTPS 不执行拥塞控制，优先考虑低延迟传输，而非网络限速机制。 **主要技术特性：** * **安全性：** 要求使用 AEAD 加密（ChaCha20-Poly1305 或 AES-GCM），并在每次会话中使用临时 X25519 密钥交换，同时采用“首次使用时信任”(TOFU) 模型进行服务器身份验证。 * **无队头阻塞的可靠性：** USTPS 通过选择性重传和独立的确认应答 (ACK) 确保可靠传输。关键在于，它在传输层是不排序的；丢失的数据包不会阻塞后续数据的交付。 * **元数据驱动排序：** 数据包同时包含用于可靠性的传输序列号和用于逻辑排序的 `stream_pos`。这使得应用程序能够重建数据流，而不会遭受 TCP 式的队头阻塞。 * **实现方式：** USTPS 作为内部传输数据包 (UST1) 的安全封装 (USS1)。它旨在实现高度灵活，提供用于测试抗丢包能力的工具，并作为流媒体和 USSH 等终端协议的基础设施。 USTPS 非常适合需要快速、安全且可靠，并能原生处理乱序交付的通信应用。

抱歉。

谁是最聪明的鸦科动物？ Who's the smartest corvid? 20 天前

请启用 JavaScript 和 Cookie 以继续。

这份 Hacker News 的讨论探讨了鸦科动物（乌鸦、渡鸦、松鸦和喜鹊）惊人的智力和复杂的行为。参与者分享了有关鸟类“聪明才智”的轶事证据，包括： * **策略性规划：** 鸟类在储存食物时会权衡机会成本、利用车辆压碎坚果，或向行人投掷物品。 * **复杂的社会动态：** 观察到它们有哀悼仪式、记仇、识别人脸以及教导后代行为的案例。 * **捕猎策略：** 通过协同合作捕猎幼鹿，或引导狼群寻找易捕获的猎物。讨论强调，鸦科动物拥有与哺乳动物截然不同的脑部结构——更类似于高效的并行处理 GPU，这使它们尽管脑容量较小，却依然具备极高的智力。讨论中还出现了关于这些鸟类是否表现出“邪恶”或蓄意恶意的哲学辩论。大多数参与者认为，“邪恶”是人类的主观投射，这些行为更可能是进化适应、社会模仿以及基于生存的问题解决机制的产物。最终，评论者一致认为，鸦科动物展现出的意图性、嬉戏心理和社会意识，挑战了人们对鸟类认知能力的传统认知。

Claude Desktop 会启动一个虚拟机，且无法将其停止。 Claude Desktop spawns 1.8 GB Hyper-V VM on every launch, even for chat-only use 20 天前

**摘要：Claude Desktop 内存占用漏洞** Windows 版 Claude Desktop 应用程序存在严重的资源占用漏洞，即在启动时会无条件启动一个 Hyper-V 虚拟机 (Vmmem)，占用约 1.8 GB 内存。即便用户仅进行简单的聊天操作，且无需使用 Agent 或“Cowork”功能时，该虚拟机依然会运行。 **主要问题：** * **资源效率低下：** 在 16 GB 内存的系统中，该开销会占用超过 11% 的可用内存，导致整个系统运行缓慢。 * **持续运行的虚拟机：** 即使在清理了数千个陈旧的会话文件后，该虚拟机仍会通过 `vmcompute` 服务自动启动。 * **初始化错误：** 日志显示，由于应用程序尝试初始化虚拟基础架构，导致了重复的 JSON 文档错误 (`0xC037010D`)。 **请求修复：** * **按需初始化：** 应仅在用户明确触发 Agent 或 Cowork 会话时，才启动虚拟机基础架构。 * **清理机制：** 实现陈旧会话文件的自动删除，以防止目录臃肿。 * **平稳降级：** 应用程序应在无需活动虚拟化服务的情况下，支持聊天功能。 **当前临时解决方案：** 用户必须彻底禁用 `VirtualMachinePlatform` 功能，或者在每次启动应用程序后手动终止 `vmwp` 和 `vmcompute` 进程。

Show HN: HelixDB – 基于对象存储构建的图数据库 Show HN: HelixDB – A graph database built on object storage 20 天前

HelixDB 是一个统一的数据库平台，旨在通过消除对独立关系型、向量、图和应用数据库的需求，来简化 AI 应用开发。它原生集成了这些模型，为 AI 智能体提供对企业数据的联合访问，以实现记忆和逻辑功能。 **主要特性：** * **统一模型：** 主要采用图 + 向量方法，同时支持键值（KV）、文档和关系型数据。 * **快速开发：** `helix chef` 命令行工具支持交互式的一次性引导流程。配合编程智能体（如 Claude Code）使用时，可仅凭单条文本提示词生成全栈应用。 * **开发者友好：** 查询使用 Rust 或 TypeScript DSL 编写，支持动态请求，无需复杂的构建或部署步骤。 * **灵活部署：** 开发者可以运行本地实例进行快速原型设计，或过渡到 HelixDB Cloud 以获得支持 ACID 事务、高可用、自动扩展及集成向量/全文搜索的生产级托管服务。通过整合存储层，HelixDB 使开发者能够通过单一、一致的接口来构建、测试并扩展 AI 驱动的应用程序。

**HelixDB** 是一款专为 AI 驱动型应用（如 AI 记忆系统和知识图谱）设计的 OLTP 图数据库，适用于对关系密集型数据要求极高的场景。与传统图数据库因数据复制或复杂分片而导致的高昂成本不同，HelixDB 利用对象存储（S3）作为持久化层，这不仅实现了近乎无限的图规模，还支持节点横向扩展，并能通过缓存相关数据来保持高性能。主要功能包括： * **混合能力：** 原生支持图遍历、向量搜索和全文搜索（FTS），开发者无需管理多个离散系统即可结合使用这些功能。 * **高性能：** 支持低延迟访问，热数据 P99 延迟约为 10 毫秒，冷存储读取约为 50 毫秒。 * **开发者体验：** 提供 Rust、TypeScript、Go 和 Python 的 SDK，摒弃了 Cypher/Gremlin 等传统查询语言，转而采用基于 JSON 的交互方式。创始团队指出，这种方式与 AI Agent 的兼容性极高。该项目目前正专注于构建通用的开源 AI 记忆层，并完善其分布式云服务。尽管目前使用已编译的 Docker 容器，但团队承诺最终将以 Apache 2.0 协议进行完全开源。

每日HackerNews RSS