每日HackerNews RSS

## 行 vs. 列式数据:深入分析 从行式到列式数据存储的转变并非对关系数据库原则的背离,而是在该模型*内部*的一种不同编码方式。行式数据库将数据存储为完整的记录(行),使得添加新行和检索整个记录变得高效。然而,分析特定列——例如计算颜色直方图——需要读取不必要的数据。 列式数据库则反过来。每个列的数据存储在一起,优化了专注于特定属性的分析查询。虽然读取单个列很快,但重建完整行需要从多个位置收集数据,使得行检索速度较慢。 这可以被视为一种极致的数据库规范化形式。列式存储不像单个宽表,更像多个窄表,通过隐式主键(数据位置)连接。本质上,“重建一行”*就是*一个连接操作。 理解这种视角突出了数据格式操作在常见查询操作(如投影和连接)背后的作用。虽然通常是一个隐藏在查询后的实现细节,但将列式存储识别为一种特定的数据编码方式,为数据库性能和优化提供了一个强大的思维模型。

对不起。

## 苹果进入新时代:蒂姆·库克卸任,约翰·特纳斯掌舵 苹果公司宣布了一次平稳的领导层过渡:蒂姆·库克在成功担任首席执行官15年后,将成为执行主席。与2011年史蒂夫·乔布斯离职的情况不同,这次变动完全是库克的设计,公司正蓬勃发展——拥有创纪录的iPhone销量(包括流行的600美元MacBook Neo)以及所有产品线的强劲表现。 库克因将苹果的机构健康置于首位而备受赞誉,他将公司留在了比他接手时更好的状态。他专注于扩展乔布斯的基础产品,而不是激进的创新,这一策略被证明非常有效。他的继任者约翰·特纳斯是一位在苹果工作了25年的资深员工,被描述为一位有远见的工程师和创新者——预示着可能回归更以产品为中心的企业领导风格。 库克将继续参与,专注于全球政策参与。这次过渡井然有序,库克将在特纳斯在iPhone 17发布前正式接任之前,主持最后一次WWDC。这种无缝交接反映了库克对苹果持久成功的奉献精神,并巩固了他作为一位变革性但低调的领导者的地位。

谷歌第八代TPU(TPU 8t 和 8i)旨在满足先进人工智能不断变化的需求,不仅仅是提高处理能力(FLOPS),更要解决特定工作负载的需求,例如长上下文窗口、复杂推理和“世界模型”——通过预测进行模拟和学习的人工智能。 这些TPU有两个专业版本:**TPU 8t** 擅长大规模预训练,利用一个包含9,600个芯片的大型网络和“SparseCore”等创新技术来加速嵌入查找和原生FP4,从而提高吞吐量。 **TPU 8i** 针对服务和推理进行了优化。 两者都是谷歌云AI超算的核心组成部分,并配备了集成的基于Arm的Axion CPU,以消除数据准备瓶颈,持续为TPU提供数据。最终,TPU 8旨在优化人工智能生命周期的每个阶段,从而能够高效地训练和部署越来越复杂的人工智能模型,例如谷歌DeepMind的Genie 3。

对不起。

本次讨论围绕最近一次内核代码移除展开,起因是错误报告数量增加——其中许多由LLM生成——以及维护遗留代码的更广泛问题。一个关键的争论点是,LLM生成的报告是*导致*代码移除的原因,还是仅仅凸显了现有问题。 多位评论员认为,核心问题是内核由于其庞大而存在未维护的代码,这些代码如果作为独立实体存在会更清晰可见。有人担心用户停留在较旧的内核上,以及在非常旧的硬件上运行现代系统的可行性。 一次具体的移除——对某些业余无线电驱动程序的支持——受到了批评,一些人认为这并不能提高安全性,反而会影响爱好者。一个反复出现的主题是,如果LLM标记了错误,也应该提出修复方案。另一些人则反驳说,仅仅识别一个错误就有价值,无论是否有补丁,而忽略报告是有害的。 最后,对话涉及潜在的解决方案,例如用Rust重写代码,以减轻安全风险,即使维护有限。

## LLM驱动的内核代码移除 最近的报告表明,Linux内核正在减少代码,这得益于大型语言模型(LLM)生成的大量错误报告。一个典型的例子是AX.25模块的移除,该模块被业余无线电爱好者使用,原因是AI识别出的问题涌入过多,且缺乏维护者。 这一趋势凸显了一个更广泛的转变:内核本身对代码的需求正在减少,因为复杂性越来越多地在用户空间中处理。虽然有些人哀叹失去针对特定用例的功能,但许多人认为这是朝着更精简、更安全的内核迈出的积极一步,专注于核心硬件和I/O管理。 讨论中表达了对LLM产生大量误报的担忧,但也承认了它们在识别漏洞方面的效率日益提高。最终,这种情况强调了解决技术债务和优先维护活跃代码的必要性,即使这意味着放弃对较旧、较少使用的技术的支持。有些人建议为这种情况创建一个“爱好者内核”,而另一些人则提倡更好的维护指标和模块化。

谷歌的新TPU 8t和8i芯片,与Gemini联合设计,代表了人工智能性能和效率的飞跃。它们专为应对大型推理模型的挑战而构建,采用新颖的Boardfly拓扑结构、增加的SRAM和高带宽Virgo网络。值得注意的是,两款芯片现在都使用谷歌自研的Axion ARM架构CPU,以实现系统全面优化。 这些TPU支持JAX、PyTorch和vLLM等流行框架,并提供裸机访问,简化开发和部署。一个关键重点是功耗效率——通过硬件*和*软件的创新,包括集成电源管理和先进的液体冷却,提供高达两倍于上一代的能效比。 谷歌从芯片到数据中心设计的全栈控制,使其能够实现显著的节能效果,在短短五年内将每单位电力的计算能力提高六倍。这种整体方法使TPU 8t和8i成为应对苛刻人工智能工作负载的强大且可持续的解决方案。

彭博社 需要帮助?请联系我们 我们检测到您的计算机网络存在异常活动 要继续,请点击下面的框来确认您不是机器人。 为什么会发生这种情况? 请确保您的浏览器支持 JavaScript 和 cookies,并且没有阻止它们加载。 更多信息请查看我们的服务条款 和 Cookie 政策。 需要帮助? 关于此消息的咨询,请联系 我们的支持团队并提供下面的参考ID。 阻止参考ID:7ef64377-3e47-11f1-b3ef-b0c87b22d02b 通过彭博社订阅,随时掌握最重要的全球市场新闻。 立即订阅

## Uber 的账本教训:代价高昂的重写系列 Uber 在十年内完全重建了其账本系统五次,通常是因为激励机制存在缺陷,优先考虑令人印象深刻的项目而非具有成本效益的解决方案。一个特别昂贵的例子是 2017 年迁移到 DynamoDB。虽然 DynamoDB 在高吞吐量支付方面表现出色,但其基于消耗的定价模式对于需要大量读/写操作的账本来说是灾难性的——最终每年给 Uber 造成了约 800 万美元的成本。 该公司被迫限制在 DynamoDB 中的数据存储,并在 DocStore 之上构建了一个内部解决方案 LSG。这涉及进一步的开发,包括一个新的流式框架,尽管存在可行的替代方案。 作者认为整个事件凸显了一个关键缺陷:未能优先考虑成本优化。尽管存在明显的问题,Uber 在 AWS re:Invent 上将 DynamoDB 的实施呈现为成功案例,这一说法被 ByteByteGo 等出版物延续。 核心要点?技术是不够的。工程师必须在考虑技术需求的同时,考虑经济影响,并且激励机制应该奖励务实的解决方案,而不仅仅是复杂的解决方案。这个案例为支付工程师提供了一个警示故事,强调了“速算”和对系统成本的整体视图的重要性。

## Uber 800万美元 DynamoDB 决策:一次非责备的事故后分析 一篇近期文章引发了关于Uber因在其账本系统中使用DynamoDB而产生的800万美元成本的争论。虽然这笔费用数额很大,但许多评论员认为对于Uber规模和增长轨迹的公司来说,这只是一个四舍五入的误差。核心问题并非技术故障,而是缺乏前期成本分析以及潜在的激励机制不一致——一些人认为“简历驱动开发”将复杂性置于效率之上。 普遍的观点倾向于*不*追究责任。解雇个人因架构决策,尤其是那些已经运行多年的决策,被认为适得其反。许多人强调Uber面临的快速扩展和不断变化的约束,认为当时合理的决策可能后来会变得昂贵。一些评论员强调清晰的领导层定义“正确”的解决方案,并在实施*之前*培养成本预测文化的重要性。 最终,这场讨论指出了一个常见的科技行业挑战:平衡速度、可扩展性和成本效益,以及在缺乏完整背景的情况下判断过去决策的困难。这起事件是一个学习机会,而不是惩罚的原因。

GitHub CLI 会收集匿名遥测数据,以了解用户如何与该工具交互并确定未来开发的优先级。这些数据有助于团队评估功能的使用情况并确定需要改进的领域——例如,确定新命令是否被使用以及哪些标志受欢迎。 您可以查看遥测实现(因为它是开源的),甚至可以通过环境变量 (`GH_TELEMETRY=log`) 或配置 (`gh config set telemetry log`) 启用“日志模式”来预览将被发送的数据。 遥测是选择加入的;您可以使用环境变量 (`GH_TELEMETRY=false`) 或配置 (`gh config set telemetry disabled`) 来禁用它。数据会发送到 GitHub 的内部分析系统,并受其通用隐私声明管辖。 重要的是,使用 GitHub CLI 安装的扩展程序可能会独立收集他们自己的数据——请查看他们的文档以获取详细信息。 此信息专门与 GitHub CLI ("gh") 相关,*不*包括 GitHub Copilot 及其 CLI。

## GM-SEUS 数据集 v2 摘要 美国地面安装太阳能 (GM-SEUS) 数据集的第二个版本已发布,在初始版本的基础上扩展,包含超过 340 万个太阳能电池板,以及一个新的屋顶阵列数据集。该分析涉及使用 GDAL 和 DuckDB 在高性能工作站(AMD Ryzen 9 9950X,96GB 内存,4TB NVMe SSD)上处理数据,操作系统为通过 Windows 11 运行的 Ubuntu 24 LTS。 该数据集已转换为 Parquet 格式,以实现高效分析。屋顶阵列数据集包含 5,822 条记录,电池板数据集包含 3,429,157 条记录,阵列数据集包含 18,980 条记录。分析揭示了数据质量信息,包括每个数据集列中的空值百分比和唯一值计数。 生成了热图以可视化屋顶和地面安装阵列的分布。来源归属因地理位置而异,OSM 是屋顶阵列最常见的来源,而 OSM/USPVDB 是地面安装阵列的常见来源。还分析了容量统计数据,显示了基于安装年份的平均和最大容量趋势。数据突出了阵列和电池板数据集之间来源归属和覆盖范围的不一致性。

在最近的美国和以色列军事行动后,伊朗国家媒体声称,思科、瞻博网络、Fortinet和MikroTik的网络设备在袭击期间出现故障,即使伊朗已断开与全球互联网的连接——暗示通过隐藏的固件或后门进行蓄意破坏。这些说法尚未得到证实。 美国已确认开展网络行动,以扰乱伊朗通讯,作为“史诗狂怒行动”的一部分,但尚未直接回应具体指控。值得注意的是,所有四家被提及的厂商都有记录在案的安全漏洞历史,包括潜在监控植入物(思科)和可利用的代码(瞻博网络、Fortinet、MikroTik)。 中国国家媒体扩大了伊朗的说法,将其作为美国硬件中后门的进一步证据。伊朗的互联网仍然受到严重限制,自袭击开始以来,经历了创纪录的52天近乎完全关闭。虽然破坏程度尚不清楚,但该事件凸显了对网络基础设施安全性和广泛使用的设备中潜在漏洞的担忧。

更多

联系我们 contact @ memedata.com