每日HackerNews RSS

## 工作流执行的 Postgres 可扩展性:摘要 此基准测试调查了单个 Postgres 服务器为持久工作流执行系统提供支持的可扩展性。核心发现:**Postgres 扩展性极佳,能够处理每秒 144,000 次写入 – 相当于每天 120 亿次写入。** 该研究侧重于写入性能,这对于工作流持久性(检查点输入、结果和步骤结果)至关重要。测试包括原始 Postgres 写入、直接工作流执行以及 Postgres 支持的队列。单个服务器直接处理高达 **每秒 43,000 个工作流**,以及 **每秒 12,100 个排队工作流**(通过多个队列扩展到 **30,600**)。 识别出的主要瓶颈是 **将 Postgres 预写式日志 (WAL) 刷新到磁盘**,因为每次写入都需要在确认完成之前进行 WAL 更新。队列性能最初受到锁争用的影响,通过在多个队列之间分配工作来解决。 这些结果表明,Postgres 即使对于要求苛刻的工作流应用程序,也是一种可行且强大的后端。基准测试代码是开源的,在高性能 AWS RDS 实例上进行(96 个 vCPU,384GB RAM,120K IOPS)。

## Postgres 扩展性:讨论总结 一个 Hacker News 讨论围绕 PostgreSQL 的扩展性展开,起因是 dbos.dev 的基准测试声称可达每秒 144K 次写入。虽然令人印象深刻,但评论员们对实际性能表示担忧,尤其是在索引方面。 一位用户报告称,随着表大小的增长,Postgres 的插入性能显著下降(达到 1 亿行时,速度降至原始速度的几分之一),这与 MySQL 在类似条件下的更线性扩展形成对比。问题似乎与索引增长和写入放大有关。 提出的解决方案包括将表分离为“热”段(无索引)和“冷”段(带索引),表分区以及调整 Postgres 配置(WAL 设置、检查点、自动清理)。 对话还涉及水平扩展的挑战,并建议使用 DBOS、Temporal 或 Pigsty 等工具来实现高可用性和升级。 然而,一些人认为垂直扩展通常就足够了,而分布式计算会增加复杂性。 人们对 Postgres 与 MySQL 等更简单数据库相比的运营开销表示担忧,以及对专业 DBA 知识的需求。 最终,讨论强调了虽然 Postgres *可以* 扩展,但实现最佳性能需要仔细考虑工作负载、配置以及潜在的架构调整。

## DuckDB 全文搜索:快速入门 本文探讨了 DuckDB 的全文搜索 (FTS) 功能,在此之前已经介绍了 DuckDB 的基本知识。虽然基本的文本查询存在局限性,但 FTS 允许使用 Okapi BM25 等算法进行更全面和可配置的搜索。 DuckDB 的 FTS 扩展提供了词干提取(将单词还原为其词根)、停用词删除和去除重音等功能。查询可以通过术语频率 (k₁) 和长度归一化 (b) 参数进行调整。虽然它不如 Elasticsearch 或 Postgres 等解决方案功能丰富,但它是一个坚实的基础。 作者通过处理一系列电子邮件、将其导入 DuckDB 并创建 FTS 索引来演示 FTS。他们强调了局限性,例如缺少 Postgres 中提供的术语高亮显示功能,并提供了一个用于预处理 .eml 文件的 Python 脚本。文章详细介绍了如何使用参数来排除事务性电子邮件,并根据术语频率和文档长度调整评分。 最终,DuckDB 的 FTS 由于其易于设置和速度,非常适合探索性数据分析。虽然更复杂的解决方案可能适用于高级用例,但 DuckDB 为全文搜索提供了一个强大且易于访问的入口。作者计划在未来的文章中探索向量搜索。

## Hacker News 上关于 DuckDB 的讨论 最近 Hacker News 的讨论强调了 DuckDB 的日益普及及其多功能性,DuckDB 是一种进程内分析数据库。用户称赞其易用性,特别是 DuckDB-WASM 允许在浏览器中直接进行交互式 SQL 基准测试(示例:[https://sql-benchmark.nicklothian.com/](https://sql-benchmark.nicklothian.com/))。该基准测试的代码是开源的([https://github.com/nlothian/llm-sql-benchmark](https://github.com/nlothian/llm-sql-benchmark))。 除了基准测试,用户还在使用 DuckDB 进行日志分析(通过查询 S3 中的 Parquet 文件来替代 Cloudwatch/Loki),并将其与各种数据源(如 MySQL、PostgreSQL 和 S3)集成,而无需导入数据。 然而,性能可能受底层数据存储的索引限制。 讨论还涉及诸如将 DuckDB 编译为单文件发行版(与 SQLite 的简单性相比)以及运行时扩展加载的担忧等挑战,尽管已经采取了密钥签名等安全措施。 替代方案,如 ClickHouse,也被提及。 最后,用户探讨了使用 Datasette 和 msgvault 等工具发布可搜索的电子邮件存档等用例。

## Toki Pona 社区声明 – 2026 年 4 月 27 日 Toki Pona 社区对其创造者 Amatullah(前 Sonja Lang)的福祉深感担忧。二十多年来,她慷慨地与世界分享 Toki Pona,尽管她自己对公共生活有所保留,但仍然培养了一个充满活力的社区。 最近,从 2023 年年中开始,Amatullah 的行为发生了变化,表现出越来越不稳定的沟通和受迫害的感觉。社区成员试图支持她,但发现很难应对这种情况,并意识到可能存在精神病变的迹象。由于需要保护 Amatullah 和社区,这些努力变得复杂,导致她在一月份被撤销 Sitelen Pona Publishers & Typographers Association 的主席职务。她仍然控制着关键的网站域名。 目前,Amatullah 正在经历严重的现实脱节,并在网上公开表达。社区敦促任何认识她的人鼓励她寻求专业帮助,强调这不是“取消”,而是呼吁关怀。他们建议不要在网上与她互动,以避免加剧情况。 社区正专注于通过新网站(tokipona.net & sitelenpona.net)维持 Toki Pona 的可访问性,并强调该语言和社区超越任何个人。他们提供支持和共同悲伤的空间,并欢迎通过 [email protected] 做出贡献。

对不起。

2026年4月,一位居住在哈萨克斯坦阿拉木图的美国工程师,在“美国之角”发表演讲,庆祝美国诞辰250周年。作为该地区为数不多的美国人之一,他渴望分享他对祖国和职业——半导体行业的看法。 演讲探讨了美国文化与半导体发展历史之间令人惊讶的联系,从爱迪生最初的发现开始,追溯到贝尔实验室,直至硅谷的诞生。他强调了一种反复出现的模式:杰出人才离开既定机构,开辟自己的道路,由创新和对进步的渴望所驱动。 作者有意将演讲命名为“这只能在美国发生”,以引发讨论,但发现他的哈萨克观众过于礼貌,不愿直接辩论。最终,他认为这个标题是准确的,认为核心的美国价值观——言论自由、精英主义和对新思想的开放——对于营造能够促成这项突破性技术成就的环境至关重要。这是一次对美国创造力的庆祝,也是对支撑其价值观的反思。

对不起。

启用 JavaScript 和 Cookie 以继续。

## PhotoRec:Hacker News 上讨论的数据恢复工具 最近 Hacker News 的讨论强调了 PhotoRec 和 dd-rescue 在从损坏或擦除的存储介质中恢复数据方面的强大功能。用户分享了成功案例,包括从专业人士认为无法恢复的设备中恢复数据,以及在意外删除后挽救客户照片。 共识是**始终首先使用 dd-rescue 创建磁盘镜像**,因为恢复机会可能有限。然后使用 PhotoRec 筛选镜像以查找可恢复的文件,有时甚至可以发现较旧的、被遗忘的数据。 对话还涉及了恢复过程中意外发现的内容——包括潜在的敏感内容——以及恢复特定文件类型(如 Mac 格式或专业视频)的挑战。一些用户甚至正在开发工具来自动化和改进恢复过程,而另一些用户则提倡在丢弃驱动器之前使用安全的数据销毁方法。总的来说,PhotoRec 被誉为一种有价值且易于访问的数据恢复工具,即使对于非专业人士也是如此。

Kured(KUbernetes REboot Daemon)是一个Kubernetes daemonset,当底层操作系统软件包管理系统指示需要重启时,执行安全的自动节点重启。它会监视重启信标文件的存在,例如 /var/run/reboot-required,或信标命令的成功运行。利用API服务器中的锁来确保一次只有一个节点重启。在存在活跃的Prometheus告警或选定的pod时,可以选择性地推迟重启。在重启前对worker节点进行cordon和drain操作,并在重启后解除cordon。所有文档请参见 https://kured.dev。 还有更多!如果您对kured有任何疑问、反馈或问题:我们遵循CNCF行为准则。 您的反馈始终受到欢迎!Kured是云原生计算基金会Sandbox项目。 Linux基金会®(TLF)拥有注册商标并使用商标。有关TLF商标列表,请参阅商标使用。

对不起。

## TRiP:一个从零开始的Transformer引擎 TRiP是一个轻量级、一体化的C语言引擎,用于Transformer AI模型。它历时18个月作为个人学习项目开发完成,支持Gemma、Llama 2、PaliGemma和GPT-2等模型的推理、训练、分词器创建、聊天和视觉功能。 该项目的主要目标是教育性的——通过手工编码实现来深入理解Transformer的内部机制,避免使用PyTorch或TensorFlow等外部框架。虽然不旨在与llama.cpp等优化库竞争,但TRiP提供了完整的反向传播训练,并支持AdamW和各种推理采样方法。 主要特性包括对SafeTensors和Karpathy格式的支持,权重类型(bf16、fp16、fp32)以及内存优化。代码的一小部分利用AI生成的组件来处理JSON解析和图像处理等任务。 TRiP专为学习和实验而设计,提供了一个清晰、注释良好的代码库,展示了Transformer架构和反向传播。它采用CC BY-NC 4.0许可,仅供非商业用途。

对不起。

这封邮件讨论了CVE-2026-31431,一个Linux内核中的严重“CopyFail”漏洞,允许本地权限提升。该问题出现在4.14版本的内核中(提交72548b093ee38a6d4f2a19e6ef1948ae05c181f7),并在6.18.22、6.19.12和7.0版本中得到修复,包含特定提交。 然而,较旧的长期支持(LTS)内核 – 6.12、6.6、6.1、5.15和5.10 – 仍然未修复。由于API变更,将修复移植到这些旧版本变得困难。一个临时补丁正在共享,但承认它可能并不完美。 讨论强调了针对此内核漏洞,分发方缺乏提前预警,因为报告者没有使用linux-distros邮件列表。该漏洞被认为非常严重,促使快速响应和临时解决方案的开发。

## Fame Boy:用 F# 构建一个 Game Boy 模拟器 出于理解计算机*实际*工作方式的愿望,Nick Kossolapov 启动了用 F# 构建 Game Boy 模拟器“Fame Boy”的项目。他从像“从 NAND 到 Tetris”这样的课程和 CHIP-8 模拟器 (Fip-8) 开始学习,以掌握核心计算机概念。 Fame Boy 历经数月完成,可在桌面和网络上运行,利用简单的接口——帧缓冲、音频缓冲、`stepEmulator()` 和 `getJoypadState()`——将核心模拟与前端分离。该模拟器紧密模拟了原始 Game Boy 硬件,为 CPU 建立了一个功能性领域模型,并使用强大的 `IoController` 来管理硬件交互。 性能优化至关重要,导致在惯用的 F# 和实际速度之间做出了权衡。为了内存访问,采用了可变性,并且性能分析表明,直接数组访问比领域驱动抽象带来了显著的收益。AI 工具帮助进行代码审查、错误查找(包括一个关键的定时器问题),甚至性能改进。 最终,Fame Boy 是一次成功的学习经历,加深了 Kossolapov 对计算机体系结构的理解,并提供了一个由他对童年 Game Boy 冒险的回忆所驱动的令人满意的项目。他分享了关于开发过程的详细见解,包括性能基准测试以及函数式纯度和实际实现之间的平衡。

## F# Game Boy 模拟器 – Hacker News 摘要 一位开发者使用 F# 编程语言构建了一个 Game Boy 模拟器(可在 [nickkossolapov.github.io](https://nickkossolapov.github.io) 找到)。该项目在 Hacker News 上引发了讨论,突出了 F# 的优势,并将其与 C# 进行比较。 许多评论员称赞 F# 的优雅和函数式方法,认为它在不增加最新版本中复杂性的情况下,提供了对 C# 的改进。讨论中提出了一些技术要点,涉及优化,特别是使用结构体减少分配,以及解决与 Fable(F# 转换为 JavaScript)相关的数据截断问题。 对话还涉及“手工编码”与 AI 辅助开发之间的价值,一些人认为即使速度较慢,动手学习和解决问题也很重要。其他人承认了 AI 的实用性,尤其是在调试方面。最后,讨论扩展到周期精确的模拟器以及忠实再现复古游戏机视觉效果的挑战。

该流程概述了一个用于评估和嵌入数据的三阶段流程,可能与在线列表相关。 **阶段 1 (s02b):** 下载照片网址,然后使用 CLIP(一个图像-文本模型)根据预定义的提示对每张图像进行评分。结果保存为 Parquet 分片到共享目录(“./shared”),跨 6,000 个批次,利用并行处理。 **阶段 2 (s04):** 使用 SBERT(一个句子嵌入模型)嵌入前 200K 条文本评论。每个工作进程处理数据的一个切片,并将嵌入写入共享目录中的单独 Parquet 分片,再次使用并行处理(最大 200 个并发工作进程)。 **阶段 3 (s05c):** 使用 Anthropic 的 Claude Haiku 模型验证精选图像。对于每个图像网址,模型确定列表是否有效,并将结果(包括判决)保存为 Parquet 分片。此阶段限制为 64 个并发工作进程。 `burla` 库促进了远程并行映射操作以实现高效处理,并且缓存用于 CLIP 和 SBERT 权重/模型。

## Airbnb 图片抓取与争议 - 摘要 一名开发者抓取了 194 万张 Airbnb 图片,使用 Burla 的计算平台,根据“氛围”对房源进行分类,例如“鸦片窝”、“宠物客串”和“凌乱的厨房”。该项目托管在 burla-cloud.github.io 上,引发了 Hacker News 的讨论。 虽然该项目被描述为大规模数据分析和代理测试的实验,但许多评论员认为这是 Burla 的内容营销,可能与 Airbnb 联合进行。Burla 的一位创始人澄清说,这是一个独立的实验,旨在探索代理能力,承认了过度的品牌宣传。 人们对该项目的方法论、潜在的诽谤(将房源归类为“鸦片窝”)以及对数据来源 Inside Airbnb 服务器的压力——在未使用官方访问方式的情况下——表示担忧。该开发者道歉并承诺向 Inside Airbnb 捐款。该项目还因根据房源照片对房东的社会经济地位做出假设而受到批评。

更多

联系我们 contact @ memedata.com