## 深入数据压缩:从 Kafka 到 ZSTD 这次探索始于一个个人项目——构建 Kafka Broker (MonKafka)——以及意识到对数据压缩技术的理解有限。Kafka 支持 GZIP、Snappy、LZ4 和 ZSTD,促使我深入研究它们的内部机制。 压缩旨在减少数据大小以节省成本并提高性能,分为两种主要类型:无损压缩(完美重建)和有损压缩(近似)。常见的技术包括行程长度编码、Lempel-Ziv (LZ)——许多现代方案(如 GZIP 中使用的 DEFLATE)的祖先——以及霍夫曼编码。 **GZIP** 使用 DEFLATE 算法,结合了 LZ77 和霍夫曼编码。**Snappy** 优先考虑速度,以牺牲压缩比为代价,提供更快的压缩/解压缩速度。**LZ4** 在 Snappy 的基础上构建,实现相似的速度和可比的压缩比。最后,**ZSTD** 代表了一次飞跃,在保持 LZ4 类似速度的同时,匹配或超过了 Deflate 的压缩比,利用了霍夫曼编码、有限状态熵 (FSE – 一种更高效的算术编码形式) 以及可训练的字典来优化特定数据类型的压缩。 所有这些算法都依赖于有效地识别和表示重复模式,在压缩比、速度和计算复杂度之间进行权衡。理解这些权衡对于优化大规模系统中的数据存储和传输至关重要。
## 硅谷对公共科学的剥削
硅谷的成功深深植根于数十年来政府资助的研究——从互联网和半导体到生成式人工智能——但科技精英们现在却在积极破坏孕育他们财富的体系。彼得·蒂尔和马克·安德森等人物利用政治关系,在特朗普政府时期推动大幅削减联邦科学资金,目标包括NSF、NIH和NASA等机构。
这些削减不仅影响了研究,还制造了一批易受剥削的STEM博士,被受益于资金缩减的公司所利用。由蒂尔的风险投资推动的蓬勃的零工经济,例如Mercor和ScaleAI等公司,为研究人员提供低薪、不稳定的工作,训练人工智能模型——本质上是利用因学术机会减少而*创造*的市场。
这种转变将财富创造置于基础科学进步之上,将研究视为成本中心而非公共利益。 硅谷虽然把自己塑造成创新的倡导者,但实际上正在拆除使其成功成为可能的公共基础设施,将资源重新导向私人利润,并在过程中剥削一代科学家。
## LLM 与“足够好”的数据分析的兴起
大型语言模型 (LLM) 正在迅速 democratize 之前复杂的任务,数据分析就是下一个领域。虽然 LLM 最初擅长生成平均水平的*内容*,但现在它们能够提供平均水平的*数据洞察*——这是一个强大的转变。
过去,提取有意义的数据需要专门技能(如 SQL)和大量精力。现在,像 rawquery 这样的平台允许用户用简单的语言*描述*他们想要进行的分析。然后,LLM 代理处理技术复杂性——编写查询、生成图表和提供结果。
提供的示例表明,只需提出一个问题,就可以轻松确定营销活动是否影响了收入。无需复杂的归因建模或数据工程。LLM 处理“平均”工作,让用户专注于*思考*数据及其影响。
这并非关于取代数据专业人员,而是赋予每个人利用他们数据的能力。这是关于将直觉知识转化为可操作的洞察,快速高效地进行,并认识到快速提供的“平均”结果可能是真正神奇的。
## 识字速通II:摘要
本文详细介绍了作者加速学习汉字的一种极端方法,摒弃了“通过阅读来学习阅读”的常见建议。作者认为90%的词汇覆盖率不足以实现真正的理解,因此目标是99%——这需要大量的、专注的记忆。
由于在多个平台(抽认卡、词典、LLM)上查找汉字信息效率低下,作者构建了一个由LLM(Claude Code)驱动的自定义JavaScript扩展程序。这个“信息提供者”将字源、书法视频、笔顺和形态分析直接整合到抽认卡界面中,并通过复杂的键盘层访问。
重点从阅读转移到*快速信息获取*,将查找过程从30秒缩短到不到一秒。作者形容自己“被信息轰炸”,为了接近完全掌握汉字,不断挑战认知处理的极限。最终目标是绕过自然的学习曲线,强行将符号直接输入记忆。
巴西商人鲁本斯·梅宁庆祝70岁生日时,推出了一款极其稀有的波特酒:“非常非常陈年的陶尼”,陈酿了150年。 这种独家葡萄酒仅生产了200瓶,每瓶售价1万欧元,并装在斜面水晶瓶中。 标签本身是他妻子贝亚特丽斯送给他的惊喜礼物。
梅宁已向他的葡萄牙酒庄梅宁杜罗酒庄(与Horta Osório品牌一同)投资了6500万欧元,占地185公顷的葡萄园——包括珍贵的古老葡萄藤。 他雇佣了一支由著名酿酒师蒂亚戈·阿尔维斯·德·索萨和曼努埃尔·萨尔丹哈领导的团队,他们从杜罗地区各地精心挑选葡萄酒,以酿造这款独特的混合酒。
目前每年生产65万瓶,梅宁的目标是达到100万瓶,并计划进一步收购葡萄园和建造葡萄酒旅游酒店,这得益于预计每年20%的回报。 尽管全球波特酒销量下降,梅宁专注于高端品牌,他认为卓越的波特酒是一个不断增长的市场。 他设想巴西将成为他最大的葡萄酒市场,超过丹麦和美国,这源于他对杜罗河谷的热爱。
最近一篇VMware博客文章,基于Principled Technologies的研究,声称VMware Cloud Foundation (VCF) 9.0与vSphere Kubernetes Service (VKS)在Pod密度方面比Red Hat OpenShift高出“5.6倍”。然而,这一说法具有误导性,因为测试方法存在缺陷。
该研究将运行300个虚拟worker节点(每台服务器75个VM)的VKS与运行在4个裸机节点上的OpenShift进行了比较。这种巨大的规模差异,而非效率,推动了标题数字。OpenShift实际上实现了更高的每节点Pod密度(1,850 vs. VKS的140)。
此外,测试使用了合成的、轻量级的工作负载,这不能反映现实世界中的应用需求。VKS的优势来自于通过大量小VM最小化调度争用,这种策略在资源密集型生产负载下无法维持。Red Hat指出缺少一个比较——OpenShift Virtualization,它提供了可比较的虚拟化架构。
最终,该基准测试衡量的是分割效应,而不是真正的平台性能,报告的数字与实际业务现实脱节。Red Hat提倡根据具有代表性工作负载的每节点结果来评估Pod密度。
## PROBoter:自动化嵌入式系统安全分析
对嵌入式系统,特别是PCB级别的安全分析,通常是一个耗时的过程,涉及目视检查、逆向工程和探测。PROBoter平台旨在自动化这些任务,使安全分析人员能够专注于更高层次的测试。PROBoter由SCHUTZWERK与肯普滕高等专业学校合作开发,具有最多四个独立探测器的自动化探测功能、完全集成的超高分辨率摄像头系统,以及采用标准和3D打印部件的简单、经济高效的设计。
该平台自动化了PCB图像生成、使用神经网络进行视觉分析以识别组件和引脚,以及(半)自动化探测。它简化了从PCB拆解到报告生成的流程,专注于自动化重复性任务,例如组件定位、引脚识别和电气连接映射。未来的开发包括自动化运行时信号分析和安全测试。
PROBoter的硬件和软件是开源的,可在GitHub上获取。该项目旨在构建协作知识库,缩短分析时间并提高嵌入式系统安全评估的效率。下一篇博文将详细介绍硬件平台及其自动校准功能。