## 行 vs. 列式数据:深入分析 从行式到列式数据存储的转变并非对关系数据库原则的背离,而是在该模型*内部*的一种不同编码方式。行式数据库将数据存储为完整的记录(行),使得添加新行和检索整个记录变得高效。然而,分析特定列——例如计算颜色直方图——需要读取不必要的数据。 列式数据库则反过来。每个列的数据存储在一起,优化了专注于特定属性的分析查询。虽然读取单个列很快,但重建完整行需要从多个位置收集数据,使得行检索速度较慢。 这可以被视为一种极致的数据库规范化形式。列式存储不像单个宽表,更像多个窄表,通过隐式主键(数据位置)连接。本质上,“重建一行”*就是*一个连接操作。 理解这种视角突出了数据格式操作在常见查询操作(如投影和连接)背后的作用。虽然通常是一个隐藏在查询后的实现细节,但将列式存储识别为一种特定的数据编码方式,为数据库性能和优化提供了一个强大的思维模型。
## GM-SEUS 数据集 v2 摘要
美国地面安装太阳能 (GM-SEUS) 数据集的第二个版本已发布,在初始版本的基础上扩展,包含超过 340 万个太阳能电池板,以及一个新的屋顶阵列数据集。该分析涉及使用 GDAL 和 DuckDB 在高性能工作站(AMD Ryzen 9 9950X,96GB 内存,4TB NVMe SSD)上处理数据,操作系统为通过 Windows 11 运行的 Ubuntu 24 LTS。
该数据集已转换为 Parquet 格式,以实现高效分析。屋顶阵列数据集包含 5,822 条记录,电池板数据集包含 3,429,157 条记录,阵列数据集包含 18,980 条记录。分析揭示了数据质量信息,包括每个数据集列中的空值百分比和唯一值计数。
生成了热图以可视化屋顶和地面安装阵列的分布。来源归属因地理位置而异,OSM 是屋顶阵列最常见的来源,而 OSM/USPVDB 是地面安装阵列的常见来源。还分析了容量统计数据,显示了基于安装年份的平均和最大容量趋势。数据突出了阵列和电池板数据集之间来源归属和覆盖范围的不一致性。
在最近的美国和以色列军事行动后,伊朗国家媒体声称,思科、瞻博网络、Fortinet和MikroTik的网络设备在袭击期间出现故障,即使伊朗已断开与全球互联网的连接——暗示通过隐藏的固件或后门进行蓄意破坏。这些说法尚未得到证实。
美国已确认开展网络行动,以扰乱伊朗通讯,作为“史诗狂怒行动”的一部分,但尚未直接回应具体指控。值得注意的是,所有四家被提及的厂商都有记录在案的安全漏洞历史,包括潜在监控植入物(思科)和可利用的代码(瞻博网络、Fortinet、MikroTik)。
中国国家媒体扩大了伊朗的说法,将其作为美国硬件中后门的进一步证据。伊朗的互联网仍然受到严重限制,自袭击开始以来,经历了创纪录的52天近乎完全关闭。虽然破坏程度尚不清楚,但该事件凸显了对网络基础设施安全性和广泛使用的设备中潜在漏洞的担忧。