## Floe 中的布隆过滤器:更快的查询与降低的误判率
Floe 利用布隆过滤器——一种概率数据结构,能够快速确定一个元素*绝对不在*一个集合中——来大幅加速 SQL 查询,特别是哈希连接。这些过滤器避免了不必要的数据解压缩和哈希表探测,从而提高效率。
Floe 在两个关键领域使用布隆过滤器:在存储引擎内部,在解压缩*之前*过滤列;以及在哈希连接期间,预先过滤探测侧的行。自适应过滤会根据统计信息动态地启用/禁用存储引擎过滤,从而最大限度地提高性能。
核心优化集中在降低误判率上。标准方法会导致过滤器填充时误判率升高。Floe 通过为每个 uint32 存储*两个*比特,并使用单个哈希函数确定比特位置,从而提高了准确性。这几乎将准确性提高了一倍(将误判率从 11.7% 降低到 5.7%),且性能成本最小——每行仅增加一纳秒——并避免读取可能达到数十千兆字节的不必要数据。
这种方法优先考虑固定大小(256KB),以实现可预测的性能、无锁访问和高效的缓存利用率,使其成为像 Floe 这样的并发数据库引擎的理想选择。未来计划进行进一步优化,例如使用 SIMD 指令。
## 黑暗森林互联网:人工智能与安全未来
受刘慈欣《三体》启发,一种令人不安的现实正在浮现:在人工智能时代,可见性等同于脆弱性。传统的网络安全——专注于检测和响应——正变得过时,因为人工智能工具以前所未有的速度和规模自动化侦察、漏洞发现和利用。像PentAGI和Anthropic的Claude这样的工具展示了人工智能即使在多年人工审查后也能发现关键缺陷的能力。
互联网正在从“开放城市”转变为“黑暗森林”,任何信号——开放端口、IP地址或DNS记录——都会吸引自动“猎人”。这需要超越“零信任”走向“零可见性”:基础设施在证明加密身份之前保持完全隐藏。
这种架构转变涉及通过网络隐藏、加密协商和默认拒绝网络来消除暴露,例如OpenNHP项目所示。核心问题不再是*如何检测*攻击,而是*如何使攻击变得无关紧要*,通过完全消除攻击面。未来的安全在于消失的门,而不是更好的锁,因为人工智能会无情地扫描任何它可以找到的东西。
## 重思考循环神经网络中的反向传播
这项工作研究了标准的反向传播通过时间(BPTT)的反向传递对于训练循环神经网络(RNN)是否至关重要。作者通过推导证明,误差信号*可以*向前传播,从而无需反转序列。这种“通过时间的误差前向传播”(FPTT)涉及一个“预热”阶段来建立初始误差条件,然后迭代地重建误差轨迹。
虽然在数学上是合理的,并且已成功应用于简化的顺序MNIST任务,但FPTT存在显著的数值不稳定问题。核心问题在于当网络“忘记”信息时(循环雅可比矩阵的特征值小于1),由于雅可比矩阵求逆,误差会在前向传播过程中被放大。
尽管存在这些局限性,但该研究为了解BPTT的基本原理提供了宝贵的见解,并探索了替代学习范式的潜在途径,尤其是在神经形态硬件或理解生物学习方面。作者最终决定不再进一步开发,因为存在不稳定性,但分享他们的发现,希望能够激发未来对更有效和更具生理合理性的RNN训练方法的研究。该研究强调了RNN训练中计算成本、内存使用和数值稳定性之间的权衡。