NUFORC数据库是一个免费开放、独立的在线档案,收录了超过25年的不明飞行物/不明空中现象目击报告——此类数据库中规模最大的一项。NUFORC工作人员会审核每份提交的报告,并根据目击事件的异常程度和可信度将其分为四个等级。 **第一级**报告详细描述了与异常飞行器最引人注目的遭遇,而**第二级**报告涉及具有无法解释特征的物体,例如速度或推进方式。**第三级**涵盖其他无法解释的报告,**第四级**包括可能归因于常规原因的目击报告,分为可能、可能较大或确定。 用户可以按日期、地点、形状或等级浏览报告。NUFORC会剔除明显的恶作剧,但会以原始提交的形式呈现报告,不声称其有效性。该数据库会随着报告的处理而不断更新,为研究人员和公众提供宝贵的资源。
## ClickHouse 聚合性能改进 - 总结
这项工作(PR #87366)解决了在看似相同的 ClickHouse 查询中观察到的显著性能差异,特别是那些使用 `uniq()` 聚合的查询。 根本原因在于 ClickHouse 处理分组值的方式——将它们视为 `UInt16` 与更大的类型——从而影响了使用的聚合数据结构。
ClickHouse 使用基于数组或标准哈希映射来进行聚合。 当按较小的数字分组时,使用数组,从而可以有效地并行合并聚合状态。 较大的值会触发标准哈希映射,从而阻碍并行化。 最初的查询使用了 `UInt16`,导致较慢的两级哈希映射合并。 添加 `0 +` 强制使用 `UInt64`,从而实现更快的单级合并。
该实现侧重于通过在线程之间分配工作而无需竞争条件,从而为单级哈希映射启用并行合并。 开发涉及克服内存损坏问题(与线程不安全的 `DB::Arena` 内存管理相关)以及优化琐碎的聚合函数(如 `count()`),在这些函数中,并行化的开销超过了收益。 火焰图和仔细的日志记录对于识别性能瓶颈和调试至关重要。 最终解决方案包括优化,以在并行合并期间保持哈希映射索引以提高性能。
## 用音乐可视化重塑人工智能:一种新方法
Positron 正在通过专注于音乐可视化来应对现代人工智能开发中的挑战——大规模、反馈循环慢和成本高昂。他们认为这是一个理想的“原始”问题,对缺陷具有容忍性,并能使用更小的 AI 模型进行快速迭代。他们的开源项目 µTate 旨在通过为开发者提供贡献平台并获得经济奖励来启动一种名为 PrizeForge 的筹款解决方案。
核心思想是*远离*当前越来越大的人工智能模型趋势,转向“小型人工智能”——利用诸如权重重用和贪婪粒子方法等技术来降低计算需求。音乐可视化独特地受益于“幻觉”——意想不到的、迷幻的结果——将模型缺陷转化为理想特征。
µTate 使用 Rust 构建,利用 Vulkan 等现代图形 API,并专注于高效的实时性能。该项目强调开放开发,欢迎贡献,并旨在创建一个充满活力的社区,尤其是在本地 LLM 爱好者群体中。最终,Positron 设想了一个良性循环,即快速开发、用户反馈和经济激励,证明即使使用更小、更易于访问的 AI,也可以取得重大进展。