## 人工智能推理:令人惊讶的洗车测试
最近的测试揭示了人工智能推理方面的显著弱点,即使是领先的模型如GPT-5.1和Claude Sonnet 4.5也存在。 “洗车测试”——简单地询问是步行还是开车50米*去洗车行洗车*——总是让人工智能出错。
在测试的53个模型中,令人震惊的是42个最初回答“步行”,专注于短距离而不是将*汽车*送到洗车行的核心要求。 只有11个模型最初答对了,并且一致性证明更具挑战性;只有5个(Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro和Grok-4)在10次尝试中都能可靠地正确回答。
有趣的是,人类的表现(71.5%正确)超过了大多数人工智能,与GPT-5的可靠性相符。 该测试凸显了一个关键的“可靠性问题”——许多模型*有时*可以正确推理,但在生产中却会不可预测地失败。 这表明人工智能通常优先考虑学习到的启发式方法(如“短距离=步行”)而不是上下文推理。
虽然上下文工程——提供结构化示例——可以提高性能,但洗车测试强调了在广泛应用于复杂应用之前,人工智能需要更强大和一致的推理能力。
## 突破性进展提升无阳极锂离子电池性能
哥伦比亚大学的研究人员开发出一种新型凝胶电解质,有望克服无阳极锂离子电池技术中的关键挑战。这种电池通过消除阳极来提高能量密度,但此前由于不均匀的锂沉积形成有害的枝晶,导致安全问题和寿命有限。
这种新型凝胶电解质利用独特的聚合物网络,它排斥锂离子,同时吸引溶剂,形成保护层以防止枝晶形成。实验室测试表明,该电解质在实际条件下仍能保持80%以上的容量,并显著提高热稳定性——降低电动汽车在加热/冷却方面的能量消耗。重要的是,它经受住了严格的测试,没有发生热失控,这与传统的液体电解质不同。
这项创新有望提供更安全、更持久、能量密度更高的电动汽车电池,*无需*像固态电池那样的高昂成本。专家认为,像这种凝胶电解质一样,对锂离子技术的持续改进对于更广泛地采用电动汽车至关重要,因为它可以在可承受的价格范围内提供更长的续航里程和更快的充电速度。
## Open AgBot:模块化机器人平台
Open AgBot 是一个完全开源硬件的机器人计算单元和参考平台,专为农业应用及其他领域设计。它基于可堆叠的10厘米 x 10厘米模块标准构建,采用通过以太网连接的两个Avaota A1 SBC。
**板A** 处理实时控制——导航、测绘和安全——直接通过ESP32与电机接口。**板B** 专注于感知,处理视觉数据(如YOLO检测),以减轻主控制器的负担。
该系统具有双GNSS RTK,可实现厘米级定位,并原生支持CAN总线。它采用坚固、防水的外壳,适用于户外使用。
目前,核心模块大部分已制造完成,但需要改进ESP32载板。完整的AgBot平台,集成电机、电池和悬挂系统,在概念上已经完成,但需要组装和测试。它的目标是成为一个通用、可用于现场的开发平台,提供完整的开源原理图、PCB布局和固件。
DMMSY 是一个高性能的 C99 单源最短路径 (SSSP) 算法实现,比传统的 Dijkstra 算法实现了显著的加速。该算法发表于 STOC 2025 会议论文,通过使用递归子问题分解代替全局优先队列,克服了 $O(m + n \log n)$ 的复杂度限制,达到了 $O(\log^{2/3} n)$ 的复杂度。
主要特性包括:通过手动内存管理实现零分配设计,优化的压缩稀疏行 (CSR) 布局,以及模块化架构以方便维护。基准测试表明,加速倍数超过 20,000 倍,尤其是在具有 250k–1M+ 节点的图上。
该项目提供了一个基准测试套件用于性能比较,并针对使用 Clang 优化的现代 x86_64 架构设计。它采用双许可模式(MIT 和 Apache 2.0),并欢迎贡献。核心逻辑非常精简(1M 节点约为 800ns),有效消除了排序瓶颈。