福特汽车重新聘用了 350 多名资深工程师(内部戏称为“灰胡子”),以纠正因过度依赖人工智能检测系统而导致的质量控制失误。在公司的自动化策略导致数十亿美元的损失和大规模召回问题后,高管们承认,人工智能缺乏识别复杂设计缺陷所需的细腻判断力。 这些经验丰富的工程师目前负责进行人工质量审查并培训公司的人工智能系统。这种以人为本的转变已经取得了成效:福特近期在 16 年来首次位居 J.D. Power 新车质量研究(IQS)榜首。 尽管由于遗留问题,福特目前仍是美国召回数量最多的汽车制造商,但管理层坚持认为这种策略转型正在奏效。福特并不打算放弃人工智能,而是转向一种混合模式,即在资深员工的专业知识和直觉支持下,将技术作为一种辅助工具。
ClickHouse Cloud 推出了 **WAL-RUS**,这是一款基于 Rust 开发的开源工具,用于 PostgreSQL 的备份和 WAL 归档。尽管广泛使用的 WAL-G 非常可靠,但其基于 Go 的架构依赖于垃圾回收机制,会导致不可预测的“锯齿状”内存模式和较高的虚拟内存消耗。这种不可预测性迫使运维人员必须过度配置资源,而这些资源本可用于数据库本身。
WAL-RUS 的设计旨在通过以下优势解决这些运维挑战:
* **可预测的内存使用**:利用 Rust 的手动内存管理,WAL-RUS 将峰值虚拟内存消耗比 WAL-G 降低了 70% 以上。
* **守护进程架构**:它通过保持持久连接来实现连续、高性能的流式传输,避免了频繁创建新进程带来的开销。
* **无缝兼容性**:WAL-RUS 完全兼容 WAL-G 的配置和归档格式,支持轻松迁移。
WAL-RUS 专为资源受限的环境打造,在不牺牲功能的前提下提供了稳定、高效的性能。它目前支持 ClickHouse Cloud 的托管 PostgreSQL 服务,并作为一个欢迎社区协作的开源项目持续发展。
本指南概述了如何配置双节点 AMD Strix Halo 集群,以通过张量并行(Tensor Parallelism)实现分布式 vLLM 推理。为实现节点间的高性能同步,本方案通过 Intel E810 网卡使用 **RoCE v2 (RDMA)** 技术,将通信延迟从约 70µs 降低至 5µs。
### **核心要求与设置**
* **硬件:** 两台通过 100GbE DAC 线缆连接的 Strix Halo 系统(128GB 统一内存)。
* **操作系统:** Fedora 43,配置静态 IP 和巨型帧(MTU 9000)。
* **内核/BIOS:** 关键调整包括 `iommu=pt`、`pci=realloc`,以及用于管理统一内存的自定义 GTT/TTM 设置。
* **软件:** 系统使用提供的容器化“工具箱”(Toolbox),其中包含支持 Strix Halo (gfx1151) RDMA 操作的自定义补丁版 `librccl.so`。
### **快速工作流程**
1. **配置主机:** 安装 `rdma-core` 和 `perftest` 工具;设置免密 SSH。
2. **工具箱:** 运行 `refresh_toolbox.sh` 以拉取环境,实现自动化硬件检测及驱动挂载。
3. **集群:** 使用 `start-vllm-cluster` TUI 初始化 Ray 控制平面。
4. **推理:** 以 `Tensor Parallelism=2` 启动 vLLM。建议使用 **Eager 模式**以避免 CUDA 图(CUDA Graph)的不稳定性。
对于缺乏 RDMA 硬件的环境,Thunderbolt 4/USB4 网络连接可作为一种简化的替代方案。