在70年代和80年代热爱游戏的作者,在专注于电子游戏后,重新发现了桌面游戏的乐趣。最近的一次游戏之夜点燃了新的热情,促使他收集了超过30款游戏并参与了几个Kickstarter项目。 这不仅仅是怀旧;现代桌面游戏提供了一种独特而引人入胜的体验。高质量的组件——从厚实的纸板到雕塑的微缩模型——调动了我们的触觉,并创造了期待感。更重要的是,桌面游戏通过共同的规则和体验来培养真诚的社交联系,降低社交风险,同时提供情感回报。 作者强调了令人满意的“低风险成就循环”,失败是一个学习的机会,以及令人惊讶的游戏玩法多样性,可以刺激不同的认知技能。最终,重返桌面游戏提供了一种受欢迎的*存在感*——放慢速度,需要专注,并将娱乐转变为一种共享的人类体验。这是一种与触觉参与、社交互动以及共度时光的简单乐趣的重新连接。
## klaw:Kubernetes 适用于 AI 代理 - 摘要
klaw 是一个开源平台,旨在部署、编排和扩展 AI 代理,其功能类似于 Kubernetes 对容器的管理。它允许用户管理能够进行编码、研究、通信和自动化的智能代理,只需一个二进制文件且无依赖项,可在笔记本电脑到企业集群上运行。
主要特性包括通过统一 API 支持多个 LLM 提供商(each::labs、OpenRouter、Anthropic),Kubernetes 风格的多租户(通过命名空间),以及强大的内置代理功能,如工具使用(bash、网络访问、文件操作)。代理可以通过 CLI、Slack 集成或容器化进行部署,并使用 cron 作业进行调度。
klaw 采用分布式架构,具有控制器和工作节点以实现可扩展性,并支持熟悉的 Kubernetes 风格命令进行管理。它使用 Go 编写,并利用 Podman 作为容器运行时。对于个人/内部使用是免费的,SaaS 和 OEM 应用需要授权。
这篇博文详细介绍了连续批处理如何优化大型语言模型 (LLM) 的吞吐量——它们生成文本的速度,例如 Qwen 或 Claude 等聊天机器人。LLM 预测序列中的下一个token,这是一个计算量大的过程。
核心思想在于最大化并行处理。它始于**注意力机制**,其中token相互作用以理解上下文。效率的关键在于**KV缓存**,它存储先前计算的token数据,以避免解码期间(生成新的token)重复计算。当提示超出 GPU 内存时,**分块预填充**会将它们拆分成可管理的部分,利用 KV 缓存。
传统的批处理需要统一的提示长度,由于填充导致计算资源浪费。**连续批处理**通过**不规则批处理**解决这个问题,它将提示连接起来并使用注意力掩码来防止不必要的交互。然后,**动态调度**用新的提示替换已完成的提示,从而保持 GPU 的高利用率。
KV 缓存、分块预填充、不规则批处理和动态调度的结合消除了填充,并允许高效地混合预填充和解码,从而大大提高 LLM 的服务性能,并使服务能够处理大量并发用户。下一篇文章将介绍高效的 KV 缓存管理。