arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。
Meta正在其员工电脑上部署新的监控软件“模型能力计划”,以收集数据用于改进其人工智能模型。该工具将追踪击键、鼠标移动并截取屏幕截图,员工在使用Gmail和VS Code等工作应用程序时会被监控。 Meta声称,人工智能需要理解人类电脑使用方式,才能构建能够处理诸如预订旅行或管理电子邮件等任务的有效“代理”,最终目标是实现人工智能完成大部分工作,而人类提供指导的未来。 考虑到Meta过去大量收集用户数据和隐私问题,这一举动具有讽刺意味。员工现在将体验到之前仅对其数十亿用户保留的相同级别的监控,因为该公司正在追求由首席执行官马克·扎克伯格领导的“个人超级智能”愿景。Anthropic、OpenAI和微软等其他科技公司也在开发类似的代理技术。
## 超越更长的上下文:为什么LLM需要权重更新 目前改进LLM学习的主流方法是增加上下文窗口大小,利用KV缓存压缩和高效注意力机制的进步。然而,这假定仅仅增加足够的上下文长度就能消除模型权重更新的必要性——这是一个错误的假设。上下文和权重共同塑造了Transformer的内部表示(激活),但运作方式不同。上下文通过KV缓存提供*临时*的激活偏移,功能上模拟了单步梯度下降,而权重更新则创建了对模型核心计算的*永久*改变。 虽然令人印象深刻,但上下文本质上是运行在模型“硬件”(冻结权重)上的“软件”。它在模型预训练的分布范围内表现出色,但在需要新颖内部表示的任务面前会达到上限。权重修改则相反,*重新设计*了硬件,从而实现全新的计算。 此外,基于权重的学习更有效率——知识被编译到模型中(O(1)成本),而长上下文则需要持续的注意力成本(O(n))。最终,两者都至关重要:长上下文提供工作记忆,而权重更新则实现持久的知识积累和泛化。正如大脑同时利用快速、临时和缓慢、持久的记忆一样,LLM需要同时具备上下文*和*权重空间学习,才能实现真正强大和适应性的智能。
## GPS工作原理:摘要 GPS依赖于巧妙地将**时间转化为距离**。卫星广播信号,你的手机测量信号到达所需的时间——本质上使用一个秒表。已知光速,行程时间揭示了到每颗卫星的距离。 然而,仅一颗卫星只能将你定位在围绕它的某个**球体**上。**三颗卫星对于准确的定位至关重要**,通过一种称为三边测量(三角定位)的过程,三个球体的交点可以确定你的位置。 **第四颗卫星对于校正手机时钟的不准确性至关重要**,因为手机时钟不如卫星上板载的原子钟精确。即便如此,**爱因斯坦的相对论**也至关重要;卫星的速度和高度会影响时间,导致时钟漂移,如果不进行校正,会导致每天数公里的误差。 现代GPS接收器利用来自**多个卫星星座**(GPS、GLONASS、Galileo、北斗)的信号,并采用技术来最大限度地减少信号反射(多径效应)造成的误差,并优化卫星几何形状以获得最准确的结果。这个复杂的系统能够让你的手机将你的位置精确定位到米级,这既是对工程学也是对物理学的证明。
要使用 Mastodon 网页应用程序,请启用 JavaScript。或者,尝试为您的平台使用 Mastodon 的原生应用程序。
Meta公司因宣布将在美国员工的工作电脑上安装软件以追踪键盘敲击、鼠标移动和屏幕内容而面临内部反对。这些数据将被用于训练其人工智能模型,帮助它们更好地理解人类与电脑的交互方式,例如使用快捷键和下拉菜单。 尽管Meta声称已采取保障措施来保护敏感信息,并将追踪限制在Gmail和GChat等工作应用程序中,但员工们表达了不适和沮丧。一个主要担忧是缺乏退出选项,Meta的首席技术官已证实这一点。 此举是Meta大力发展人工智能的一部分,包括成立“超级智能实验室”部门。虽然员工的工作设备已经受到监控,但这项新计划扩大了追踪范围,引发了对隐私的担忧,尽管Meta做出了保证。
## C10K 问题与异步编程的演变 处理数千并发连接的挑战(C10K 问题)催生了一系列解决方案,每一个都在改进前一个的基础上,但也引入了新的复杂性。 最初,为每个连接分配一个线程被证明是不可持续的,因为线程的成本很高——内存使用和上下文切换开销。 回调作为最初的响应,通过使用事件循环避免了线程泛滥。 然而,这造成了“回调地狱”——深度嵌套、难以管理的、错误处理分散的代码。 Promises/Futures 通过将最终结果表示为对象,从而改进了易用性,实现了链式调用和更好的错误管理,但难以处理流,并引入了类型划分(同步与异步)。 Async/await 进一步简化了代码,使异步操作*看起来*是顺序执行的。 然而,这引入了“函数着色”——同步函数和异步函数之间的划分,需要对整个项目进行代码修改。 这导致了生态系统碎片化(例如在 Rust 中)以及微妙的错误,如“futurelocks”。 每一波都解决了之前的问题,但积累了成本——代码库的结构性变化、新的错误类型以及隐藏的并发性——这表明了一种模式:专注于*管理*并发,而不是从根本上重新思考它的方法。 虽然单个异步函数的开发体验有所改善,但整个系统的复杂性却增加了。
MuJoCo 是谷歌 DeepMind 开发的高性能物理引擎,专为机器人学、生物力学和机器学习等领域的研究和开发而设计。它擅长模拟铰接结构及其与环境的交互,提供速度和准确性。
主要特性包括 C API、通过 OpenGL 进行的交互式可视化以及广泛的实用函数。还提供 Python 绑定和 Unity 插件。针对 Linux、Windows 和 macOS 提供预编译二进制文件,也可以进行源代码构建(但可能不稳定)。
MuJoCo 自 3.5.0 版本以来,每月发布一次,遵循修改后的语义化版本控制。该项目欢迎社区通过 GitHub Discussions 寻求帮助,通过 Issues 提交错误报告/功能请求。它通过 OpenSim、SDFormat 和 OBJ 等格式的转换器与其他工具集成。
如果在研究中使用,建议引用原始的 2012 年论文。该软件采用 Apache 2.0 许可协议开源,特定组件采用知识共享署名 4.0 协议。
## 向异步AI代理的转变与传输问题
AI代理正在从同步聊天机器人(如ChatGPT)——需要持续的人工交互,演变为在后台*为您*工作的流程——安排任务、通过WhatsApp回复、独立运行。这种转变打破了传统的基于HTTP的通信模式,该模式专为即时请求-响应设计,并且难以处理在较长时间内运行的代理。
核心问题:HTTP无法处理那些存活时间超过连接、主动推送更新、适应变化的用户/设备或支持多个协作者的代理。Anthropic的Routines和Cloudflare Agents等现有解决方案解决了*持久状态*(代理数据存储的位置),但仍然依赖于低效的轮询或HTTP请求来获取更新——本质上,就是检查新信息。
OpenClaw展示了一种更好的方法,使用外部聊天平台(如WhatsApp)进行无缝的异步通信,但缺乏企业级基础设施。
理想的解决方案需要同时具备持久状态*和*持久传输。像Ably这样的公司正在构建专门为此设计的平台,利用实时消息传递创建持久的“会话”,代理和人类可以在其中连接/断开连接,而不会丢失上下文或数据——这才是异步AI的真正基础。