为什么是罗斯科,为什么是现在 关于这位画家,罗斯科在 1940 年代末停止了描绘具体事物。他所保留的是光线、色彩,以及作品旨在带给站在画前之人的某种感受——喜悦、狂喜、厄运或悲剧。他在画面上安排了两到三个边缘柔和的长方形,并不断处理表面,直到色彩仿佛在画布内拥有了属于它们自己的天气。他要求画廊将画作挂得低一些,调暗灯光,让人们静静地与画作相处。画作的意义在于产生某种作用,而不仅仅是被观看。
为什么是罗斯科,为什么是现在 关于这位画家,罗斯科在 1940 年代末停止了描绘具体事物。他所保留的是光线、色彩,以及作品旨在带给站在画前之人的某种感受——喜悦、狂喜、厄运或悲剧。他在画面上安排了两到三个边缘柔和的长方形,并不断处理表面,直到色彩仿佛在画布内拥有了属于它们自己的天气。他要求画廊将画作挂得低一些,调暗灯光,让人们静静地与画作相处。画作的意义在于产生某种作用,而不仅仅是被观看。
``` ```
请启用 JavaScript 和 Cookie 以继续。
Step 3.7 Flash 是一款智能体基础模型,它利用测试时缩放(test-time scaling)而非单纯依赖参数规模来实现高水平的视觉性能。通过调用专用工具,该模型弥补了其体积较小的劣势,能够媲美规模大其五倍的模型性能。 主要功能包括: * **视觉搜索:** 通过集成外部搜索能力增强识别效果,其性能可与规模大得多的模型相媲美。 * **Python 集成:** 提供统一的代码接口(缩放、裁剪、像素级处理),以处理复杂的、高分辨率的推理任务。 * **图形用户界面(GUI)操作:** 实现对智能手机应用程序稳健的长程控制,在 Android Daily 基准测试中表现优于规模更大的模型。 该模型的一项重大突破是其**涌现出的组合泛化能力**。Step 3.7 Flash 能够自主结合视觉和非视觉工具(例如先编写代码,然后使用图形界面来验证其输出),而无需明确的训练。这种跨领域迭代和自我修正的能力,标志着智能体推理的一大进步,使模型能够执行超越标准文本交互的复杂现实任务。
ATLAS 是一个使用 Lean 4 语言编写的大规模自动形式化数学库。该项目由“AutoformBot”流水线生成,涵盖了代数、分析、几何和理论计算机科学等多个学科,翻译了 26 本本科及研究生水平教科书中的定义、陈述和证明。
作为一项持续的研究工作,ATLAS 提供了一个可重用的形式化构建块存储库,旨在加速人类和机器驱动的形式化进程。目前的库包含超过 63 万行代码,拥有 46,203 个声明,自动证明成功率达 92.7%。
用户可以通过在线可视化工具访问该库,进行浏览、对比非形式化教科书陈述与 Lean 对应项,并检查逻辑依赖关系。每个书籍目录都包含源文件、目标陈述以及针对准确性和代码质量的自动评估指标。由 Ahmad Rammal 等人领导的 ATLAS 团队正持续扩展该语料库,提升可维护性,并使代码与标准的 Mathlib 规范保持一致。他们欢迎外部贡献,以帮助扩展和完善这一日益增长的形式化数学知识集合。
Robinhood 正进军 AI 智能体领域,推出多项新功能,允许用户授权 AI 智能体代其进行股票交易和支付。
在本次 Beta 测试版中,用户可以为自己的智能体创建专用账户和钱包,智能体可利用预存资金分析投资组合并执行交易。为确保安全,Robinhood 提供了实时通知、交易预览及确认机制,以及欺诈检测功能。通过其模型上下文协议(MCP)服务,智能体能够执行复杂任务,例如分析行业风险敞口和查看分析师报告。
此外,Robinhood 还专门为 AI 智能体推出了虚拟信用卡,目前仅向 Gold Card 持卡人开放。该功能允许智能体在设定的月度消费限额及可选的交易审批要求下进行支付。
虽然目前该平台仅支持股票的自动化交易,但 Robinhood 计划将支持范围扩大至期权、加密货币、期货及预测市场。此举顺应了行业大趋势,使 Robinhood 与 Stripe、Google 等公司一道,共同为 AI 自主商务提供基础设施。
这篇摘自杰西卡·里斯金(Jessica Riskin)即将出版的新书《生命的力量》(*The Power of Life*)的文章,引人入胜地介绍了让-巴蒂斯特·拉马克(1744–1829)。拉马克不仅是以进化论先驱的身份为人所熟知,他在早期气象学领域也是一位重要人物。 拉马克的科学方法以其对参与式、易普及研究的执着而著称。他是第一位对云层进行分类的人,并设想建立一个由“自然之友”组成的公共网络,通过记录大气观测数据,帮助揭示月球对天气的复杂周期性影响。与将宇宙视为僵化、决定论机器的同代人皮埃尔-西蒙·拉普拉斯不同,拉马克拥抱不确定性以及自然界那“翻腾的骚动”。 拉马克在气象学上的雄心最终与拿破仑统治下法国的政治气候发生了冲突。他倡导去中心化的科学共同体,并拒绝接受拉普拉斯的决定论,这些主张被视为具有颠覆性。结果,他受国家资助的气象局被拆除,他本人最终也遭到了拿破仑的压制。里斯金的这部传记挑战了英语世界对拉马克的忽视,认为他这种极具人性、诗意且重关联的科学方法,在思想史上是一段至关重要却被低估的传统。
巴黎 AI Now 峰会展示了 Mistral AI 从模型提供商向全栈企业合作伙伴的转型。Mistral 并未盲目追求通用人工智能(AGI),而是专注于通过效率、主权和本地化部署等战略,为欧洲企业提供立竿见影的投资回报。
主要内容包括:
* **全栈生态系统:** Mistral 正在构建自己的计算基础设施,同时提供平台和咨询服务,以支持大规模的企业部署。
* **专用模型:** 他们的策略侧重于小型、高效的模型(如用于工业机器人和语音领域),在速度和能耗方面优于通用模型。
* **主权:** 通过支持本地化部署,Mistral 为银行业等受监管的行业提供了重要的替代方案,使企业能够在不损害数据隐私的情况下利用人工智能。
* **智能体框架:** 公司强调,模型需要“配套工具”(提供上下文和持久性的工具),才能从单纯的计算能力转化为实际的业务应用。
最终,Mistral 将自己定位为欧洲的主要 AI 合作伙伴,提供了一种务实且具有主权的替代方案,以应对美国科技巨头的竞争。尽管峰会缺乏突破性的模型发布,但他们对实际工业效用和欧洲自主权的关注,使其成为全球 AI 领域的重要参与者。
关于 新闻 版权 联系我们 创作者 广告 开发者 条款 隐私 政策与安全 YouTube 的运作方式 测试新功能 © 2026 Google LLC
尽管现代人工智能可以轻松解决传统的验证码(CAPTCHA),但其解决问题的过程与人类存在显著差异。我们的研究表明,即使人工智能和人类能达到相同的任务结果,它们在行为模式(如点击顺序和决策风格)上也表现出统计学上的显著差异。
为解决这一问题,我们引入了“过程图灵测试”(Process Turing Test)。该测试超越了传统的基于结果的评估,旨在评估智能体的内部解决问题过程是否模拟了人类的认知心理。我们使用包含 30 项认知任务的“CogCAPTCHA30”测试集进行了验证。结果显示,当前的前沿模型(如 GPT、Claude、Gemini)并不会随着规模的扩大而变得更像人类;事实上,专门针对人类认知数据训练的小型模型在模拟人类处理特征方面表现更佳。
我们发现,虽然可以通过微调智能体来缩小“过程差距”,但在任务泛化或智能体无法完全获知判别器标准的情况下,这种能力会失效。归根结底,过程图灵测试作为一种稳健且可扩展的人类验证方法,凸显了人工智能在能力不断提升的同时,其运作机制与人类认知依然存在根本性的区别。