每日HackerNews RSS

为什么是罗斯科,为什么是现在 关于这位画家,罗斯科在 1940 年代末停止了描绘具体事物。他所保留的是光线、色彩,以及作品旨在带给站在画前之人的某种感受——喜悦、狂喜、厄运或悲剧。他在画面上安排了两到三个边缘柔和的长方形,并不断处理表面,直到色彩仿佛在画布内拥有了属于它们自己的天气。他要求画廊将画作挂得低一些,调暗灯光,让人们静静地与画作相处。画作的意义在于产生某种作用,而不仅仅是被观看。

抱歉。

```
 
 
 
 
 

```

**TV Explorer** (tvexplorer.live) 是一个全新的网页项目,提供了一个先进且用户友好的界面,用于浏览全球 IPTV 频道。该平台旨在解决用户在查找、筛选和管理直播流时的困扰,让用户能够探索国际电视节目,以进行新闻对比、语言学习或娱乐。 主要功能包括: * **精选内容:** 频道源自一个由社区维护的公开 GitHub 仓库。 * **技术创新:** 该应用基于开发者的“Watson”框架构建,支持跨设备验证,并允许用户将手机用作客厅电视的“遥控器”。 * **智能 UI:** 网站可跟踪频道状态、处理地理封锁,并提供深度链接以便于分享。 Hacker News 社区对此反响热烈,称赞其带来了怀旧的“90年代频道扫描”体验,并认可了它在语言学习方面的实用性。用户提供了建设性的反馈,建议增加“手气不错”(I feel lucky)按钮、优化桌面端导航以及改善对隐藏式字幕的支持。开发者正在积极开发后续更新,包括对 Roku 和 Apple TV 等流媒体设备的支持。

请启用 JavaScript 和 Cookie 以继续。

这条 Hacker News 讨论帖探讨了将 **SQLite** 作为持久化代理工作流(agentic workflows)主要存储层这一日益增长的趋势,这通常被视为替代 Temporal 或 Airflow 等复杂编排器的更简便方案。 **主要主题:** * **简单性与复杂性:** 许多开发者认为,对于大多数工作负载而言,现代“过度设计”的分布式系统是不必要的。SQLite 提供了一种轻量级的“单文件”解决方案,无需数据库服务器或庞大的编排平台带来的运维开销,即可处理状态、重试和任务组织。 * **代理工作流(Agentic Workflows):** 用户发现 SQLite 对于 AI 代理特别有效。将状态存储在数据库行中而非平面文件(JSON/Markdown)中,可以节省 token,避免文件解析瓶颈,并提供 LLM 能够轻松查询和更新的结构化数据。 * **“SQLite 不适合生产环境”的争论:** 批评者认为 SQLite 不适合高并发、多用户的生产环境。支持者则反驳说,对于大多数应用,SQLite 的性能表现非常出色,且许多所谓的“生产环境”瓶颈实际上是架构问题,无论选择何种数据库都会存在。 * **基础设施替代方案:** 虽然一些人称赞 Litestream 等复制工具,但另一些人警告了自建分布式系统的风险。共识倾向于认为,SQLite 是“小规模软件”的理想选择;但对于高扩展性、关键任务系统而言,Postgres 等更健壮的数据库服务器依然是标准配置。

Step 3.7 Flash 是一款智能体基础模型,它利用测试时缩放(test-time scaling)而非单纯依赖参数规模来实现高水平的视觉性能。通过调用专用工具,该模型弥补了其体积较小的劣势,能够媲美规模大其五倍的模型性能。 主要功能包括: * **视觉搜索:** 通过集成外部搜索能力增强识别效果,其性能可与规模大得多的模型相媲美。 * **Python 集成:** 提供统一的代码接口(缩放、裁剪、像素级处理),以处理复杂的、高分辨率的推理任务。 * **图形用户界面(GUI)操作:** 实现对智能手机应用程序稳健的长程控制,在 Android Daily 基准测试中表现优于规模更大的模型。 该模型的一项重大突破是其**涌现出的组合泛化能力**。Step 3.7 Flash 能够自主结合视觉和非视觉工具(例如先编写代码,然后使用图形界面来验证其输出),而无需明确的训练。这种跨领域迭代和自我修正的能力,标志着智能体推理的一大进步,使模型能够执行超越标准文本交互的复杂现实任务。

Hacker News 的讨论聚焦于阶跃星辰(Stepfun)发布的新款人工智能模型 **Step-3.7 Flash**。用户反馈该模型表现强劲,指出 Q4_K_S 版本的 GGUF 文件在 Apple Silicon 芯片上运行高效,能够实现极高的每秒处理 token 数。 讨论帖的主要内容包括: * **易用性:** 用户建议通过 Hugging Face 下载 GGUF 文件,并利用 Ollama 在本地运行该模型。 * **能力:** 早期使用者称赞了该模型的推理能力,特别是在视觉识别任务中,表现优于同类别的其他模型。 * **使用挑战:** 非中文母语者认为该平台难以使用。网站的本地化被描述为“半成品”,通常需要借助浏览器翻译,这会破坏网页布局,因为“英语”界面选项不完善或缺失。 * **社区评价:** 尽管该模型的技术输出受到高度赞扬,但一些用户对公司名称“Stepfun”展开了无关紧要且带有轻视意味的争论。 总体而言,舆论认为 Step-3.7 Flash 是一款极具竞争力的模型,能够提供令人印象深刻的结果,但该厂商针对国际用户的体验仍是一个显著的障碍。

ATLAS 是一个使用 Lean 4 语言编写的大规模自动形式化数学库。该项目由“AutoformBot”流水线生成,涵盖了代数、分析、几何和理论计算机科学等多个学科,翻译了 26 本本科及研究生水平教科书中的定义、陈述和证明。 作为一项持续的研究工作,ATLAS 提供了一个可重用的形式化构建块存储库,旨在加速人类和机器驱动的形式化进程。目前的库包含超过 63 万行代码,拥有 46,203 个声明,自动证明成功率达 92.7%。 用户可以通过在线可视化工具访问该库,进行浏览、对比非形式化教科书陈述与 Lean 对应项,并检查逻辑依赖关系。每个书籍目录都包含源文件、目标陈述以及针对准确性和代码质量的自动评估指标。由 Ahmad Rammal 等人领导的 ATLAS 团队正持续扩展该语料库,提升可维护性,并使代码与标准的 Mathlib 规范保持一致。他们欢迎外部贡献,以帮助扩展和完善这一日益增长的形式化数学知识集合。

Robinhood 正进军 AI 智能体领域,推出多项新功能,允许用户授权 AI 智能体代其进行股票交易和支付。 在本次 Beta 测试版中,用户可以为自己的智能体创建专用账户和钱包,智能体可利用预存资金分析投资组合并执行交易。为确保安全,Robinhood 提供了实时通知、交易预览及确认机制,以及欺诈检测功能。通过其模型上下文协议(MCP)服务,智能体能够执行复杂任务,例如分析行业风险敞口和查看分析师报告。 此外,Robinhood 还专门为 AI 智能体推出了虚拟信用卡,目前仅向 Gold Card 持卡人开放。该功能允许智能体在设定的月度消费限额及可选的交易审批要求下进行支付。 虽然目前该平台仅支持股票的自动化交易,但 Robinhood 计划将支持范围扩大至期权、加密货币、期货及预测市场。此举顺应了行业大趋势,使 Robinhood 与 Stripe、Google 等公司一道,共同为 AI 自主商务提供基础设施。

抱歉。

这篇摘自杰西卡·里斯金(Jessica Riskin)即将出版的新书《生命的力量》(*The Power of Life*)的文章,引人入胜地介绍了让-巴蒂斯特·拉马克(1744–1829)。拉马克不仅是以进化论先驱的身份为人所熟知,他在早期气象学领域也是一位重要人物。 拉马克的科学方法以其对参与式、易普及研究的执着而著称。他是第一位对云层进行分类的人,并设想建立一个由“自然之友”组成的公共网络,通过记录大气观测数据,帮助揭示月球对天气的复杂周期性影响。与将宇宙视为僵化、决定论机器的同代人皮埃尔-西蒙·拉普拉斯不同,拉马克拥抱不确定性以及自然界那“翻腾的骚动”。 拉马克在气象学上的雄心最终与拿破仑统治下法国的政治气候发生了冲突。他倡导去中心化的科学共同体,并拒绝接受拉普拉斯的决定论,这些主张被视为具有颠覆性。结果,他受国家资助的气象局被拆除,他本人最终也遭到了拿破仑的压制。里斯金的这部传记挑战了英语世界对拉马克的忽视,认为他这种极具人性、诗意且重关联的科学方法,在思想史上是一段至关重要却被低估的传统。

巴黎 AI Now 峰会展示了 Mistral AI 从模型提供商向全栈企业合作伙伴的转型。Mistral 并未盲目追求通用人工智能(AGI),而是专注于通过效率、主权和本地化部署等战略,为欧洲企业提供立竿见影的投资回报。 主要内容包括: * **全栈生态系统:** Mistral 正在构建自己的计算基础设施,同时提供平台和咨询服务,以支持大规模的企业部署。 * **专用模型:** 他们的策略侧重于小型、高效的模型(如用于工业机器人和语音领域),在速度和能耗方面优于通用模型。 * **主权:** 通过支持本地化部署,Mistral 为银行业等受监管的行业提供了重要的替代方案,使企业能够在不损害数据隐私的情况下利用人工智能。 * **智能体框架:** 公司强调,模型需要“配套工具”(提供上下文和持久性的工具),才能从单纯的计算能力转化为实际的业务应用。 最终,Mistral 将自己定位为欧洲的主要 AI 合作伙伴,提供了一种务实且具有主权的替代方案,以应对美国科技巨头的竞争。尽管峰会缺乏突破性的模型发布,但他们对实际工业效用和欧洲自主权的关注,使其成为全球 AI 领域的重要参与者。

抱歉。

关于 新闻 版权 联系我们 创作者 广告 开发者 条款 隐私 政策与安全 YouTube 的运作方式 测试新功能 © 2026 Google LLC

对不起。

尽管现代人工智能可以轻松解决传统的验证码(CAPTCHA),但其解决问题的过程与人类存在显著差异。我们的研究表明,即使人工智能和人类能达到相同的任务结果,它们在行为模式(如点击顺序和决策风格)上也表现出统计学上的显著差异。 为解决这一问题,我们引入了“过程图灵测试”(Process Turing Test)。该测试超越了传统的基于结果的评估,旨在评估智能体的内部解决问题过程是否模拟了人类的认知心理。我们使用包含 30 项认知任务的“CogCAPTCHA30”测试集进行了验证。结果显示,当前的前沿模型(如 GPT、Claude、Gemini)并不会随着规模的扩大而变得更像人类;事实上,专门针对人类认知数据训练的小型模型在模拟人类处理特征方面表现更佳。 我们发现,虽然可以通过微调智能体来缩小“过程差距”,但在任务泛化或智能体无法完全获知判别器标准的情况下,这种能力会失效。归根结底,过程图灵测试作为一种稳健且可扩展的人类验证方法,凸显了人工智能在能力不断提升的同时,其运作机制与人类认知依然存在根本性的区别。

Hacker News 上近期的一项讨论探讨了现代验证码(CAPTCHA)在识别 AI 代理方面的有效性。*roundtable.ai* 的一项研究表明,通过分析点击序列路径和错误率等行为模式,仍能区分 AI 与人类。 然而,社区对此看法不一。许多人认为验证码是一场注定会输的“猫鼠游戏”;随着检测器不断进化以捕捉特定的行为信号,机器人运营者只需调整其自动化程序,模仿人类特征或绕过检测脚本即可。另一些人则指出,这些工具往往会惩罚注重隐私的用户(如使用 VPN 或广告拦截器的用户),却无法阻止复杂的大规模爬虫。 关于“用户摩擦”的抱怨非常多,许多参与者指出,激进的验证码往往会赶走真实用户,而非有效阻挡机器人。尽管一些开发者为验证码辩护,称其作为抵御垃圾信息和资源耗尽的必要经济门槛,但另一些人则将其视为一种失败的方法,认为机器人检测已成为一种不可靠且具有侵入性的行为,最终损害了开放网络的用户体验。

更多

联系我们 contact @ memedata.com