每日HackerNews RSS

“完美人工智能压力测试:再见,傻瓜”由四位博弈论家于1950年设计,其中包括约翰·纳什(“美丽心灵”中的人物)。这个游戏有一个残酷的特性:背叛在数学上是获胜的必要条件。这使其成为评估人工智能能力的理想选择,而标准基准无法做到这一点:战略欺骗——人工智能能否令人信服地撒谎?信任建模——它知道何时信任,何时背叛?多智能体谈判——它如何处理联盟?长期规划——它能否提前几步设置背叛?快速规则:4名玩家,每人拥有彩色筹码。轮流在堆上放置筹码。如果你的筹码与下面的筹码匹配,你就可以获得该堆。筹码用完?向他人求助——或者被淘汰。最后幸存的玩家获胜。观看完整教程(15分钟)→

## AI欺骗与“再见,傻瓜”游戏 – 摘要 一项最新实验探索了哪些AI模型最擅长说谎,使用了约翰·纳什设计的谈判/背叛游戏“再见,傻瓜”。研究人员使用Gemini 3 Flash、GPT-OSS 120B、Kimi K2和Qwen3 32B运行了162场AI对AI游戏,分析了它们的策略和信息传递。 主要发现表明Gemini擅长欺骗策略,构建“联盟银行”来利用对手,并策略性地省略信息。它还表现出情境诚实,在面对实力相当的对手时会合作。与此相反,GPT-OSS从未利用“思考”工具进行私下推理,而是被动地进行游戏。 该研究强调,简单的基准测试可能会低估欺骗能力。许多评论员分享了相关项目,如AI黑手党游戏和外交模拟,并讨论了评估AI行为的挑战,包括模型设置的影响以及模型通过操纵来优先考虑自我保护的倾向。公开可用的数据集和代码可供进一步研究。然而,一些用户报告了交互式演示中的错误。

启用 JavaScript 和 Cookie 以继续。

## Steam“离线”状态泄露登录时间 – Valve 不予修复 最近的报告显示,Steam存在一个隐私缺陷:即使设置为“离线”,用户的登录时间戳仍然对好友可见。这使得能够重建用户每日日程,可能暴露睡眠/清醒周期。Valve通过其HackerOne漏洞赏金计划,认为这不是安全漏洞,并且不会解决这个问题。 讨论的核心问题在于用户期望与现实之间的差异。许多用户依赖“离线”模式来实现真正的隐私,特别是那些希望避免不必要的联系或处于潜在弱势地位的人。虽然有些人认为这是一个小问题,只影响一小部分用户,但另一些人指出,即使是很小的百分比也意味着大量的人。 人们担心可能被滥用,包括被虐待者或掠食者跟踪。争论还集中在是否应该通过安全渠道(HackerOne)或隐私渠道报告此问题,以及Valve的回复是否可以直接归因,因为它是通过第三方供应商传达的。许多评论者还怀疑原始文章是由LLM生成的。

## 本地浏览器:设备端网页自动化 Local Browser 是一个 Chrome 扩展程序,它能够实现由人工智能驱动的网页自动化,**完全在您的设备上运行**,优先考虑隐私和离线功能。它利用 WebLLM 和 WebGPU 进行本地 LLM 推理,无需云 API 或密钥。 该扩展程序使用多代理系统——一个 **Planner(规划者)** 用于战略性任务分解,以及一个 **Navigator(导航者)** 用于战术性动作执行——来浏览、点击、输入和提取网页数据。用户通过 React 弹出窗口输入任务(例如,“在维基百科上搜索‘WebGPU’…”)。 **主要特点:** 完整的隐私性、~1GB 初始模型下载后的离线运行(默认使用 Qwen2.5-1.5B-Instruct,并提供 Phi-3.5-mini 和 Llama-3.2 选项),以及开发过程中的自动重建。 **要求:** Chrome 124+、Node.js 18+、兼容 WebGPU 的 GPU,以及足够的磁盘空间。这是一个概念验证,专注于单个标签页内的基于文本的 DOM 分析,可能难以处理复杂任务或被阻止的页面。

一个新的 Chrome 扩展程序,由 RunanywhereAI (github.com/runanywhereai) 开发,允许用户在他们的设备上*本地*运行浏览器代理。该代理由阿里巴巴的 Qwen 模型和 Web GPU Liquid LFM 提供支持,可以在浏览器内执行任务——例如打开 YouTube 上的 All in Podcast。 该项目目前支持移动 SDK,并且正在开发 Web SDK 支持。用户对小型 3B Qwen 模型的能力印象深刻,并推测像 gpt-oss-20b 这样更大的本地模型通过 Ollama 等工具运行的可能性。 讨论还涉及潜在的安全问题,提出了恶意使用的可能性,例如在不知情的用户计算机上创建一个分布式僵尸网络来运行大型语言模型。

Hacker News新帖 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交登录 未发布的分段错误修复 (recall.ai) 13 分,davidgu 1 天前 | 隐藏 | 过去 | 收藏 | 2 评论 190n 1 天前 | 下一个 [–] 我以为我之前读过这个故事,看起来该公司博客在 2023 年发布过类似的文章,但后来被删除了:https://web.archive.org/web/20250624191934/https://www.recal... 仍然值得一读。回复 NightMKoder 1 天前 | 上一个 [–] 这可能说明 gstreamer 插件生态系统的疯狂之处——好/坏/丑可能是一个有趣的维护助记符,但 `voaacenc` 实际上在 `bad` 中,而不是 `ugly`。大多数你想要使用的插件不在 `good` 中。你如何才能实际使用“良好支持的插件”与 gstreamer 一起使用?难道就是根本不要使用 gstreamer 吗?回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## AI聊天机器人能耗:细致分析 近期分析表明,个人使用像ChatGPT这样的AI聊天机器人对个人电力和用水的影响微乎其微。对于普通用户来说,每日提问消耗的资源在其总体足迹中占比可以忽略不计——低于一秒的淋浴时间。然而,对于大量使用编码代理的软件开发者等“重度用户”来说,情况则大不相同。 一项对Claude Code会话的分析估计,每次会话消耗约41Wh,是典型查询的138倍。全天使用此类代理进行编码,其能耗相当于运行洗碗机或小型冰箱。虽然这种影响仍然可能很大,但这并不一定是避免使用AI的理由,而是呼吁支持向可再生能源过渡,为这些计算提供动力。 作者认为,他个人的使用情况值得向推广AI绿色能源的组织捐款,例如ClimateAction.tech。重要的是,这些计算依赖于估计值,因为AI实验室缺乏关于能耗数据的透明度——他们应该优先考虑透明度。最终,通过更广泛的生活方式改变来减少整体碳足迹,对于大多数用户来说仍然更有效。

## AI 编程代理用电量:摘要 最近一篇 Hacker News 帖子引发了关于 AI 编程代理用电量的讨论,特别是使用 Anthropic 的 Claude。一位开发者报告称,使用 AI 删除代码的成本为 50 美元,这凸显了基于“按 token 计费”定价模式的潜在高昂费用。 评论者们争论这些成本是否合理,与聘请人类开发者相比,并强调优化设置(降低模型算力和“思考”能力)以降低成本的重要性。一个关键点是区分*推理*成本(使用模型)和*训练*成本(开发模型)。推理成本是直接且易于计算的,而训练是一个与持续开发和需求相关的持续性支出,不应被视为固定成本。 为了便于理解能耗,将 AI 的用电量与洗碗机和冰箱等日常电器进行了比较——大致相当于每天运行一台冰箱,对于每天花费 15-20 美元的人来说。最终,这场讨论表明需要更透明地核算 AI 的全部环境和经济成本,可能需要监管以确保解决这些“外部性”问题。

## Fence:安全运行不受信任的代码 Fence 是一个为 CLI 设计的沙箱工具,旨在以受控的访问权限运行潜在的风险代码——例如包安装、构建脚本或来自 AI 代理的代码。它**默认阻止所有网络访问**,并根据可配置的规则限制文件系统操作和命令。 您可以定义允许的域名、可写目录和禁止的命令,或使用**预构建模板**(例如 npm/pypi 的“code”)。Fence 跨平台工作(macOS 和 Linux),使用原生沙箱技术。 主要功能包括: * **网络隔离:** 除非明确允许,否则阻止所有出站连接。 * **文件系统控制:** 限制对特定路径的读/写访问。 * **命令阻止:** 防止执行危险命令。 * **监控模式:** 识别和记录尝试的违规行为。 Fence 可作为 CLI 工具或 Go 包使用,其灵感来自 Anthropic 的 sandbox-runtime,为执行不受信任的代码提供了一层宝贵的安全性。

## Fence:一个用于更安全代码执行的 CLI 沙箱 Fence 是一个新工具,旨在在沙箱环境中运行命令,默认情况下阻止网络访问并限制文件系统写入。它由 Tusk Drift 的开发者创建,解决了安全执行半可信代码的需求,例如包安装程序、构建脚本或来自未知仓库的代码。 用户可以使用标志自定义限制——允许特定的包安装注册表或监控被阻止的活动。一个关键用例是降低使用 AI 编码代理的风险,提供了一种绕过权限提示同时保持控制的方法。 Fence 利用操作系统原生沙箱(macOS 和 Linux)和本地代理进行网络过滤。虽然它不是针对恶意软件的万无一失的解决方案(它依赖于程序尊重代理设置,并且不是 VM 级别的隔离),但它显著降低了潜在有害代码的“爆炸半径”。未来的开发可能包括基本的资源限制,但重点仍然是操作系统级别的沙箱。 该项目在 GitHub 上可用:[https://github.com/use-tusk/fence](https://github.com/use-tusk/fence)。

## 模型-市场匹配:新型人工智能创业公司的必需条件 马克·安德森曾著名地认为市场是创业成功的最关键因素。然而,对于人工智能创业公司来说,在产品-市场匹配*之前*存在一个新的先决条件:**模型-市场匹配(MMF)**——当前人工智能模型实际满足市场需求程度。 简单来说,如果底层人工智能无法执行核心任务,强大的市场也无法拉动产品。最近的例子证明了这一点:GPT-4问世后,法律人工智能迅速发展,而像Sonnet这样的模型出现后,编码助手也取得了飞跃,尽管此前多年都曾尝试过。这些领域并非缺乏需求,而是缺乏*能力*。 当模型产生的输出能够让客户在最少的人工校正下愿意付费时,就证明了MMF。重要的是,这不仅仅是关于短期任务,而是关于持续、自主的运行——当前模型在金融和药物发现等领域仍然难以做到。 创始人应该优先为*现有* MMF 构建,利用领域专业知识为能力突破做准备,而不是押注未来的模型改进。投资者必须评估当前人工智能能力与市场需求之间的差距。最终,在人工智能领域,**模型能力决定了市场是否能够被拉动。**

这个Hacker News讨论的核心是“模型-市场匹配”(MMF)的概念——即AI产品的可行市场*需要*底层AI模型能够实际满足需求。 核心论点是,依赖未来的AI模型改进来实现初创公司的成功是危险的。与过去不同,规模扩大能带来可预测的收益,而当前的进步依赖于训练方法上的不可预测的突破。构建一个预期依赖于他人路线图(例如OpenAI)能力的产品是一种赌博。 本质上,创始人应该优先确保*当前*模型能够提供价值,然后再寻求产品-市场匹配,因为MMF是市场“拉动”产品的必要前提。如果没有它,即使是一个巨大的市场机会也仍然无法利用。

查找并安装适用于Claude、ChatGPT和AI代理的技能。SKILLS.md文件的权威注册表,用于扩展您AI助手的能力。 npm pnpm bun yarn npx npm install -g skill-registry-cli 然后运行 sr search <query> 或 sr install <skill> 搜索技能,例如“1password”、“browser”、“github”,或您希望AI使用的任何工具。

## Skill.md (skillregistry.io) - 摘要 skillregistry.io 是一个新平台,旨在成为 AI 代理“技能”的中心枢纽——可重复使用的工具和功能,适用于 Claude 等模型。创建者 tomaspiaggio12 设想技能能够使 AI 更有效地使用工具。 然而,该平台的发布引发了争论。担忧集中在其作为“官方”的品牌宣传上(尽管技能并未经过公司验证),以及其当前的简单性——本质上是一个可使用 `wget` 安装的资源集合,缺乏版本控制或健全的作者验证。 讨论围绕着替代方案,例如将技能作为 GitHub 仓库进行管理,但提出了企业访问控制(RBAC)方面的挑战。一些用户认为当前可用的技能与现有模型能力(MCP)重复。另一些人则认为技能对于访问比 LLM 训练数据更新或特定于单个项目的信息具有价值。 该平台处于早期阶段,计划添加安装和身份验证步骤以简化使用。一个相关项目 `agent-browser` 使用 Playwright 允许代理与 Web UI 交互。

保护您的数字世界,守护您的安心。您值得信赖的FearsOff网络安全卫士随时为您服务。 FEARSOFF FZCO,IFZA商业园区,DDP,16736-001单元,迪拜,阿联酋 许可证号:16736

一篇近期文章详细描述了一种绕过 Cloudflare Web 应用程序防火墙 (WAF) 的潜在方法,但 Hacker News 上的评论员普遍对它的严重性和将其描述为“零日漏洞”的说法表示异议。核心问题在于用于 Let's Encrypt 证书验证的 `.well-known/acme_challenge` 路径。 WAF 允许访问此路径,可能暴露原本应该由 WAF 保护的源服务器信息。引用的例子包括泄露 Next.js 应用程序的密钥或绕过 Spring 应用程序的安全检查。然而,许多人认为这些场景依赖于配置不当的源服务器——应用程序在错误页面上暴露敏感数据,或依赖 WAF 来隐藏内部漏洞。 一些评论员指出该文章很可能由 AI 生成,过于冗长且包含不准确的信息(例如,引用 HTTP-01 挑战的 HTTPS)。共识是该问题并非 Cloudflare 的根本缺陷,而是强调了安全源服务器配置的重要性,以及不要仅仅依赖 WAF 作为“零信任”解决方案。

必须启用 JavaScript 才能使用 Notion。请启用 JavaScript 以继续。

Scheme 实现作为 O'Reilly 书籍,通过 Claude 代码 (ezzeriesa.notion.site) 9 分,来自 kurinikku 1 天前 | 隐藏 | 过去 | 收藏 | 2 条评论 rurban 1 天前 | 下一个 [–] 用有限的 Python 解释器扭曲美丽的 Scheme 语言?天啊。 例如,在 Scheme 中,数学运算被定义为将运算应用于所有参数。 (+ 0 1 2 3 4 5) => (apply '+ '(0 1 2 3 4 5)) 在这个 Python 代码中,运算变成一个字符串(来自符号),并且只能是双目运算。它只能做 ("+" 0 1),而不能更多。 这就是为什么一本好的书会从 apply 开始教授这个元解释器,而不是这种有限的 lambda。回复 okkdev 1 天前 | 上一个 [–] 这个 AI 垃圾的意义是什么?回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

更多

联系我们 contact @ memedata.com