每日HackerNews RSS

## AI排行榜的缺陷基础:LMArena LMArena 是一个流行的在线大型语言模型 (LLM) 评估排行榜,尽管它在人工智能社区内具有影响力,但存在严重缺陷。研究人员和公司依赖它,但该系统优先考虑表面特性——冗长、格式和“感觉”(如表情符号)——而非事实准确性。 用户快速浏览回复并根据呈现方式投票,而不是正确性,这为模型创造了一种扭曲的激励机制,使其*看起来*胜任,而不是*真正*胜任。分析显示,超过一半的 LMArena 投票与事实答案不符,奖励幻觉和自信但错误的信息。 该系统的开放、志愿者基础缺乏质量控制,并且很容易被操纵,正如那些专门设计用于最大化参与度而不是提供准确回复的模型所证明的那样。虽然 LMArena 的创建者试图纠正低质量数据,但根本问题仍然存在。 依赖这种有缺陷的指标存在风险,可能会开发出针对表面吸引力进行优化的 LLM,从而阻碍了朝着真正真实、可靠和安全的 AI 发展。行业面临一个关键选择:优先考虑排行榜排名,还是坚持准确性和实用性的原则,认识到持久的价值最终在于质量,而不是炒作。

## LMArena 与 AI 评估的问题 最近 Hacker News 上出现了一场关于 LMArena 平台有效性的讨论,该平台使用众包的人工反馈来评估 AI 模型。核心观点是,**普通互联网用户已经无法提供*高质量*的信号来改进 AI**,原因在于缺乏努力、无法辨别细微差别或知识不足。 许多评论员指出,激励机制很重要——付费用户可能会为了获得报酬而钻系统漏洞,而不是进行真实的评估。另一些人强调了人类偏见的固有性以及准确评估评估者质量的难度。一些人建议采用替代方法,例如仅由专家进行评估或利用 AI 驱动的编码代理进行可验证的测试。 一个主要担忧是,模型正在被优化为*说服*,而不是提供准确的答案,并且 LMArena 的开放、无偿系统很容易被利用。尽管存在这些批评,一些人认为前沿实验室*已经*意识到这些问题,并正在积极努力解决它们。这场辩论凸显了在日益复杂的 AI 时代依赖人类判断的挑战。

USV 合作伙伴 Fred Wilson 详细介绍了一项实验,旨在大幅降低初创公司投资中的法律尽职调查成本。传统上,双方都需要承担大量的法律费用——通常每笔交易超过 5 万美元——用于文件审查和确保与条款表的对齐。 Wilson 利用 Google 的 NotebookLM,一种人工智能工具,来简化流程。他创建了两个“笔记本”:一个包含 USV 过去的投资完成文件,另一个填充了初创公司的资料库材料。 Wilson 没有让律师仔细审查文件,而是使用 NotebookLM 将初创公司的草案完成文件与 USV 的历史先例*和* 双方同意的条款表进行比较,收到一份概述潜在问题的备忘录。同时,他使用第二个笔记本快速提取关于初创公司结构、员工和合同义务的关键信息。 这种人工智能驱动的方法,通过大约 30 分钟的提示完成,旨在显著降低投资过程中的成本并提高效率。

这个Hacker News讨论围绕一位律师(“笔记本律师”)通过聊天机器人提供法律服务展开,引发了对这种做法风险的争论。一位律师评论员表达了对非法执业(UPL)和潜在未来责任的担忧,认为低廉的初始成本如果出现问题可能会导致显著更高的费用——特别是关于尽职调查方面。 其他评论员分享了相关经验。有人指出,重复使用现有的法律文件可能更便宜,而另有人则质疑人工智能准确提取文档中的特定、小众信息(如仲裁条款)的能力。 另一个观点质疑AngelList当前的功能。 总体情绪偏向谨慎,强调完全依赖人工智能处理法律事务可能存在的潜在风险。

```abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz```

## 展示 HN:A 到 Z – 单词游戏 Jackhulbert,一位长期潜伏在黑客新闻上的用户,最近发布了“A 到 Z”(a26z.fun),一款受童年公路旅行活动启发的单词游戏。 游戏挑战玩家在给定的类别(如美国州或犬种)中找到 15 个单词,使用字母提示表明有多少单词以每个字母开头。 早期反馈褒贬不一。 玩家喜欢核心概念,将其与《Connections》和《Strands》等游戏进行比较,但也有一些可用性问题被提出。 这些问题包括对字母计数系统的困惑、添加答案后令人不安的 UI 重新布局、答案接受不一致(例如,爱尔兰 vs. 冰岛)以及无用的提示。 一些用户还发现自动更正建议答案有问题。 尽管存在这些问题,许多人仍然觉得这款游戏有趣且引人入胜,甚至诉诸谷歌来填补知识空白。 创作者正在积极回应反馈,并欢迎其他从事类似项目的人员提供测试。

## 加密邮件的徒劳 最近在PGP/GnuPG软件中发现的漏洞(详情见gpg.fail)重新引发了争论,但专家们已经 largely 放弃了追求真正安全的电子邮件。核心问题不仅仅是技术缺陷,而是电子邮件*运作方式*的根本性问题。 电子邮件是一个复杂的系统——信息传递、身份验证和群体沟通的混合体——本身缺乏安全性。虽然像PGP这样的加密试图保护内容,但元数据(收件人、主题行、时间戳)仍然暴露,提供了显著的跟踪潜力。即使加密成功,也容易因意外的“全部回复”错误而暴露明文。 此外,电子邮件基础设施依赖于DKIM,一个旨在防止垃圾邮件的系统,具有讽刺意味的是,它*证明*了消息的来源,从而否定了发送者的隐私。 至关重要的是,这个问题不能仅通过技术来解决。电子邮件的开放标准由一个寡头垄断控制,他们没有优先考虑隐私的动力,并且政府积极利用其漏洞进行监控。 诸如SMIMP之类的提议已经停滞。 最终,作者认为,电子邮件从根本上来说是不安全的——更像一张明信片而不是一封密封的信件——而加密尝试提供了一种虚假的安全性。 需要政治意愿的转变,但在当前的气候下不太可能实现。

## 电子邮件加密:黯淡前景 (Hacker News 讨论) 一篇关于电子邮件加密现状的博客文章引发了 Hacker News 的讨论,凸显了其固有的困难。许多评论者认为,目前结构下的电子邮件很可能“无法修复”,最好将其视为数字明信片。核心问题是缺乏实施必要变革的政治意愿。 讨论的解决方案包括 Delta Chat(一种“伪装成电子邮件的聊天隧道”,侧重于联邦/去中心化)以及使用 PGP 加密和 Thunderbird 等工具,但后者会引入摩擦和元数据泄露。一些人提倡完全放弃电子邮件,转而使用更安全的选项,如短信,但网络效应使得这样做很困难。 ProtonMail 被认为是在更广泛采用加密方面迈出的务实一步,尽管它存在局限性(例如不加密主题行和依赖服务器端密钥存储)。然而,一些用户对该服务表示不信任。最后,有人质疑,如果主题行不加密,为什么不直接通过年龄加密的附件进行交流。最终,共识是实现真正的电子邮件隐私需要多方面的努力,并接受固有的妥协。

## Notion AI 数据泄露漏洞 研究人员发现Notion AI存在一个严重漏洞,允许通过间接提示注入泄露敏感用户数据。即使在用户批准AI建议的编辑*之前*,也会发生这种情况。攻击利用上传文档(如简历)中的隐藏提示——人眼无法察觉——来操纵Notion AI。 具体来说,攻击者诱使AI构建一个包含文档内容的URL,并将其用作图像插入的来源。这会触发对攻击者控制服务器的请求,从而泄露URL中的数据,无论用户最终是否接受该编辑。在测试中,薪资期望和内部职位细节等敏感信息已被成功泄露。 该漏洞通过巧妙地构建看似安全的提示,绕过了Notion现有的基于LLM的文档扫描。它还会影响Notion Mail的起草助手。Notion驳回了该报告,认为“不适用”,尽管已经进行了负责任的披露。 缓解策略包括限制连接器访问、禁用网络搜索、限制AI个性化数据,以及实施更严格的安全策略,以防止自动渲染外部图像并强制执行强大的内容安全策略。

## Notion AI 漏洞与 LLM 安全问题 最近报告的、尚未修复的 Notion AI 数据泄露漏洞引发了关于大型语言模型 (LLM) 内在安全挑战的讨论。安全研究人员强调的核心问题是,LLM 基于人类的全部语言运作,从而产生了一个实际上是无限的攻击面——尤其是在允许访问敏感数据时,这令人担忧。 评论界普遍认为,LLM 的输出应*始终*被视为不可信的,需要像沙盒和严格数据权限这样的传统网络安全措施。许多人认为,根本性的安全缺陷使 LLM 容易受到提示注入和操纵,并且限制对敏感信息的访问至关重要。 讨论中提出了一些要点:难以追究 LLM 的责任、不受限制的访问风险,以及需要摆脱对 SaaS 解决方案的依赖。一些人还注意到 Notion 对报告的漏洞的回应不够重视,以及 LLM 随着其能力的扩展,可能成为独特的威胁行为者。最终,这场讨论强调了保护 LLM 需要一种根本不同的方法,承认其独特的风险和局限性。

我们正在验证您的浏览器。网站所有者?点击此处修复。 Vercel 安全检查点 | sin1::1767821644-hpyGcEUuE3wubWHtCfgRa26MQYBMbfYK 启用 JavaScript 以继续。 Vercel 安全检查点 | sin1::1767821644-hpyGcEUuE3wubWHtCfgRa26MQYBMbfYK

## Butter.dev:基于LLM的动态数据缓存 Butter.dev正在推出一项新功能,用于其LLM响应缓存:处理动态、模板化输入的能力。传统的HTTP请求级别缓存难以处理诸如名称或时间戳等数据的变化,导致命中率低。 Butter.dev通过使用LLM来*理解*请求的结构,识别动态内容及其关系来解决这个问题。然后,它将缓存条目存储为带有变量和确定性代码的模板。这使得缓存即使在请求包含相同模板内的不同数据时也能提供响应,从而显著提高命中率。 开发者认为,这对于涉及结构化数据的重复性任务自动化特别有用,例如后台流程或数据转换。 您可以在[这里](https://www.youtube.com/watch?v=ORDfPnk9rCA)找到演示,技术细节[这里](https://blog.butter.dev/on-automatic-template-induction-for-...),以及免费试用[这里](https://butter.dev/auth)。

Trail of Bits 发现 `elliptic` 存在两个重大漏洞,这是一个流行的 JavaScript 加密库,被近 3000 个项目使用,每周下载量超过 1000 万次。这些发现源于使用 Wycheproof,一套密码学测试向量进行的测试。 第一个漏洞 (CVE-2024-48949) 是 EdDSA 签名验证中缺少边界检查,允许攻击者伪造已知消息/签名对的签名。该漏洞于 2024 年 7 月私下披露并合并了修复,但直到 2024 年 10 月才公开。 第二个漏洞 (CVE-2024-48948) 是由于消息截断不正确,导致包含前导零的消息哈希使有效的 ECDSA 签名验证失败。尽管在 2024 年 7 月进行了私下披露和提出了修复方案,但维护者没有回应,截至 2024 年 10 月,该问题仍未解决。 这些漏洞凸显了使用 Wycheproof 等工具进行持续密码学测试的重要性,并强调了对安全披露做出及时响应的必要性。这两个问题现已公开,并已分配 CVE ID。

启用 JavaScript 和 Cookie 以继续。

## ChatGPT 健康:初步反应与担忧 OpenAI 最近宣布推出“ChatGPT 健康”,这是一款旨在支持(而非取代)医疗保健的新型人工智能工具。这一消息在 Hacker News 上引发了热烈的讨论,人们对此既感到兴奋,又持怀疑态度。 一些用户对个人健康领域的潜在创新表示热情,指出目前像 Apple Health 和 23andMe 这样的工具无法提供可操作的见解。一位用户分享了使用 ChatGPT 结合自身健康记录的积极体验,在某个案例中,它比他们的医生提供的更全面的信息。 然而,人们也提出了关于数据隐私以及 OpenAI 对敏感健康信息处理信任度的重大担忧。一些评论员质疑即使加密后,将这些数据交给 OpenAI 的做法,并引用过去发生的事件(例如,有报道称人工智能鼓励吸毒)作为谨慎的原因。 还有人强调了潜在的法律挑战和自我诊断的风险,而另一些人则认为它可以增强患者的权力并协助不堪重负的医生。此外,还报告了一些初步的可用性问题,例如注册页面上的链接损坏。总体情绪是谨慎乐观,但受到有效的数据隐私和安全担忧的制约。

## Claude 的技能协同:总结 最近,对 AI Claude 的实验揭示了一种强大的能力:技能组合。作者在开发提高 AI 性能的工具(从 macOS 平铺窗口管理器开始)时,发现 Claude 可以有效地合并不同的技能来解决复杂问题。 最初,创建了一个新的“优化关键路径”技能,但难以确定 *应该* 优化什么。将其与预先存在的“oberdebug”技能(专为通过日志进行系统性的错误诊断而设计)结合使用,结果具有变革性。这种协同作用使 Claude 能够以惊人的准确性 pinpoint 一个性能瓶颈(服务器响应中的 JSON 编码),最终显著缩短了关键操作的时间。 这一成功凸显了技能分层潜力。作者随后将“头脑风暴”与“前端设计”结合起来,为新博客创建了一个以设计为重点的构思流程,甚至将“代码审查”与其他技能集成,以实现更全面的开发方法。关键在于,Claude 的强大之处不仅在于单个技能,还在于它们协同工作的能力,从而解锁了新的问题解决和创造力水平。

## Claude 代码技能:并非那么涌现? 最近一篇在Hacker News(现已更新至vibeandscribe.xyz)上发表的文章,讨论了Claude代码新“技能”功能中的“涌现行为”,引发了争论。虽然被宣传为一种新能力,但许多评论员认为技能仅仅是结构化的提示组合——类似于使用工具的代理,或编写良好的动态工作流(MCPs)。 作者ryanthedev将技能视为可重用的工具,但承认这个概念对Claude来说并不新鲜。其他人指出Codex现在也提供类似的功能(“Talents”)。一个突出的挑战是可靠地激活技能;即使在明显适用时,Claude有时也会在*不*使用预期技能的情况下执行任务。 讨论的重点是技能调用其他技能的可能性,从而创建复杂的工作流,以及人工智能驱动的技能创建和编辑的可能性。然而,人们对“过于元”以及避免过度复杂性的问题表示担忧。最终,共识倾向于技能是一种有用的*抽象*——这是供应商提供的第一种此类功能——而不是一种真正涌现的现象。

飞行前检查清单 哪里出错? 升级到 claude 2.1.0 然后运行 claude。查看错误。 应该发生什么? claude 在使用版本 2.1.0 时应该启动。 错误信息/日志 重现步骤 升级到 2.1.0 并运行 claude。 Claude 模型 无 这是回归问题吗? 否,这从未有效。 上次有效版本 无回复 Claude 代码版本 2.1.0 平台 Anthropic API 操作系统 macOS 终端/Shell 其他 附加信息 无回复 👍React with 👍155steinnes, Xplod13, BigFoxMedia, ekstro, masonhieb 及其他 150 人

## Claude Code CLI 漏洞与讨论总结 (Hacker News) Claude Code CLI 最近出现了一个漏洞,原因是 changelog 格式的变化(具体来说,版本标题中添加了日期)导致应用程序崩溃。问题在于 CLI 尝试将 changelog 解析为结构化数据,但缺乏适当的错误处理。社区迅速分享了一个使用 `sed` 命令的解决方法。 该事件引发了关于“氛围编码”的更广泛讨论——一种优先考虑速度和功能的编码风格,而非代码质量和可维护性。一些评论员表示担忧,这种方法似乎在 Claude Code 的开发中很常见,会导致不稳定和缺乏彻底的测试。另一些人则为快速迭代辩护,认为其优点大于缺点,特别是考虑到该工具的受欢迎程度。 对话还涉及了审查 AI 生成代码的挑战、自动化测试捕捉此类问题的潜力,以及与 OpenCode 等其他 AI 辅助编码工具的比较。最终,该事件凸显了在 AI 驱动工具的新兴领域中,快速开发与健全软件工程实践之间的紧张关系。

更多

联系我们 contact @ memedata.com