每日HackerNews RSS

这篇文章介绍了 **CVE-Bench**,这是一个旨在评估人工智能模型修复现实世界安全漏洞能力的新基准。作者使用三种不同的提示条件(完整建议、行为描述(诊断)和文件/函数定位(定位)),对 20 个精选的 Python CVE 漏洞测试了五个前沿模型(三个 OpenAI 模型,两个 Poolside 模型)。 **主要发现:** * **可靠性:** 没有模型能可靠地修复漏洞。即使是表现最好的模型 GPT-5.5,整体成功率也仅为 50%(在提供完整建议的情况下为 60%)。 * **性能差距:** 虽然 OpenAI 模型在统计学意义上普遍优于 Poolside 的 Laguna 模型,但同一系列模型之间并无显著差异。 * **成本效益:** 在达到同等结果的情况下,代币成本差异可达 4 倍。小型模型能以极低的价格提供与大型模型相当的结果,这使它们对从业者而言更为合理。 * **失败模式:** 模型的失败方式具有可预测的结构性特征:偏离到无关的代码搜索中、触及代币/轮次限制,或提供看似“合理”但无法通过隐藏安全测试的补丁。 * **“定位”挑战:** “定位”条件(即模型在未获得漏洞描述的情况下进行修复)是对真正安全推理能力的有效测试,而这正是所有当前模型所欠缺的技能。

抱歉。

AI 训练初创公司 Shift 目前正在纽约提供免费的家庭清洁服务,并计划扩展至旧金山、伦敦和苏黎世等城市。作为服务交换,清洁人员会佩戴伪装成“魔法帽”的摄像头,记录从洗碗到吸尘的每一项任务。Shift 将这些第一视角影像用作训练数据,以教授机器人如何处理家务。 尽管该公司承诺会通过匿名化和模糊处理来保护人脸和个人文件等敏感信息,但这种商业模式反映出一种日益增长的趋势:即通过挖掘人类活动来推动人工智能的发展。Shift 目前在全球已雇佣数千人来记录日常工作,该公司认为这些“具有挑战性”的清洁环境是开发自主居家护理机器人的重要基础。展望未来,这家初创公司打算将数据采集范围扩大到其他劳动密集型领域,包括管道维修、烹饪和建筑工程。

初创公司“Shift”正在提供免费的家庭清洁服务,以换取收集数据的权利,并利用这些数据来训练未来的清洁机器人。该公司声称在处理用于人工智能训练的视频片段之前,会对人脸和个人文件等敏感信息进行匿名化处理。 Hacker News 社区对这种模式持高度怀疑态度。许多用户表达了深切的隐私担忧,并指出居家环境是一个人生活中最私密的领域。批评人士警告称,即使公司出于善意行事,这些数据也可能因黑客攻击而泄露、被出售给第三方,或被利用于监视及针对性犯罪。另一些人则提到,此前另一家“机器人清洁”初创公司曾因未经许可测试导致 Airbnb 房产受损而引发争议,这加剧了人们对这类企业道德与可靠性的担忧。 尽管一些用户认可清洁机器人对老年人或残障人士的潜在价值,但主流观点认为,大规模数据采集的风险,以及这些机器人可能成为“终极告密者”的隐患,远超免费清洁服务带来的便利。许多评论者总结道,在这种模式下,客户不是“上帝”,而是“产品”。

英国内政部计划明年在多佛的西部喷气箔(Western Jet Foil)处理中心试用人工智能面部年龄估算技术。该工具旨在辅助边境官员评估寻求庇护者的年龄,作为文件审查和行为观察等现有方法的补充。 政府坚称,该技术是解决年龄争议最具成本效益的方案。然而,这一提议遭到了社会工作者和人权组织的强烈抵制。英国社会工作者协会(BASW)警告称,依赖人工智能可能导致严重的保护失误,并指出复杂的年龄评估需要人类专业知识,而非技术捷径。 人权观察组织谴责该计划,称其为一项未经证实、非人性化且在伦理上存在严重问题的实验,针对的是脆弱的儿童。批评人士强调,没有任何证据表明该技术在难民环境中是可靠的,因为它此前仅用于零售等商业场景。尽管存在这些担忧,内政部仍继续推进试点工作,将该软件定位为边境执法的辅助工具。

抱歉。

这段文字通过三个片段展现了威灵顿公爵的性格与军事才能。首先,1812年他致信白厅,辛辣地讽刺了英国政府在军队浴血奋战之际,仍沉迷于琐碎官僚事务(如零用钱和果酱)的行径。威灵顿嘲讽地询问,他的主要职责究竟是为伦敦的文员处理文书,还是击败拿破仑。 其次,文中记述了1809年的塔拉韦拉战役。当时,威灵顿的冷静与西班牙盟军混乱的纪律形成了鲜明对比。当一位西班牙将军进行了一场华而不实、毫无意义的炮击表演时,威灵顿冷冷地回应道,希望当真正的敌人出现时,他们也能有如此表现。 最后,在1814年的一场战役中,威灵顿系统性地击败了拿破仑麾下最杰出的元帅们。在随后巴黎举行的庆功舞会上,这些战败的将军们以背对他来表示狭隘的敌意,但公爵不为所动,并对法国国王打趣道:“陛下不必介意,他们的背影我早就见识过了!” 总而言之,这些轶事勾勒出了威灵顿作为一名足智多谋、拥有冷峻而坚毅智慧的军事统帅形象。

抱歉。

Liquid AI 发布了 **LFM2.5-8B-A1B**,这是一款针对边缘设备优化的模型,专为在消费级硬件上实现快速、可靠的工具调用而设计。在上一代 8B 版本的基础上,该版本具备 128K 上下文窗口,词汇表翻倍至 128K 以提升多语言支持,并增强了强化学习,从而减少了幻觉和“死循环”问题。 主要改进包括: * **以推理为先:** 该模型采用显式思维链处理,显著提升了准确性和智能代理任务的执行能力。 * **边缘计算效率:** 专为本地运行优化,可在笔记本电脑和移动设备上流畅运行,在 Apple Silicon 芯片上的吞吐速度高达 253 token/s。 * **极具竞争力的性能:** 尽管体积小巧,但在 IFEval、MATH500 等基准测试及各类代理工作流中,其表现优于许多大型模型。 * **广泛的兼容性:** 现已在 Hugging Face 和 Playground 上发布,并于发布首日即支持 llama.cpp、MLX、vLLM 和 SGLang。 LFM2.5-8B-A1B 定位为私有化、设备端 AI 代理的开源权重解决方案,能够在无需连接云端的情况下,处理复杂的指令遵循和多工具工作流。

Liquid AI 发布了一款在 38 万亿个 token 上训练的 8B-A1B 混合专家(MoE)模型,在 Hacker News 上引发了褒贬不一的反响。 尽管一些用户称赞该模型在摘要等特定任务上的速度和表现令人印象深刻,但许多开发者在独立测试中反馈结果令人失望。批评者指出,Qwen2.5-Coder 等较旧或较小的模型在代码基准测试和工具使用任务上往往表现优于它。 讨论的核心主题包括: * **模型性能**:用户指出该模型在推理方面存在显著差距,一些人将其描述为“不稳定”,或认为其缺乏复杂技术工作所需的深度。 * **训练策略**:一些专家质疑在 38 万亿 token 上训练 8B 模型的效果,怀疑行业是否正触及收益递减的瓶颈,或者是在基准测试上出现了过拟合。 * **本地与云端**:社区在小型本地模型的问题上仍然存在分歧。虽然有些人看重其在基础智能体任务中的速度和隐私性,但另一些人则认为,只有更大规模的稠密模型才能提供专业工作流程所需的可靠性。 总体而言,虽然 Liquid AI 的技术成就得到了认可,但用户提醒称,其实际表现往往达不到宣传中所声称的水平。

在这篇文章中,作者详细介绍了 **CodeView** 的开发过程。这是一个以虚拟化为核心的组件,旨在实现在浏览器中渲染大规模代码差异(diff)且不影响性能。 由于代码审查界面在处理大型 PR 或 AI 生成的代码时往往力不从心,团队构建了 CodeView 来处理海量数据集,同时保持原生般的导航体验。他们的解决方案解决了三个主要瓶颈:**渲染**(DOM 复杂度)、**处理**(语法高亮和布局计算)以及**内存占用**。 核心技术创新包括: * **反向粘性技术(Inverse Sticky Technique):** 一种混合虚拟化方法,通过将渲染区域固定在视口边缘,防止快速滚动时出现“白屏”。 * **性能优化:** 通过 DOM 复用池来减少垃圾回收,分离已解析的字符串以节省内存,并使用共享配置状态来避免不必要的重复渲染。 * **延迟高亮:** 将耗时的语法高亮处理转移至 Web Worker,确保代码在纯文本状态下保持可读性,同时实现高亮的渐进式增强。 尽管 CodeView 已经能够近乎即时地渲染大规模差异(例如 Linux 内核的完整历史),但团队仍在持续优化 CSS 布局开销以及 WebKit 特有的兼容性问题。该项目可通过 npm 包 `@pierre/diffs` 获取。

这次 Hacker News 讨论的主题是一篇关于在 Web 浏览器中渲染超大规模代码差异(diff)的技术博客。作者阐述了如何利用“虚拟化”和一种“新颖的逆向粘性技术”来保持流畅的滚动体验和高帧率,即使是在处理数百万行代码时也能游刃有余。 评论者对这项工程努力给予了高度评价,但讨论也引发了关于 Web 架构的一场经典争论: * **性能与原生行为的权衡:** 一些用户批评虚拟化技术破坏了浏览器原生的 `Ctrl+F` 搜索功能,并导致滚动时出现“闪烁”感。他们认为浏览器理应原生处理海量文档,而非依赖 JavaScript 的“变通方案”。 * **“为什么”与“怎么做”:** 多位参与者指出,尽管渲染技术令人印象深刻,但真正的挑战在于提升代码差异的“质量”(例如,忽略琐碎的空格或格式重排的语义化差异)。 * **实用性:** 作者为其方案辩护,强调了在当前浏览器环境下对高性能工具的迫切需求,并指出对于当下的开发者而言,等待浏览器引擎的演进并非切实可行的方案。

为什么是罗斯科,为什么是现在 关于这位画家,罗斯科在 1940 年代末停止了描绘具体事物。他所保留的是光线、色彩,以及作品旨在带给站在画前之人的某种感受——喜悦、狂喜、厄运或悲剧。他在画面上安排了两到三个边缘柔和的长方形,并不断处理表面,直到色彩仿佛在画布内拥有了属于它们自己的天气。他要求画廊将画作挂得低一些,调暗灯光,让人们静静地与画作相处。画作的意义在于产生某种作用,而不仅仅是被观看。

抱歉。

```
 
 
 
 
 

```

**TV Explorer** (tvexplorer.live) 是一个全新的网页项目,提供了一个先进且用户友好的界面,用于浏览全球 IPTV 频道。该平台旨在解决用户在查找、筛选和管理直播流时的困扰,让用户能够探索国际电视节目,以进行新闻对比、语言学习或娱乐。 主要功能包括: * **精选内容:** 频道源自一个由社区维护的公开 GitHub 仓库。 * **技术创新:** 该应用基于开发者的“Watson”框架构建,支持跨设备验证,并允许用户将手机用作客厅电视的“遥控器”。 * **智能 UI:** 网站可跟踪频道状态、处理地理封锁,并提供深度链接以便于分享。 Hacker News 社区对此反响热烈,称赞其带来了怀旧的“90年代频道扫描”体验,并认可了它在语言学习方面的实用性。用户提供了建设性的反馈,建议增加“手气不错”(I feel lucky)按钮、优化桌面端导航以及改善对隐藏式字幕的支持。开发者正在积极开发后续更新,包括对 Roku 和 Apple TV 等流媒体设备的支持。

请启用 JavaScript 和 Cookie 以继续。

这条 Hacker News 讨论帖探讨了将 **SQLite** 作为持久化代理工作流(agentic workflows)主要存储层这一日益增长的趋势,这通常被视为替代 Temporal 或 Airflow 等复杂编排器的更简便方案。 **主要主题:** * **简单性与复杂性:** 许多开发者认为,对于大多数工作负载而言,现代“过度设计”的分布式系统是不必要的。SQLite 提供了一种轻量级的“单文件”解决方案,无需数据库服务器或庞大的编排平台带来的运维开销,即可处理状态、重试和任务组织。 * **代理工作流(Agentic Workflows):** 用户发现 SQLite 对于 AI 代理特别有效。将状态存储在数据库行中而非平面文件(JSON/Markdown)中,可以节省 token,避免文件解析瓶颈,并提供 LLM 能够轻松查询和更新的结构化数据。 * **“SQLite 不适合生产环境”的争论:** 批评者认为 SQLite 不适合高并发、多用户的生产环境。支持者则反驳说,对于大多数应用,SQLite 的性能表现非常出色,且许多所谓的“生产环境”瓶颈实际上是架构问题,无论选择何种数据库都会存在。 * **基础设施替代方案:** 虽然一些人称赞 Litestream 等复制工具,但另一些人警告了自建分布式系统的风险。共识倾向于认为,SQLite 是“小规模软件”的理想选择;但对于高扩展性、关键任务系统而言,Postgres 等更健壮的数据库服务器依然是标准配置。

Step 3.7 Flash 是一款智能体基础模型,它利用测试时缩放(test-time scaling)而非单纯依赖参数规模来实现高水平的视觉性能。通过调用专用工具,该模型弥补了其体积较小的劣势,能够媲美规模大其五倍的模型性能。 主要功能包括: * **视觉搜索:** 通过集成外部搜索能力增强识别效果,其性能可与规模大得多的模型相媲美。 * **Python 集成:** 提供统一的代码接口(缩放、裁剪、像素级处理),以处理复杂的、高分辨率的推理任务。 * **图形用户界面(GUI)操作:** 实现对智能手机应用程序稳健的长程控制,在 Android Daily 基准测试中表现优于规模更大的模型。 该模型的一项重大突破是其**涌现出的组合泛化能力**。Step 3.7 Flash 能够自主结合视觉和非视觉工具(例如先编写代码,然后使用图形界面来验证其输出),而无需明确的训练。这种跨领域迭代和自我修正的能力,标志着智能体推理的一大进步,使模型能够执行超越标准文本交互的复杂现实任务。

抱歉。

更多

联系我们 contact @ memedata.com