每日HackerNews RSS

微软推出了 **MAI-Thinking-1**,这是一款强大的中型(350亿活跃参数,总参数约1万亿)推理模型。该模型专为企业和软件工程应用而设计,在编程和数学领域表现卓越——在 2025 年 AIME 考试中取得了 97.0% 的成绩,并在盲测中优于 Sonnet 4.6 等竞争对手。 至关重要的是,MAI-Thinking-1 代表了对当前行业趋势的背离。它是从零开始构建的,没有使用第三方蒸馏技术,确保其能力是真正习得的,而非继承而来。该模型是微软全新“爬山机”(Hill-Climbing Machine)这一专有端到端开发流水线的旗舰产品。该系统优先考虑三大核心支柱: 1. **自给自足:** 依赖内部基础设施和加速器。 2. **纯净数据:** 仅使用高质量、商业授权的数据,明确排除人工智能生成的内容,以保持数据来源和控制。 3. **习得能力:** 通过严格的确定性训练环境强制模型掌握任务,而不是模仿其他模型。 通过优化更小、更高效的占用空间,微软旨在提供先进的代理智能,使其能够应用于日常开发者工作流程中,这标志着迈向其“人文主义超级智能”(Humanist Superintelligence)目标的重要一步——即旨在增强而非取代人类生产力的人工智能。

抱歉。

包括 Meta、Google 和 Apple 在内的主要科技公司正合作开发一种名为“Attribution Level 1”的浏览器广告衡量系统,旨在将广告展示与用户购买行为关联起来。尽管该系统被包装为一种使用聚合数据而非个人追踪的隐私保护工具,但批评者认为该提案存在根本性缺陷。 该系统缺乏选择加入(opt-in)的同意机制,且通过人为偏向搜索、社交媒体和应用商店广告,进一步巩固了大型科技公司的市场主导地位。由于该标准优先考虑“漏斗底端”的转化广告而非品牌建设内容,这可能会导致收入从独立网站和新闻机构流失,从而造成社会损害。此外,该系统还忽略了环境影响和数字主权等更广泛的问题。 作者主张,隐私是一个无法通过个人设置来管理的集体性问题。由于这些公司实际上是通过技术标准在为自身利益进行游说,因此该提案应当被叫停。如果项目继续推进,用户至少必须保留通过浏览器插件管理或阻止此类追踪的权利。归根结底,这个“归因卡特尔”是一个借技术创新之名,行破坏竞争与隐私之实的利己机制。

作为一名拥有16年使用史的Gmail用户,作者决定弃用该平台,原因在于谷歌日益激进的生成式人工智能整合。作者描述称,如今的Gmail用户体验充斥着未经请求的摘要、预设回复,以及不断弹出、令人分心的AI写作工具提示。 作者认为这些功能不仅毫无帮助,反而具有侵入性且不尊重用户,仿佛谷歌认定用户没有能力撰写自己的邮件。由于无法在保留基本功能的前提下禁用这些“对用户不友好”的功能,作者怀疑谷歌是有意将AI的使用指标置于用户体验之上。 最终,这种持续的摩擦促使作者彻底告别了Gmail。目前,他们正在转向使用Fastmail托管的个性化域名,并发现“重新开始”的过程令人感到解脱。作者在结尾处带有一丝讽刺意味地指出,尽管谷歌多年来保持了Gmail的稳定性,但其最近的急功近利却在极短时间内赶走了一位长期忠实的用户。

以下是该讨论的简要总结: 近日,一篇关于某用户因不堪忍受 Gmail 过于激进和强加的 AI 功能而决定弃用的 Hacker News 帖子引发了热议。许多用户对作者的沮丧感同身受,指出 Gmail 正在变得“愈发糟糕”(enshittification)。用户特别提到的槽点包括:干扰性的“帮我写”(Help me write)提示、低质量的 AI 摘要,以及在无法关闭这些功能的情况下,不得不被迫牺牲自动邮件分类等实用工具。 批评者认为,这些 AI 集成功能如同“恶意软件”,其设计初衷主要是为了拉高企业 KPI,而非提升用户体验。许多回复者建议转而使用 Fastmail 或 Proton 等注重隐私的付费替代方案,并强调了使用自定义域名以避免厂商锁定的重要性。 另一方面,也有部分用户认为 AI 摘要对于邮件处理量大的用户确实有用。另一些人则建议,最简单的解决办法是彻底弃用 Gmail 网页版界面。通过使用 Thunderbird 等标准 IMAP 客户端,用户可以在避开谷歌网页端臃肿 AI 功能的同时访问邮件,既能保持工作流的自主权,又能摆脱现代网页设计中“企业式糟粕”的干扰。

MAI-Code-1-Flash 是一款专为真实开发者工作流设计的编程模型,而非单纯针对合成基准测试。通过使用 GitHub Copilot 的生产环境工具进行训练,开发团队确保了该模型在仓库级任务、代码重构以及实际软件开发环境中的代理式编码方面表现卓越。 该模型的一项关键特性是自适应解决方案长度控制,使其能够动态调整推理深度。这使得模型在处理简单查询时更加简洁,而在处理复杂问题时又能提供更深入的分析,从而在完成相同任务时减少了高达 60% 的 Token 用量。这种效率提升转化为更低的延迟、更少的成本,以及为开发者带来更流畅、更快速的体验。 在利用生产级评估工具与 Claude Haiku 4.5 进行对比测试时,MAI-Code-1-Flash 在所有核心基准测试中均超越了竞争对手,特别是在 SWE-Bench Pro 上领先了 16 个百分点。最终,该模型证明了高精度与计算效率并非互斥,为生产级编码环境提供了一种更优质的工具。

微软推出了 **MAI-Code-1-Flash**,这是一款拥有 1370 亿参数(50 亿激活参数)的开发者模型。微软在公告中强调该模型在 SWE-bench Pro 上取得了 51% 的得分,并将其定位为 Anthropic 公司 Claude Haiku 4.5 的直接竞争对手。 这一公告在 Hacker News 开发者社区引发了广泛质疑,批评者主要指出: * **基准测试选择:** 微软选择与 Anthropic 主打速度的入门级模型 Haiku 进行对比,而非高性能的“Sonnet”或“Opus”级别模型,也未与 Qwen 3.6 等顶尖开源权重模型进行比较。 * **定价与可用性:** 鉴于 GitHub Copilot 近期的计费调整(从按请求收费转为昂贵的按 Token 收费),用户对该模型的价值提出了质疑。许多开发者认为,目前已存在性能更强、性价比更高且可本地运行的开源权重替代方案(如 Qwen 和 DeepSeek)。 * **用户体验不佳:** 该模型的发布网站因采用“强制滚动劫持”设计而广受批评,被用户认为难以操作且令人分心。 尽管有人承认该规模的模型能达到 51% 的性能是一个技术里程碑,但主流观点认为,该模型进入了一个已经饱和的市场,而开发者更看重“实际应用”中的代码可靠性和成本效益,而非宣传性质的基准测试分数。

Semgrep 发布了 **Pyro Caml**,这是一款专为 OCaml 应用程序设计的持续性能分析工具。 作为一款工业级的静态分析工具,Semgrep 需要一种能够在生产环境中运行的性能分析器,且该分析器需满足以下条件:无需访问源代码,并能在受限的 **gVisor 沙盒**架构中工作(该架构会拦截标准的 `perf_event_open` 系统调用)。现有的 OCaml 性能分析工具要么无法在此类环境中运行,要么引入了过高的开销(约 80%),亦或是缺乏持续监控所需的功能。 Pyro Caml 通过以下方式解决了这些问题: * **统计采样:** 利用 OCaml 的 `Memprof` 库,基于内存分配对调用堆栈进行采样。 * **运行时事件:** 利用 OCaml 5 的“运行时事件”(Runtime Events)功能,以极小的开销导出性能数据。 * **FFI 集成:** 使用 Rust 库 `caml-rs` 将数据导入 **Pyroscope** 后端进行可视化。 尽管存在一些细微的局限性(例如无法查看 FFI 调用和特定的垃圾回收时间),但该工具已在生产环境中成功运行数月,处理了超过一百万次扫描。实践证明,它在识别性能瓶颈、将额外开销保持在 5% 以下以及确保 Semgrep 的可靠性与高性能方面至关重要。

抱歉。

Doubleword 正在利用 AMD 的 MI300X 加速器来应对持续的 GPU 短缺问题。尽管与 NVIDIA 的 H100 相比,MI300X 提供了更高的 HBM 容量和更低的成本,但其应用仍受到软件摩擦的阻碍,特别是在处理 DeepSeek-V4 等复杂模型时。 在最近的一次技术深入分析中,Doubleword 详细介绍了在为 MI300X 优化 vLLM 时遇到的“棘手问题”。主要挑战包括: * **FP8 不兼容:** MI300X 使用一种“fnuz”FP8 方言,与标准的 OCP 兼容硬件相比,会导致两倍的数值误差。 * **AITER 库的局限性:** AMD 的调优内核库在 CDNA3 架构上对 DeepSeek-V4 的专用内核缺乏全面覆盖,需要自定义特定于 ROCm 的回退方案。 * **HIP 图的限制:** 成功实现 HIP 图需要重构内核,以避免主机端的动态分配。 通过手动优化和内核调优,Doubleword 实现了 8.6% 的性能提升,并成功在 MI300X 硬件上部署了该模型。虽然工作量巨大,但作者认为,随着 AMD 不断更新其标准,软件差距正在缩小。因此,他们认为 MI300X 是 NVIDIA 在大规模推理方面一个可行且具有成本效益的替代方案。

抱歉。

请启用 JavaScript 和 Cookie 以继续。

抱歉。

这篇短文通过作者本人及其兄弟埃里克(Eric)的经历,探讨了人类记忆的广阔光谱。作者认为自己拥有极其生动的情景记忆,能以极高的细节留存童年场景;而埃里克在生活中则有一种疏离感和“不连续性”,他难以回溯往事,甚至无法在照片中认出年轻时的自己。 作者将这些差异与心理学概念——超自传体记忆(HSAM)和严重自传体记忆缺陷(SDAM)联系起来。科学测试显示,虽然作者擅长视觉情景回忆,但埃里克倾向于通过抽象思维处理信息。他缺乏心理意象——即“心盲症”(aphantasia)——而这种心理意象正是作者“精神时间旅行”的特质所在。 这些不同的认知风格塑造了他们各自的创作生涯:作者专注于非虚构写作,将记忆视为严谨的考古事实;而埃里克则利用这种想象上的距离感,在小说和剧本创作中游刃有余。文章最终指出,无论一个人的记忆是细节无处不在的“垃圾场”,还是由一系列互不关联的语义事实组成,每种风格都既带来了沉重的负担,也赋予了独特的创造性优势,这体现了人类大脑构建过去以塑造身份的奥秘。

抱歉。

在 BQN 中,“原语”(由符号表示的函数)不仅仅是常见任务的速记。相反,其选择遵循“发现”而非“发明”的哲学。理想情况下,一个原语代表了一种基本的、通用的数学概念,正如算术或基本数组运算一样,任何社会都可能独立地“发现”它。 与提供精确性和细微差别的通用词汇不同,原语旨在实现代数上的简洁性和一致性。高质量的原语应当具备清晰的数学描述,提供简化实现的约束,避免随意的边缘情况,并有助于其他运算的构建。 通过将 BQN 建立在这些基础且不可变的原语之上,该语言实现了强大的代数操作。由于符号在视觉上截然不同且具有固定的作用,程序员可以根据运算之间的数学关系对代码进行重构和优化。虽然原语的集合归根结底是一种工程选择,但其目标是推崇编程中的“民间定理”(即揭示底层结构的模式),而非特立独行、凭空创造的功能。通过将原语视为基础的、可组合的构建块,而非单纯的工具,BQN 为复杂计算提供了一套既严谨又灵活的工具集。

抱歉。

完整的开发生命周期 从收件箱中提取任务或 PR,指派智能体进行处理,审查差异并合并代码。或者让智能体为您完成后续闭环。 并行智能体,全程可见 跨代码仓库运行多个智能体会话,每个会话均相互隔离并可实时追踪。 适应您的工作方式 自动化重复性工作流,并通过 MCP 服务器和自定义技能扩展智能体功能。 请告诉我们您的相关信息,我们将评估您是否适合参与预览版。 * 标有星号的字段为必填项。 * GitHub Copilot 应用程序目前仅面向现有的 Copilot Pro、Pro+、Max、Business 和 Enterprise 用户开放。Copilot Free 用户及新客户的访问权限即将推出。 ** 使用 Copilot Business 和 Enterprise 版本需企业/组织层面开启预览权限,并启用 Copilot CLI。

更多

联系我们 contact @ memedata.com