每日HackerNews RSS

受 Sigge Winther Nielsen 所著《创业型国家》(*The Entrepreneurial State*)启发,作者探讨了大型政治与私营部门项目反复失败的问题。这些失败常被归咎于高度的不确定性,但作者认为,通过严谨且迭代式的执行,可以降低“决策风险”。 与其投入大规模的预设项目,组织应将工作拆解为尽可能小的可学习单元。通过行动与学习的交替,团队能根据现实反馈调整路径。至关重要的是,领导者应设定预期的成果,而非具体的产出。当掌握权力者在缺乏专业领域知识的情况下强行指定解决方案时,会扼杀团队向实际结果“攀登”的能力。 作者认为,政治改革的系统性失败并非不可避免,而是一个亟待解决的“元问题”。通过将系统思维应用于政治进程,我们完全有机会摆脱僵化、高风险的规划,转向一种更敏捷、更有效的社会挑战解决方案。作者保持乐观,认为只要找出这些制度性失败的根本原因,我们就能使政治决策的制定与实施实现现代化。

像 Wholembed v3 这类后期交互模型通过保留细粒度的文档信息,显著提高了检索精度,但由于每个文档会生成数百个向量,导致其存储成本高昂。 为了使该技术在十亿级文档规模下具备实用性,Mixedbread Search 团队在其“Silo”引擎中实现了**非对称量化**。通过保持查询向量的高精度(int8),并将文档向量存储为 1 位二进制符号,该系统实现了每个文档 32 倍的存储缩减,从 393 KiB 降至 12.28 KiB。 这种方法在极小程度降低 NDCG@10(从 90.26 降至 89.65)的同时保留了排名质量,并显著提升了性能。由于文档向量是持久的而查询是短暂的,这种权衡优化了系统的主要成本驱动因素:存储、IO 和缓存空间。此外,二进制文档格式允许使用优化的评分内核,以简单的选择与求和操作取代复杂的乘法运算。最终,该方法在利用高质量多向量表示的同时,保持了大规模生产搜索系统所需的高效率和低成本。

mixedbread 发表的文章《非对称量化:实现 97% 存储压缩的近乎无损检索》探讨了一种大幅缩减检索任务中文档向量嵌入存储空间的方法。通过将 Int8 查询与二进制文档向量配对,作者在实现 32 倍(97%)存储压缩的同时,仅导致了极小的检索质量下降(NDCG@10 得分从 90.26 降至 89.65)。 这篇文章在 Hacker News 上引发了关于“近乎无损”这一术语的激烈争论。批评者认为,在信息论中,“无损”是一个客观的二元状态,将有损过程称为“近乎无损”具有误导性。相反,支持者则认为,该术语恰当地描述了在巨大的存储节省与微不足道的性能损失之间所取得的实际权衡。 讨论还涉及了技术实现层面,指出该方法与 BitNet 等策略的相似性,并强调了使用 NDCG@10 等指标来证明质量损失确实极小的重要性。除了技术辩论外,用户还对文章由人工撰写表示赞赏,并将其与当前泛滥的 AI 生成内容进行了对比。

**MarketFish** 是一个开源的多智能体市场模拟引擎,旨在以数据驱动的验证取代推测。它不再依赖单一的大语言模型(LLM),而是在数字市场中部署了 128 个以上的异构 AI 智能体,每个智能体都具备独特的预算、情绪和偏好。 通过 30 轮模拟,这些智能体会进行互动、相互影响并做出购买决策。MarketFish 基于六大学术框架(包括 *Generative Agents*、*TwinMarket* 和 *EconSimulacra*)构建智能体行为,为产品市场匹配度、流失模式和竞争定位提供可操作的见解。 **主要功能:** * **多元智能:** 支持 11 家 LLM 提供商(包括 DeepSeek、OpenAI 和 Claude),以构建真实且多样的消费者群体。 * **先进模拟:** 采用 5 阶段流水线来生成市场结构、知识图谱和智能体行为。 * **灵活模式:** 使用“探索”(Explore)发现产品方向,“验证”(Validate)进行生存评分和定价测试,或使用“混合”(Hybrid)模式与 AI 驱动的竞争对手展开博弈。 * **独立运行:** 无需外部依赖(无需 Zep 等外部数据库),提供了一种轻量级、MIT 许可的通用模拟器替代方案。 MarketFish 将市场调研转化为可重复、可扩展的实验,帮助创始人甚至在投入一分钱开发之前,就能精准识别产品成功或失败的原因。

抱歉。

METR 最近的一项研究揭示了开发者对 AI 在软件开发中实际影响的认知与现实之间存在危险的脱节。虽然经验丰富的开发者在使用 AI 工具时感觉速度提升了 20%,但受控测量显示,他们的实际工作效率反而下降了 19%。这种“失准的标尺”表明,速度感不仅存在误差,而且具有极强的误导性。 AI 加快了打字阶段的速度,但这从未是软件开发的主要瓶颈。相反,它将负担转移到了验证和审查阶段——这一环节不仅成本高昂、耗时,而且极易出错。来自 DORA 和 GitClear 等更广泛行业来源的数据也证实了这一点:尽管代码生成量和拉取请求(Pull Request)数量激增,但最终交付量却停滞不前,且代码变动率增加、稳定性下降。 目前,整个行业正处于“验证瓶颈”中,即审查 AI 生成内容的成本已高于工具本身节省的时间。为了应对这一挑战,工程领导者必须停止依赖主观的团队开发速度和员工自述的生产力感受。取而代之的是,应关注客观的产出指标——即真正进入生产环境并保持稳定的代码量,并重新调整人力配置,以支持那些被 AI 无意中加重的关键审查流程。

这篇 Hacker News 帖子讨论了一项 2025 年的研究,该研究声称开发人员在使用 AI 时感觉速度提升了 20%,但实际上效率却降低了 19%。讨论呈现出高度的两极分化,许多用户认为该研究已经过时或存在缺陷,并指出较新的数据表明效率提升了 18%。 辩论的主要观点包括: * **方法论质疑:** 批评者认为,跨不同任务衡量“速度提升”过于简化,且未考虑到软件工程的多样性;AI 可能擅长机械性任务,但在处理需要大量上下文的架构设计时却力不从心。 * **“验证”瓶颈:** 一些人认为,虽然 AI 降低了代码生成的成本,但开发人员目前花费更多时间在代价高昂的验证工作上;随着对 AI 生成代码信任度的提高,生产力有望提升。 * **感知与现实:** 用户将 AI 体验与其他工具(如 IDE 或快捷键)进行了对比,指出“生产力”感往往是一种主观心理状态,而非量化指标。 * **背景过时:** 许多参与者批评该帖引用了陈旧的数据,认为 AI 模型的快速迭代使得一年前的生产力基准在当前的开发环境下已不再适用。

“The Wisdoms”(由 The Eskimo 整理的一系列实用 Apple 开发者论坛文章)即将迎来更新。为方便用户追踪变动,现已启用一套颜色编码系统:🟢 表示新文章,🟡 表示已更新,🔴 表示内容已弃用。弃用的内容已由 Apple 官方文档取代,完整的版本历史记录可在提供的更新日志(CHANGELOG)中查看。 该合集涵盖了开发者关注的核心主题,包括代码签名、App Store 工作流程、配置描述文件、公证、iOS 后台进程以及各类技术难题。尽管提供 PDF 存档,但仍建议使用实时链接以获取最新信息。所有内容均受 Apple 开发者论坛许可协议约束。

抱歉。

本文批评了谷歌的“安卓开发者验证”(ADV)计划,指出这是一项限制性的系统级举措,破坏了安卓系统的开源本质。作者认为,谷歌通过“Play 保护机制”强制执行中央注册,实际上充当了唯一的守门人,拥有单方面定义并封锁所谓“恶意软件”的权力。 文章警告称,由于谷歌未对“恶意软件”给出明确定义,该系统可能会以安全为幌子,压制如广告拦截软件等竞争对手。尽管谷歌声称该计划旨在防止恶意活动,但包括大型民权和开源组织在内的批评者认为,这是一项不必要且严苛的措施,强制收集个人数据并集权化管控。 文章对该强制令损害软件自由和用户自主权深表担忧。随着该计划在部分地区率先推出,作者警告称,谷歌正在瓦解过去 18 年的开放式开发模式,构建一种“信任我”的安全模型,这威胁到了 F-Droid 等独立软件存储库的生存。作者目前尚无法确定即将到来的强制执行所带来的具体技术影响,但正积极为受此安卓生态系统变革影响的用户准备相关指南。

这篇 Hacker News 帖子讨论了谷歌新推出的“安卓开发者验证”(Android Developer Verification,简称 ADV)计划。该计划要求开发者在通过 Google Play 商店以外的渠道分发应用时,必须先验证身份。 **核心观点:** * **批评意见:** 许多用户和 F-Droid 团队将 ADV 视为实现中心化控制的“特洛伊木马”。批评者认为,谷歌通过强制要求开发者提供政府颁发的身份证件并缴纳费用,实际上是在把控通用计算的准入权,威胁了匿名性,并可能赋予其随意删除“未获批准”应用的权力。一些人认为这是迈向类似 iOS 的威权式“围墙花园”模式的进一步举措。 * **辩护意见:** 另一些人则认为这种愤怒被夸大了。支持者认为,该机制是应对猖獗的金融诈骗、欺诈和钓鱼攻击的必要手段,并有助于谷歌在遵守反垄断裁决的同时,为非技术用户维持基本的安全底线。他们指出,新的“高级流程”(Advanced Flow)仍然允许侧载,尽管过程会有些繁琐。 * **关于“替代方案”的辩论:** 讨论凸显了数字独立性的脆弱。许多用户因为使用 GrapheneOS 或 LineageOS 等注重隐私的操作系统,而无法使用银行、政府证件等关键服务。虽然有人呼吁转向基于 Linux 的移动设备,但另一些人认为这些方案目前在日常使用中并不切实际,且缺乏必要的安全标准。

CursorBench 3.1 旨在评估 AI 智能体在处理复杂、多文件真实编程任务时的表现,包括代码库分析、调试和重构。该基准测试通过任务成功率与单次任务平均成本的对比来衡量模型性能。 **主要发现:** * **顶级表现:** Fable 5 (Max) 以 72.9% 的成功率位居排行榜首位,紧随其后的是 Fable 5 的其他高阶配置。 * **成本与质量:** 成本与性能之间存在明显的正相关关系;如 Fable 5 和 Opus 4.8 等高分模型,由于 token 使用量和处理步骤的增加,其价格也更高。 * **效率:** 与顶级模型相比,像 Composer 2.5 这样注重预算的选择,能在显著降低成本(每项任务 0.55 美元)的同时提供极具竞争力的结果(63.2%)。 * **方法论:** 分数基于模型在模糊的多文件代码任务中的表现计算得出。成本则是根据标准每百万 token 定价并应用于实际使用数据所得,且承认微小的分数偏差可能在误差范围内。 总体而言,该基准测试突显了一种权衡:用户必须在 Fable 5 等模型的高精度、高成本性能,与 Composer 等轻量级模型的成本效益效率之间做出选择。

编程助手 Cursor 最近发布的“CursorBench”在 Hacker News 上引发了广泛讨论。Cursor 声称其内部的“Composer 2.5”模型以极低的成本,实现了与 Opus 4.8 和 GPT-5.5 等行业领先模型相当的性能。 批评者对此持高度怀疑态度,并指出诸如 *Artificial Analysis* 等独立的第三方测试显示,Composer 2.5 在 DeepSWE 等严苛基准测试中明显落后于顶级模型。许多用户认为,Cursor 的基准测试很可能是针对其自身训练数据进行了过拟合,旨在以最有利的方式展示该公司的产品。 社区基于使用场景呈现出明显的两极分化: * **支持者**称赞 Composer 2.5 在日常 Web 开发任务中速度快、效率高,认为它对于大多数迭代式编码工作而言“已经足够好”。他们认为,Opus 等顶级模型在实际日常工作中往往速度过慢且“代币消耗过大”。 * **怀疑者**则认为 Composer 生成的代码较为“肤浅”或“不规范”,缺乏复杂工程所需的推理能力,并警告称其经常引入隐蔽且危险的漏洞。 归根结底,大多数开发者认同基准测试具有“欺骗性”,模型的真正价值取决于具体的工作负载和个人的工作流。

GitHub Copilot 现已引入 **Kimi K2.7 Code**,这是首个作为可选模型加入 Copilot 模型选择器的开源权重模型。该模型托管在 Microsoft Azure 上,为用户提供了性价比更高的编程任务选择,并按使用量计费。 该功能目前正向 Visual Studio Code 中的 **Copilot Pro、Pro+ 和 Max 计划**用户推出,并预计在未来几周内扩展至 Copilot Business、Enterprise 及其他平台(包括 JetBrains、Xcode 和 GitHub Mobile)。 对于 **Copilot Business 和 Enterprise** 用户,该模型默认处于禁用状态。管理员需在 Copilot 设置中手动启用 Kimi K2.7 Code 策略以授予访问权限,并建议在启用前根据组织的安全性及合规性要求对该模型进行评估。 一旦模型在其所在地区和计划中可用,用户即可通过 Copilot 模型选择器进行访问。欢迎通过 GitHub 社区提供反馈。有关详细定价及完整的兼容性要求,请参阅 GitHub Copilot 官方文档。

GitHub Copilot 已将其模型阵容新增了 Kimi K2.7 Code,这在 Hacker News 上引发了关于人工智能辅助开发领域演变的激烈讨论。 许多用户对 GitHub Copilot 最近转向基于“令牌(token)”的按量计费模式表示不满,这种模式大幅增加了许多开发者和企业的成本。再加上有关其性能表现不稳定的反馈,越来越多的开发者开始转向其他替代方案。 讨论的主要议题包括: * **“本地优先”运动:** 许多开发者正倾向于在本地运行模型(例如 Qwen 3.6 或 Gemma 4),以避免订阅疲劳、数据隐私顾虑,以及云服务商削弱或移除功能带来的风险。 * **对 Copilot 的不满:** 批评者认为,Copilot 的“外壳”(即周边的提示词工程和工具编排)不如 Claude Code 或开源 CLI 工具优秀。 * **对定价的质疑:** 用户认为最近的价格上涨实际上终结了 Copilot 的性价比优势,促使企业开始探索更便宜的基于 API 的路由方案或自托管方案。 尽管 Kimi K2.7 的加入被视为模型多样化的一步,但越来越多的开发者正开始优先考虑掌控权和成本效益,而非仅仅是便利性。

Avo 4 现已发布,这是历经 15 个月研发的成果。本次重大更新带来了全面的 UI 改版,包括深色模式、基于 Tailwind CSS 的现代化技术栈,以及全面的键盘导航支持。 **主要新功能:** * **强大的插件:** 包含看板、响应式表单、通知系统、团队协作和基于 HTTP 的资源管理。 * **基础设施:** Avo 现在可以生成强大的 JSON API,使其能够作为智能体(Agents)和外部应用程序的后端。 * **工作流优化:** 包含数百项底层改进,包括重新设计的搜索功能和更出色的移动端适配。 **定价与升级:** Avo 4 采用了灵活的模块化订阅模式。用户可以按需选择特定插件,或直接订阅精选套装。 * **Avo 3 用户:** 可获得 14 天试用期,并在订阅 Avo 4 的前三个月享受 5 折优惠。Avo 3 将继续获得安全和漏洞修复支持。 * **设计理念:** Avo 认为,虽然 AI 可以编写代码,但往往缺乏生产级内部工具所需的安全性、边缘情况处理能力和长期可维护性。Avo 提供了一个“强化过”的基础框架,让开发人员能够专注于核心业务,打造差异化优势。

学习基础知识,然后就开始吧。刚接触 Vim?请先阅读本文。Vim 仅通过键盘即可编辑文本。无需点击鼠标或按住方向键,你只需按下单个按键即可精确移动光标,例如向前移动一个单词或跳到行尾。这些按键被称为“动作”,正是它们让经验丰富的 Vim 用户拥有极高的效率。本游戏将逐一教授这些动作。在这里,你始终处于“普通模式”,因此每个按键都是一条指令。在按键前输入数字即可重复操作(例如 3j 表示向下移动三行);如果某个按键似乎没有反应,通常是因为它在等待第二个按键(例如先按 f,再按要跳转到的字母)。面板会提示你何时处于等待状态。游戏会教授每一个动作,且每一关只展示当前所需的几个动作。

更多

联系我们 contact @ memedata.com