arXivLabs 是一个允许合作者直接在我们的网站上开发和共享 arXiv 新功能的框架。与 arXivLabs 合作的个人和组织都认同并接受了我们对开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并仅与遵守这些价值观的合作伙伴合作。如果您有能为 arXiv 社区增加价值的项目想法,请了解更多关于 arXivLabs 的信息。
arXivLabs 是一个允许合作者直接在我们的网站上开发和共享 arXiv 新功能的框架。与 arXivLabs 合作的个人和组织都认同并接受了我们对开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并仅与遵守这些价值观的合作伙伴合作。如果您有能为 arXiv 社区增加价值的项目想法,请了解更多关于 arXivLabs 的信息。
通过数据重加权(使用权重 $\beta_i = p(x_i)/q(x_i)$)来校正协变量偏移,虽然消除了偏差,但却显著增加了方差。当权重不均匀时,少数数据点会主导估计结果,导致大部分样本实际上变得无效。这一现象可以通过**基什有效样本量(Kish’s effective sample size)**($n_{\mathrm{eff}} = 1/\sum \alpha_i^2$)来量化,它衡量了加权样本的实际“信息含量”。
无论是通过加权和的方差还是通过尾部概率的霍夫丁不等式(Hoeffding’s inequality)进行分析,结论都是一致的:加权估计量的统计表现等同于样本量为 $n_{\mathrm{eff}}$ 的无加权估计量。
这一概念在离线强化学习等领域至关重要,通过监测 $n_{\mathrm{eff}}$ 可以诊断回放缓冲区(replay buffer)的“陈旧程度”。当当前策略偏离行为策略时,权重会变得集中,$n_{\mathrm{eff}}$ 随之骤降,这表明缓冲区的有效信息已耗尽。将 $n_{\mathrm{eff}}$ 视为一种诊断控制信号,有助于进行更稳健的算法调整,例如在粒子滤波中触发重采样,或在强化学习中校准更新步长。
arXivLabs 是一个允许合作者直接在我们的网站上开发和共享 arXiv 新功能的框架。与 arXivLabs 合作的个人和组织都认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于践行这些价值观,并仅与坚持这些价值观的合作伙伴合作。如果您有能为 arXiv 社区创造价值的项目构想,请了解更多关于 arXivLabs 的信息。
arXivLabs 是一个允许合作者直接在我们的网站上开发并分享 arXiv 新功能的框架。与 arXivLabs 合作的个人和组织都认同并接受我们对开放、社区、卓越和用户数据隐私的重视。arXiv 致力于秉持这些价值观,且仅与遵守这些价值观的合作伙伴开展合作。您是否有能为 arXiv 社区增值的项目构想?了解更多关于 arXivLabs 的信息。
本研究旨在评估大语言模型(LLM)智能体在超参数优化(HPO)任务中是否能够超越 CMA-ES 和 TPE 等经典算法。研究人员利用“autoresearch”框架发现,尽管 LLM 可以修改训练代码,但在追踪优化状态方面表现吃力,在受限情况下始终无法达到经典方法的水平。 为解决这一问题,作者提出了 Centaur,这是一种混合方法,将 CMA-ES 的结构化、可解释状态(均值向量、步长和协方差)与 LLM 的领域知识相结合。Centaur 的表现优于纯 LLM 智能体和经典算法,即便是仅有 0.8B 参数的小型模型也能取得优异结果。 研究结论指出,目前 LLM 最有效的角色是作为经典优化器的补充,而非替代品。尽管无约束的代码编辑是可行的,但若要达到传统 HPO 技术的效率与稳定性,则需要规模显著更大的模型。
尽管面临地缘政治紧张局势和能源供应中断的潜在风险,欧洲电价因可再生能源的大规模扩张而保持稳定。据欧洲太阳能协会(SolarPower Europe)统计,自去年3月1日以来,欧洲大陆的太阳能设施已节省了超过110亿欧元的化石燃料进口成本,有效保护消费者免受市场波动的影响。
西班牙、德国、法国和英国等国在这一转型中处于领先地位,可再生能源正频繁取代电网中昂贵的化石燃料。通过减少对燃气发电的依赖,这些国家降低了电力成本并增强了能源安全。分析表明,太阳能和风能项目的部署速度明显快于传统火电厂,使其成为实现长期稳定的最实际方案。
全球投资趋势证实了这一转变;国际能源署报告称,目前每投入1美元用于化石燃料,就有近2美元流向清洁能源技术。尽管政界存在支持传统燃料的言论,但在经济需求和多元化绿色能源基础设施所具备的优越可靠性的推动下,向可再生能源的转型正在加速。随着欧洲持续整合电池储能和改进电网,其能源未来正变得更加经济实惠且独立自主。
尽管 ZFS 的设计初衷是防止数据损坏,但人为地破坏数据对于理解自愈机制和磁盘映射来说是一次极具价值的教学实践。
模拟损坏的“偷懒”方法是使用 `zinject`,它无需手动操作磁盘即可触发校验和错误。然而,要真正理解 ZFS 如何映射数据,必须使用基于文件的存储池(file-backed pools)。通过创建小型磁盘镜像并利用 `zdb` 等工具,您可以追踪文件从 inode 到物理“磁盘”上特定数据虚拟地址(DVA)的全过程。
具体流程包括:
1. **侦察:** 使用 `zdb` 定位文件块的确切 DVA 和扇区偏移量(请记住需预留 4MB 的标签空间)。
2. **陷阱:** 必须禁用压缩功能,因为压缩后的块无法通过十六进制手动编辑进行可预测的映射。
3. **损坏:** 在存储池导出的状态下,使用 `dd` 命令覆盖特定扇区。
4. **恢复:** 重新导入存储池并运行 scrub(扫描),即可验证 ZFS 检测单盘错误或利用 RAIDZ 校验位自动修复受损数据的能力。
最终,这些手动操作将抽象的 ZFS 概念转化为对数据在存储介质上物理存在方式的具体认知。
在今年的平台状况发布会(Platform State of the Union)上,苹果以“折纸”为主题,隐晦地暗示了其硬件演进的下一个方向:折叠屏 iPhone。尽管演示重点展示了富有创意的纸张折叠,但技术层面的核心信息在于“针对多种尺寸和纵横比进行动态设计”。 iOS 27 测试版中的证据——包括用于 `foldState`(折叠状态)、`angleDegrees`(折叠角度)和多显示器检测的新 API——强烈表明苹果正在为一款书本式折叠设备做准备。通过引入可调整大小的模拟器工具,并敦促开发者摒弃僵化的硬件特定布局,苹果正确保在硬件发布前,其生态系统已做好充分准备。 这款设备预计将被命名为“iPhone Ultra”,并有望于 9 月亮相,标志着苹果战略上的重大转型。通过利用发布前的窗口期,强制开发者采用灵活的 UI 标准,苹果旨在避免早期安卓折叠屏设备所面临的碎片化问题。归根结底,折纸演示是一个经过深思熟虑的隐喻:苹果正在教导开发者社区如何在设备问世前,学会让他们的应用程序“折叠”。
阿尔巴尼亚目前正深陷“火烈鸟革命”之中。这是一系列抗议活动,旨在抵制由贾里德·库什纳(Jared Kushner)旗下的Affinity Partners公司所支持的一项数十亿欧元的大型豪华度假村项目。该开发计划涉及萨赞岛(Sazan)及受保护的维约萨-纳尔塔(Vjosa-Narta)湿地,因环境破坏和涉嫌土地所有权欺诈引发了全国范围的强烈抗议。
阿尔巴尼亚反腐败检察官办公室(SPAK)已冻结了负责该大陆项目的“阿尔巴尼亚土地开发公司”(Albania Land Development)的银行账户,该公司由常驻卡塔尔的兄弟俩拥有。调查人员正在核查该区域为何失去了保护地位,以及土地征用过程是否规避了法定招标程序。
作为该项目的支持者,阿尔巴尼亚总理埃迪·拉马(Edi Rama)为这项外国投资辩护,称其为重要的经济驱动力,并斥责抗议活动是出于政治动机。然而,欧盟委员会已发出警告,称该项目可能会危及阿尔巴尼亚的入盟进程,特别是在环境和法治基准方面。
随着抗议者继续要求保持透明度并保护沿海湿地,加上该项目与特朗普家族的关联,法律与外交层面的审查已使这一开发项目成为检验阿尔巴尼亚在司法独立和欧盟一体化方面承诺的关键测试。
自动化常被吹捧为能释放认知带宽,但它往往会导致“自动化导致的自满”。由于人类在缺乏反馈的情况下难以维持持续的注意力,可靠的系统会使我们停止监控,从而在罕见故障发生时让我们措手不及。讽刺的是,自动化程度越高,我们的手动技能就越退化,导致我们在危机时刻介入的能力反而变弱。 为了应对这一问题,我们必须认识到人类的可靠性是自动化系统中的薄弱环节。解决方案并非放弃技术,而是为所有关键的自动化任务安排刻意、定期的手动练习。通过足够频繁地进行这些手动练习以防止技能衰退,我们才能确保当系统最终失效时,我们随时准备好接管控制权。你不能依赖机器来维持你的技能;你必须主动练习,才能为自动化停止工作的那一刻做好准备。