## 从沮丧到自动化:Driggsby & Claude 代码例程
受限于一个不可靠的DIY财务跟踪系统——使用Codex CLI构建且容易出错——Matt构建了Driggsby,一个利用Plaid进行安全金融账户访问的7.5万行Rust应用程序。最初通过与Claude交互使用,他意识到自动化常见任务(如净资产跟踪和余额审查)的潜力。
Claude代码例程的发布带来了突破。与需要复杂基础设施的传统代理循环不同,例程允许简单的基于提示的自动化。Matt成功地重现了他想要的每日财务概览邮件,克服了通过自定义Driggsby工具发送邮件的初始障碍。
除了每日邮件,他迅速扩展到信用卡交易的每周异常检测以及支票账户流出的每日监控。简易的设置甚至让他的注册会计师妻子也能构建自己的自定义自动化。
Matt强调,例程的力量在于其低实验门槛——允许用户快速部署和完善自动化,而无需大量的基础设施开销,最终释放了数据驱动洞察的新可能性。
## TIPSv2:增强的视觉-语言理解
TIPSv2 是 Google DeepMind 新一代视觉-语言编码器,在各种多模态任务中实现了最先进的性能。研究揭示了一个令人惊讶的发现:**知识蒸馏始终能比标准预训练带来更好的图像块-文本对齐。** 这一洞察力推动了预训练过程中的三个关键改进。
首先,**iBOT++** 将掩码图像建模扩展到*所有*图像块(可见和掩码),显著提升对齐效果。其次,**仅Head的EMA** 通过仅对投影头应用指数移动平均来有效地稳定训练,降低计算成本。最后,**多粒度描述** 利用多样化的文本描述(PaliGemma & Gemini)来实现更丰富的监督。
这些改进使得 TIPSv2 在 9 个任务和 20 个数据集上优于或匹配最新的视觉编码器,在零样本分割方面表现出特别强的优势。值得注意的是,更小的蒸馏TIPSv2模型甚至在这一领域超越了其更大的预训练教师模型。与 DINOv3 相比,TIPSv2 在特征图中表现出更优越的语义焦点,能够更精确地描绘对象。代码和模型可在 HuggingFace 上获取。
arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。
谷歌正在大幅增加对人工智能公司 Anthropic 的投资,承诺高达 400 亿美元。首笔 100 亿美元的投资将 Anthropic 的估值定为 3500 亿美元,后续还有高达 300 亿美元的投资取决于其表现。此前,Anthropic 最近发布了其最强大的人工智能模型 Mythos,专注于网络安全,但由于安全问题和高运营成本,目前访问权限有限。 此举凸显了人工智能开发至关重要的计算能力竞争激烈。Anthropic 与竞争对手 OpenAI 一样,正在积极 확보基础设施——最近与 CoreWeave 和亚马逊合作以获取数据中心容量和计算能力,预计未来可能花费高达 1000 亿美元。 重要的是,Anthropic 严重依赖谷歌云的张量处理单元 (TPU),这是 Nvidia 芯片的关键替代品。此次合作将为 Anthropic 提供未来五年内额外的 5 吉瓦 TPU 容量,巩固了谷歌在人工智能领域作为竞争者 *和* 重要供应商的双重角色。Anthropic 还在考虑首次公开募股 (IPO)。
## Rodecaster Duo 固件探索 去年,为了寻找游戏和工作期间无缝音频的解决方案,作者购买了Rodecaster Duo。对它的易用性印象深刻,出于习惯,他们开始研究它的固件更新流程。最初在Mac上的尝试表明,更新是一个简单的、未加密的、gzip压缩的tar包——令人惊讶的是,缺少签名检查。该设备具有双分区系统用于恢复,甚至默认启用了SSH,并预配置了公钥。 一次更新失败促使作者使用Wireshark和Windows上的USBPcap进行进一步调查,并借助Claude AI分析捕获的数据。这表明更新过程依赖于简单的HID命令('M'进入更新模式,'U'触发闪存)和将文件复制到挂载的磁盘。 利用这些知识,作者创建了自定义固件以启用密码身份验证并添加他们自己的SSH密钥,从而成功访问该设备。他们向RODE报告了默认SSH配置,但没有收到回复。总的来说,作者对Rodecaster Duo的开放性和易修改性感到惊喜,并将其突出显示为设计精良且令人愉悦的音频设备。
最近对Hacker News (HN) BigQuery数据集的分析显示,arXiv论文在该平台上的分享数量有所下降。arXiv帖子曾在2019年左右达到高峰,这主要得益于深度学习研究(在点赞最多的论文中占41%),但近几个月其出现频率显著降低。
目前(2023-2026年),大型语言模型 (LLM) 和人工智能占据主导地位,占HN上点赞最多的arXiv论文的59%。该分析还确定了来自2019年并持续具有影响力的“老”论文,包括关于MuZero、EfficientNet、XLNet、PyTorch以及Chollet的《关于智能的度量》等研究。
展望未来,Claude预测了一些潜在的未来有影响力的论文,例如DeepSeek-R1、Generative Agents、BitNet、Differential Transformer,甚至是有争议的LK-99超导体预印本,突显了LLM推理、代理架构和高效计算的持续趋势。这项研究表明,HN的关注点正在从更广泛的深度学习领域转向更具体的LLM领域。
启用 JavaScript 和 Cookie 以继续。
请启用 JavaScript 并禁用任何广告拦截器。
请启用 JavaScript 并禁用任何广告拦截器。