每日HackerNews RSS

## 泛语言机器翻译:覆盖1600种语言 当前的机器翻译(MT)系统虽然因大型语言模型(LLM)而得到改进,但在语言覆盖范围方面仍然存在困难,尤其是在世界上的7000种语言中——特别是那些濒危或边缘化的语言。研究人员推出了**泛语言机器翻译(OMT)**,该系统支持超过1600种语言,向前迈出了重要一步。 OMT通过全面的数据策略实现这一规模,将现有资源与新的数据集(如人工整理的双语语料和合成数据)相结合。探索了两种模型架构:**OMT-LLaMA**(仅解码器)和**OMT-NLLB**(编码器-解码器)。值得注意的是,参数从1B到8B的OMT模型*优于*70B LLM基线,证明了专业化的优势。 重要的是,OMT显著提高了先前支持不足的语言的*生成*能力,而不仅仅是理解。严格的评估使用了新的数据集(BOUQuET、Met-BOUQuET)和指标,包括无参考质量评估和毒性分析。该项目的Datasets和排行榜是公开可用的,促进了真正泛语言翻译的进一步发展。

## Meta 的全语言 MT:摘要 Meta 发布了一种新型机器翻译模型,能够翻译 1600 种语言,名为“全语言 MT”(OMT)。虽然一些用户报告翻译质量较差,尤其是在不太常见的语言上,但另一些用户认为 Meta 的翻译与 Google 翻译具有竞争力,甚至更好,尤其是在像高棉语这样复杂的语言上。 讨论强调了语境和细微差别在翻译中的重要性,大型语言模型 (LLM) 在这些方面显示出潜力。 许多评论员参与了类似的项目,专注于为资源匮乏的语言收集数据和改进语言识别。 关键挑战是高质量训练数据的可用性。 尽管语言覆盖范围令人印象深刻,但人们对 Meta 在冲突地区(如缅甸和埃塞俄比亚)通过不充分的翻译和审核助长危害的过去行为表示担忧。 该项目建立在 Meta 先前的“不让任何语言被遗忘”(NLLB)倡议之上,但采用了新的命名约定和架构 (OMT-LLaMA),以强调其与通用 LLM 的集成。 模型权重目前未开源,但评估数据可用。

## Atuin v18.13: 主要更新摘要 Atuin 的最新版本 v18.13 带来了显著的改进,专注于速度、功能和用户体验。一个关键的补充是 **Atuin Daemon**,现已退出“实验”状态,它提供了一个快速的内存搜索索引,由修改后的 fzf 算法提供支持 – 可通过 `search_mode = "daemon-fuzzy"` 进行配置。该守护进程还支持远程机器的后台同步。 此版本引入了 **Atuin AI**,一个英语到 Bash 的助手,可以通过提示符中的 `?` 访问。它优先考虑准确性和安全性,具有 LLM 驱动的保护措施和默认的数据隐私,在访问敏感数据之前会请求权限。 在视觉方面,**Atuin Hex** 解决了渲染问题,提供了一个不具侵入性的弹出窗口,不会清除终端输出。 进一步的增强包括新的 **Google/GitHub 身份验证**,用于托管同步服务(Atuin Hub),以及针对 Nushell 和 Fish 等 shell 的大量错误修复和改进。该更新还包括历史记录的元数据和改进的配置选项。

## Atuin v18.13 版本发布与社区讨论 Atuin(一个 shell 历史工具)的最新版本 (v18.13) 引入了更好的搜索、PTY 代理和可选的 AI 功能。该版本在 Hacker News 社区引发了争论,主要围绕工具日益复杂的特性以及 AI 的添加。 一些用户秉持“Unix 哲学”(单一用途工具)的理念,担心 Atuin 变得臃肿,并考虑使用 `fzf` 等替代方案。另一些用户则成功地将 Atuin 与 `fzf` 结合使用,以利用两者的优势。对许多人来说,一个关键优势是 Atuin 能够跨机器同步 shell 历史记录,这是 `fzf` 所不具备的特性。 AI 集成引发了关于数据隐私(需要选择加入才能访问数据)和潜在成本的问题,一些人担心这预示着向盈利模式的转变。尽管存在这些担忧,许多人仍然赞赏 Atuin 的开发以及新功能的可选性,强调了其开源性质的优势。 许多用户还提到了并推荐了其他工具,例如 McFly、Television 和 zsh-histdb。

## TRQL:用于分析数据的安全、租户隔离的 SQL Trigger.dev 的查询与仪表板解决了让用户查询共享分析数据库(ClickHouse)而不损害数据安全或集群稳定性的难题。解决方案是 **TRQL(Trigger 查询语言)**,一种编译成安全、租户隔离的 ClickHouse 查询的 SQL 风格语言。 TRQL 不直接暴露 ClickHouse SQL,而是作为一种领域特定语言 (DSL) 提供关键优势:**安全性**,通过限制性语法防止危险操作,如 `DELETE` 或 `UPDATE`;**租户隔离**,自动注入过滤器以将查询限定到正确的组织;**抽象化**,隐藏内部数据库细节,如表和列名;以及 **扩展功能**,如虚拟列和自动时间分桶。 TRQL 使用 ANTLR 将查询解析为抽象语法树 (AST),然后进行模式验证、租户隔离、时间限制和参数化,最后再翻译成可执行的 ClickHouse SQL。这个流程确保了安全性和效率。 该系统具有模式驱动的自动补全功能,并限制并发性、行数和查询资源以保持稳定性。TRQL 旨在具有可扩展性,允许在不改变核心查询语言的情况下添加新的数据源,并构成 Trigger.dev 观测性功能的基础。

## 共享 ClickHouse 访问与数据安全 一篇 trigger.dev 的文章详细介绍了他们如何授予所有用户对共享 ClickHouse 集群的 SQL 访问权限,重点关注安全性和资源管理。核心挑战在于允许任意 SQL 查询,同时在多租户环境中防止数据泄露或集群中断。 作者实施了一种轻量级的 SQL DSL,以强制执行租户隔离并防止失控查询。这种方法与使用 ClickHouse 标准功能(如 RLS)形成对比,他们发现这些功能不足以满足其需求。讨论强调了替代策略:具有行级别安全性的 PostgreSQL (RLS)、使用 DuckDB 和 S3 将数据隔离在“池”中,以及利用 Iceberg 等开放表格格式。 许多评论者提倡利用 ClickHouse 内置的功能——资源配额、调度策略和 RLS——而不是自定义 DSL。人们对依赖单一安全边界以及维护自定义语言的复杂性表示担忧。最终,选择取决于具体的用例以及控制、复杂性和现有基础设施之间的平衡。这篇文章引发了关于多租户和隔离数据库设置之间权衡的争论。

主要新闻出版商,如《纽约时报》和《卫报》,越来越多地阻止互联网档案馆(IA)——一个重要的数字图书馆和“时光机”的所在地——存档他们的网站。这一举动威胁着数十年来保存的在线新闻内容,记者、研究人员和历史学家依赖这些内容来追踪变化和获取原始报道。 出版商们担心人工智能公司抓取内容用于训练目的,并正在对它们采取法律行动。然而,IA是一个致力于保存而非人工智能开发的非营利组织。阻止访问的风险在于抹去重要的历史记录,因为文章经常会在网上被编辑或删除。 法律先例支持IA的存档行为属于“合理使用”,类似于搜索引擎创建索引的方式。虽然对人工智能训练的争议是有效的,但牺牲公众获取历史信息的机会,是一种有害且可能不可逆转的后果。这一举动不仅仅是关于限制机器人;而是关于抹去历史。

这是一个systemd的修改版本,systemd是Linux的核心系统和服务管理器,移除了用于大规模监控的功能。创建者强调个人对其使用的选择权。 该项目提供了一个专注于隐私的分支,测试方法在GitHub上公开可用 ([https://github.com/Jeffrey-Sardina/systemd-suite](https://github.com/Jeffrey-Sardina/systemd-suite))。 关于systemd的全面文档——包括构建要求、新闻、代码地图、黑客指南和贡献指南——仍然在官方systemd网站和wiki上提供。支持通过邮件列表、IRC (#systemd on libera.chat) 和 Matrix 提供。维护着带有回溯补丁的稳定版本,并且有一个安全漏洞赏金计划。OBS上有发行版软件包。

## 解放的 systemd:一个抗议分支 systemd 的一个新分支,名为“Liberated Systemd”,作为对近期更改的抗议而出现,特别是新增了一个用于年龄验证的出生日期字段,这是由新的加州法律强制要求的。虽然许多人认为这个分支不太可能被广泛采用,但它凸显了人们对 systemd 发展方向以及潜在增加监控的担忧。 核心问题在于一项要求操作系统收集用户年龄并为应用程序提供访问它的 API 的法律,表面上是为了在网站上进行年龄验证。批评者担心这是一种滑坡,会导致更广泛的数据收集和隐私侵蚀,并指出像 Meta 这样的公司可能会滥用它。 讨论的中心是问题在于出生日期字段本身,还是强制遵守潜在侵入性法律的总体趋势。一些人认为,关注立法变革比批评软件维护者更有效。另一些人则认为这个分支是一个有价值的象征性行为,可以提高意识并提供一种规避新要求的途径。这场辩论也涉及 systemd 内部现有的隐私问题以及对用户自由的进一步限制的可能性。

玛丽娜·阿布拉莫维奇和尤莱的表演作品《夜海穿越》与他们关系的兴衰紧密相连。最初计划一场象征性的婚礼——在中国的长城中间相遇,从两端各自走来——但他们的计划在痛苦的分离和出轨事件发生多年后才得以实现。 1987年,他们开始了为期三个月的跋涉,阿布拉莫维奇从黄海出发,尤莱从戈壁沙漠出发,他们知道这将是他们最后的合作。阿布拉莫维奇希望以此和解,但最终她发现与尤莱作为艺术同行的联系更加深刻。 情感的高潮因尤莱与他的中文翻译发生关系并怀孕的消息而变得更加复杂。他最终与她和他们的女儿露娜一起搬到阿姆斯特丹。阿布拉莫维奇选择不生育,并且此前曾堕胎三次,得知这个消息后深感震惊。尽管后来几年他们作为一家人相处,但尤莱最终在露娜17岁时离开了这两个女人,彻底结束了他们复杂而深刻的个人和艺术历史。

这个Hacker News讨论围绕一篇关于玛丽娜·阿布拉莫维奇和乌莱的文章展开,他们是一对行为艺术二人组。对话很快偏离主题,涉及多个方面。 最初,用户指出显示西里尔字符的技术问题,强调了字体支持的挑战。讨论随后转向围绕阿布拉莫维奇的争议,特别是提及“精神烹饪”以及对其作品中神秘象征主义的指控——引发了关于她的艺术是真正具有挑衅性还是仅仅为了博取关注的争论。 一些评论者表达了对在线艺术评论现状的幻灭,哀叹评论转向肤浅的否定和类似模因的评论。其他人讨论了根据人们对阿布拉莫维奇的看法来过滤掉他们,以及纽约艺术界盛行的虚伪现象。一篇关于假装对文化参考一无所知的讽刺文章也被分享,反映了知识竞赛的动态。最后,一些人推荐了相关作品,比如阿布拉莫维奇的回忆录和谢德慶的艺术。

## 阈值签名:消除单点故障 私钥是关键漏洞——一次泄露可能使所有相关安全失效。阈值签名提供了一种解决方案,即将私钥分割到多个参与者手中,需要定义好的“阈值”数量合作才能生成有效签名。这消除了单点故障,因为没有单个实体拥有完整的密钥。 最近开发的DKLS23协议因其效率而受到关注。与依赖复杂同态加密的旧方法不同,DKLS23利用“隐秘传输”在仅需三轮通信的情况下实现签名——显著降低了延迟和实现复杂度。 本质上,参与者生成密钥份额,并通过巧妙的交换创建部分签名,这些部分签名组合成标准的、可验证的ECDSA签名。验证过程与传统方法相同,这意味着现有基础设施可以无缝工作。 DKLS23在实际应用中非常实用,即使是在移动设备上,并且支持流行的曲线,如secp256k1。它已被Coinbase和Visa等公司使用,并且有开源、经过审计的实现可用,为传统的密钥管理提供了一种可靠的替代方案。这项技术从根本上改变了安全模型,使得密钥泄露造成的灾难性后果大大降低。

## 阈值签名:Hacker News 讨论 一篇关于阈值签名的博客文章在 Hacker News 上引发了争论,许多人批评其依赖人工智能生成的内容“粗制滥造”,缺乏深度和清晰度。阈值签名的核心思想(TSS)是将私钥分配给多个参与方,需要达到一定阈值(例如,5 个人中的 3 人)才能授权签名——从而增强安全性并防止单点故障。 讨论集中在实际用例上。一些人认为它在去中心化治理或多方应用程序发布方面具有潜力,而另一些人则质疑它与硬件安全模块 (HSM) 等现有解决方案相比的实用性。人们对密钥管理(添加/删除参与者、更改法定人数)以及 TSS 是否比传统身份验证方法提供显著优势表示担忧。 作者澄清 TSS 旨在减轻单个密钥持有者单方面行动的风险,提供“数学强制的双人规则”。然而,评论员指出 HSM 已经可以防止密钥访问,甚至包括所有者,并且 HSM 的物理泄露仍然是一种风险。最终,这场对话强调了对经过充分研究的解释以及清晰理解 TSS 相较于既定安全实践所提供的优势的需求。

启用 JavaScript 和 Cookie 以继续。

我们检测到您的浏览器已禁用 JavaScript。请启用 JavaScript 或切换到受支持的浏览器以继续使用 x.com。您可以在我们的帮助中心查看受支持的浏览器列表。帮助中心 服务条款 隐私政策 Cookie 政策 版权信息 广告信息 © 2026 X Corp.

## 黑客新闻讨论摘要:人工智能与软件开发的民主化 最近黑客新闻上的一场讨论围绕着一条推文展开,内容是一位管道承包商使用Claude Code构建了一个工具,用于自动化处理工程图纸——这项任务以前每张图纸需要10分钟,现在只需60秒。 对话主要集中在人工智能降低软件开发门槛的影响。许多评论者认为这代表着一种转变,允许具有领域专业知识的人(例如水管工或工程师)在*无需*广泛编码知识的情况下,为他们的特定需求创建解决方案。 然而,人们对人工智能生成代码的易用性和可维护性表示怀疑。人们担心可能会出现“感觉编程”——代码最初有效,但难以扩展或调试。一些人预测,未来在弹性和系统集成方面的专业技能将变得更加有价值。 讨论还涉及软件开发的商品化,一些人认为人工智能将进一步加剧这一趋势,而另一些人则认为它将促进高度专业化、定制工具的激增。最终,总体情绪是积极的,认为这对于传统软件解决方案服务不足的人来说,可能是一种赋能的发展。

迈克尔·史密斯,一位来自北卡罗来纳州的男子,对一项数百万美元的音乐流媒体欺诈案认罪。从2017年到2024年,史密斯策划了一个计划,利用人工智能生成的音乐和数千个机器人账户,在Spotify、Apple Music和Amazon Music等平台上虚假夸大流媒体播放量。 他与同伙合作,上传了大量计算机生成的歌曲,并使用自动化软件生成数十亿的虚假播放量,从而收取了超过800万美元的版税。他使用了VPN和批量购买的虚假电子邮件地址等手段来逃避检测。 检察官强调,这笔被盗的资金本应归属于真正的艺术家。史密斯面临最高五年监禁。此案凸显了一个日益严重的问题,随着人工智能音乐生成的增加,Deezer和Apple等平台正在加强人工智能检测和行业内的透明度措施。

## 人工智能音乐欺诈案被告认罪 一名男子最近因涉及通过人工智能生成音乐在流媒体平台上虚报收入800万美元的欺诈案认罪。然而,犯罪的核心并非人工智能音乐本身,而是利用数万个机器人账户人为夸大播放量和广告收入。这本质上是“点击欺诈”的现代版本。 讨论的中心在于这是否构成真正的欺诈,或者仅仅是违反服务条款(ToS)。一些人认为,这是一家大型公司利用刑事法律来保护一个破败的商业模式,而另一些人则指出,故意欺骗和财务收益是欺诈的明确证据。这场辩论凸显了人们对公司将服务条款违规行为转化为联邦犯罪的担忧。 许多评论员也指出,这会对艺术家产生更广泛的影响,并建议采用更公平的收入分配模式——资金直接分配给被收听的艺术家——可以减轻此类欺诈行为。此案还引发了关于人工智能生成内容的伦理以及在其他领域可能出现类似剥削的讨论。

更多

联系我们 contact @ memedata.com