## 泛语言机器翻译:覆盖1600种语言 当前的机器翻译(MT)系统虽然因大型语言模型(LLM)而得到改进,但在语言覆盖范围方面仍然存在困难,尤其是在世界上的7000种语言中——特别是那些濒危或边缘化的语言。研究人员推出了**泛语言机器翻译(OMT)**,该系统支持超过1600种语言,向前迈出了重要一步。 OMT通过全面的数据策略实现这一规模,将现有资源与新的数据集(如人工整理的双语语料和合成数据)相结合。探索了两种模型架构:**OMT-LLaMA**(仅解码器)和**OMT-NLLB**(编码器-解码器)。值得注意的是,参数从1B到8B的OMT模型*优于*70B LLM基线,证明了专业化的优势。 重要的是,OMT显著提高了先前支持不足的语言的*生成*能力,而不仅仅是理解。严格的评估使用了新的数据集(BOUQuET、Met-BOUQuET)和指标,包括无参考质量评估和毒性分析。该项目的Datasets和排行榜是公开可用的,促进了真正泛语言翻译的进一步发展。
## Atuin v18.13: 主要更新摘要
Atuin 的最新版本 v18.13 带来了显著的改进,专注于速度、功能和用户体验。一个关键的补充是 **Atuin Daemon**,现已退出“实验”状态,它提供了一个快速的内存搜索索引,由修改后的 fzf 算法提供支持 – 可通过 `search_mode = "daemon-fuzzy"` 进行配置。该守护进程还支持远程机器的后台同步。
此版本引入了 **Atuin AI**,一个英语到 Bash 的助手,可以通过提示符中的 `?` 访问。它优先考虑准确性和安全性,具有 LLM 驱动的保护措施和默认的数据隐私,在访问敏感数据之前会请求权限。
在视觉方面,**Atuin Hex** 解决了渲染问题,提供了一个不具侵入性的弹出窗口,不会清除终端输出。
进一步的增强包括新的 **Google/GitHub 身份验证**,用于托管同步服务(Atuin Hub),以及针对 Nushell 和 Fish 等 shell 的大量错误修复和改进。该更新还包括历史记录的元数据和改进的配置选项。
## TRQL:用于分析数据的安全、租户隔离的 SQL
Trigger.dev 的查询与仪表板解决了让用户查询共享分析数据库(ClickHouse)而不损害数据安全或集群稳定性的难题。解决方案是 **TRQL(Trigger 查询语言)**,一种编译成安全、租户隔离的 ClickHouse 查询的 SQL 风格语言。
TRQL 不直接暴露 ClickHouse SQL,而是作为一种领域特定语言 (DSL) 提供关键优势:**安全性**,通过限制性语法防止危险操作,如 `DELETE` 或 `UPDATE`;**租户隔离**,自动注入过滤器以将查询限定到正确的组织;**抽象化**,隐藏内部数据库细节,如表和列名;以及 **扩展功能**,如虚拟列和自动时间分桶。
TRQL 使用 ANTLR 将查询解析为抽象语法树 (AST),然后进行模式验证、租户隔离、时间限制和参数化,最后再翻译成可执行的 ClickHouse SQL。这个流程确保了安全性和效率。
该系统具有模式驱动的自动补全功能,并限制并发性、行数和查询资源以保持稳定性。TRQL 旨在具有可扩展性,允许在不改变核心查询语言的情况下添加新的数据源,并构成 Trigger.dev 观测性功能的基础。