MemeData

每日HackerNews RSS

CJK语言的高保真字体合成 High fidelity font synthesis for CJK languages 20 天前

## zi2zi-JiT：中文字体风格迁移 zi2zi-JiT是一个基于JiT架构的扩散Transformer模型，用于合成中文字体。它将参考字形的风格转移到源字符上，从而实现字体风格的修改。该模型利用内容编码器（来自FontDiffuser）捕捉字符结构，风格编码器提取风格特征，并采用多源上下文混合方法进行条件设置。 JiT-B/16和JiT-L/16两个变体是在包含400多个字体的超过30万个字符图像的大型数据集上训练的（主要为简体和繁体中文，以及少量日语）。评估指标（FID、SSIM、LPIPS、L1）显示出强大的性能。该项目提供了数据集创建、微调（使用LoRA在单个GPU上 – 约4GB VRAM）和字符生成工具。微调单个字体可以在一小时内完成。预训练检查点可用，如果分发包含来自该项目派生的超过200个字符的产品，则需要署名。代码采用MIT许可，并针对字体输出添加了特定条款。

## 使用 zi2zi-JiT 实现高质量中日韩字体合成开发者 kaonashi-tyc 在 **zi2zi-JiT** 项目上取得了进展，该项目旨在利用字体合成技术创建实用、生产级别的中日韩 (CJK) 字体。作者对现有的字体生成技术不满意，因此在原始 zi2zi 项目的基础上，利用 Transformer 架构来获得更好的结果。目前，已经从古代中文文本和书法中生成了两个完整的中文字体（每个字体包含 6,763 个字符，基于 GB2312），并且**可免费用于商业用途**。这些字体可在 GitHub 上找到：[https://github.com/kaonashi-tyc/Zi-QuanHengDuLiang](https://github.com/kaonashi-tyc/Zi-QuanHengDuLiang) 和 [https://github.com/kaonashi-tyc/Zi-XuanZongTi](https://github.com/kaonashi-tyc/Zi-XuanZongTi)。仍然存在挑战，尤其是在重现篆书等古代书写形式时，因为训练数据有限。作者欢迎反馈，以进一步完善该项目及其功能。该项目利用了风格迁移技术，恰如其分地命名为“zi2zi”，在中文中意为“字到字”。

美国私人信贷违约率2025年创纪录的9.2%，惠誉称。 US private credit defaults hit record 9.2% in 2025, Fitch says 20 天前

访问被拒绝。您没有权限访问“http://www.marketscreener.com/news/us-private-credit-defaults-hit-record-9-2-in-2025-fitch-says-ce7e5fd8df8fff2d”上的服务器。参考编号：18.c9a4c117.1773320745.1971e4f8 https://errors.edgesuite.net/18.c9a4c117.1773320745.1971e4f8

稀疏化：子列表见证和德布鲁因索引移位聚类 Thinnings: Sublist Witnesses and de Bruijn Index Shift Clumping 20 天前

## 稀疏化：见证数据的新视角本文探讨了“稀疏化”，这是一种在依赖类型理论中经常遇到的数学对象，但其应用范围不止于此。稀疏化充当**见证数据**——简化问题解决的信息，通常可以提高效率或清晰度。可以将满足赋值视为 SAT 问题可解性的见证。具体来说，稀疏化解决了“子列表”问题（在更大的列表中找到一个序列）。它们可以被可视化为元素之间的非重叠路径，表示为位向量，并通过德布鲁因提升/降低等操作生成（类似于置换由交换生成）。至关重要的是，稀疏化可以被*组合*——顺序应用——提供一种强大的视角转变。作者通过 Python 示例演示了这一点，展示了如何不仅*找到*一个列表是否是子列表，而且*生成一个证书*（稀疏化本身）来证明它。验证此证书通常比找到它更快。这个概念与 lambda egraphs、并查集，甚至 Prolog 的证明搜索等领域相关联。稀疏化可以被视为一个范畴，继承诸如组合和单位元之类的属性。它们还与德布鲁因索引等概念相关，并可能为自由变量分析和高效数据结构提供一种新颖的方法，从而可能改进诸如哈希常量和名义统一之类的技术。最终，作者认为稀疏化对于良好作用域的项是基础的，超越了 lambda 演算，扩展到其他绑定器，如求和和积分。

黑客新闻新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交登录稀疏化：子列表见证和德布鲁因索引移位聚类 (philipzucker.com) 20 分，matt_d 1 天前 | 隐藏 | 过去 | 收藏 | 2 评论帮助 skybrian 1 天前 [–] 寻找稀疏化似乎像是差异算法的一个受限版本，你只能删除东西？稀疏化是表示为位的差异。这不是很紧凑，但你可以进行行程长度编码。回复 philzook 1 天前 | 父评论 [–] 有趣。我认为如果你试图找到两个其他列表被稀疏化的“最佳”列表，那么相似之处就更多了。回复指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系搜索：

大型语言模型没有变得更好吗？ Are LLM merge rates not getting better? 20 天前

最近对LLM代码生成的研究，基于“metr”文章的数据，揭示了一个令人担忧的趋势：虽然LLM越来越能*通过测试*，但适合实际合并到项目中的代码质量在过去一年中没有提高。该研究比较了LLM基于通过测试和维护者批准的性能，发现以合并性作为判断标准时，成功率显著下降——50%成功的所需时间从50分钟减少到仅8分钟。重要的是，合并率分析显示自2025年初以来没有上升趋势，尽管通过测试的能力有所提高。统计建模（使用Brier分数）证实了这一点，表明预测*恒定*合并率的模型比预测逐步改进的模型更准确。这表明LLM并没有真正提高生产就绪代码的生成能力，引发了对以通过测试作为主要进展指标的质疑。

## LLM进展：停滞期？近期分析质疑大型语言模型（LLM）在编码能力上是否仍在显著提升。该研究表明可能出现停滞期，尤其是在衡量自动合并的拉取请求（无需人工审核的代码更改）的速率时。一些评论员对此表示异议，指出像Opus 4.5/4.6等模型的最新进展，以及改进的工具和“代理”工作流程的影响。核心争论在于，观察到的改进是由于模型本身变得更智能，还是仅仅更好地利用和整合现有工具。许多人同意，虽然原始的“一次性”性能可能正在趋于平稳，但整体开发者体验*已经*有所改善。一些评论员强调考虑模型特定数据的重要性（避免混淆不同实验室的结果），并承认LLM仍然需要大量的人工监督。大家普遍认为，未来的进展可能更依赖于生态系统改进和成本优化，而不是模型规模或能力的巨大飞跃。最终，这场讨论强调了客观衡量LLM进展的难度，以及炒作可能掩盖现实评估的潜力。

最便宜的MacBook上的大数据 Big data on the cheapest MacBook 20 天前

## MacBook Neo 与大数据：笔记本电脑基准测试苹果新款入门级 MacBook Neo，定价 700 美元/800 欧元（512GB 存储，8GB 内存，Apple A18 Pro 芯片），经过了数据库工作负载的测试。目标是：看看它是否符合“在笔记本电脑上进行大数据处理”的理念。使用 DuckDB 进行基准测试时，MacBook Neo 在最初的“冷启动”测试中表现出色，使用 ClickBench 基准测试完成查询的速度快于可比的云实例，这得益于其本地 NVMe SSD。然而，在持续的“热启动”场景中，拥有更多资源的云实例最终表现优于它。 Neo 还处理了更复杂的 TPC-DS 基准测试，成功地在 100 规模因子下完成所有查询，耗时 15.5 分钟，在 300 规模因子下耗时 79 分钟，但内存限制变得明显。虽然 DuckDB *可以* 通过内存外处理在 Neo 上处理大量数据，但其较慢的磁盘 I/O（1.5 GB/s）和有限的 8GB 内存使其与高端 MacBook 或专用 Linux/Windows 机器相比，不太适合日常繁重的数据处理。然而，它作为云数据库的客户端是一个不错的选择，并且能够处理偶尔的本地数据处理。

新科姆悖论需要一个恶魔 Newcomb's Paradox Needs a Demon 20 天前

## 纽科姆悖论：对Veritasium观点的批判纽科姆悖论提出一个引人入胜的决策难题：选择一个不透明的盒子（如果只选择它，预测内含100万美元；如果拿两个盒子，则为0），或者拿一个装有1000美元的透明盒子和那个不透明的盒子。Veritasium最近探讨了这个问题，但一位评论员认为他们的框架存在缺陷。核心问题不在于预测者（无论是超级计算机、外星人还是心理学家）*如何*运作，而在于它是否*总是*正确。如果预测者*曾经*出错，这个悖论就会失去力量。评论员指出，真正随机的选择，比如抛硬币，是不可预测的，而依赖过去行为的预测者无法考虑到这一点。 Veritasium的概率论论证，假设预测准确率一致，也受到了质疑。这依赖于一个假设，即选择*方式*不会影响准确率——如果你故意试图智胜预测者，这是一个不稳定的前提。最初的悖论依赖于一个完美的预测者；引入失误会从根本上改变问题，使其不再那么具有智力刺激性。这场争论似乎远未结束，之前的探讨甚至深入到量子随机性中以尝试寻找解决方案。

## 纽科姆悖论：摘要纽科姆悖论提出一个决策问题：选择一个盒子，里面有1000美元；或者选择两个盒子——第二个盒子是不透明的，可能包含100万美元，也可能什么都没有。一个超智能预测者已经预见了你的选择，并相应地填充了不透明的盒子。核心争论在于是“一盒”（只拿不透明的盒子）还是“两盒”（拿两个盒子）。两盒选择者认为预测者*已经*做出了决定，所以拿两个盒子至少保证1000美元。一盒选择者认为预测者的准确性意味着选择一个盒子可以最大化获得一百万的机会，本质上是对预测者正确识别该选择的奖励。讨论集中在自由意志与决定论之间，以及预测者的能力是否影响因果链。有些人认为这个决定已经被预先确定，使选择成为虚幻。另一些人则提出随机化决策的策略来利用预测者。一个关键点是，是将这种情况视为一个统计问题，还是对预测者能力的信任测试。最终，这个悖论突出了冲突的逻辑框架以及对预测和能动性的假设。

海豚进度发布 2603 Dolphin Progress Release 2603 20 天前

## 海豚模拟器进度报告 - 2026年3月总结海豚模拟器的最新版本（2603）在多个方面取得了显著进展。最值得注意的是，它**增加了对世嘉、南梦宫和任天堂的Triforce街机系统的模拟支持**——这是18年来支持的首个全新系统！通过**对MMU模拟的优化**，性能得到了显著提升，使得之前运行困难的游戏，如《星球大战：叛军小队III：反抗打击》，现在可以全速运行。在社区合作和专业的CPU模拟工作下，长期存在的《马里奥冲击力足球》中的物理错误也终于得到解决。其他主要更新包括**将整个游戏加载到RAM**的功能，以实现从网络存储（NAS）设备更流畅的游戏体验，以及一个**用于调整SDL提示的GUI**，以解决手柄兼容性问题。此外还实施了许多较小的性能补丁和修复，从而提高了整体稳定性和准确性。本次发布展示了海豚模拟器持续致力于提高模拟准确性、性能，并扩展其兼容性以涵盖新的游戏平台的决心。

## 海豚模拟器进展与社区奉献最近的Hacker News讨论强调了海豚模拟器令人印象深刻的持续开发，特别是新版本恢复了对Triforce街机柜的支持——这是任天堂、世嘉和南梦宫合作的成果。这很重要，因为它允许模拟诸如《F-Zero AX》和《马里奥卡丁车街机GP》等游戏。对话展示了海豚团队及其社区的奉献精神，用户们惊叹于所需的逆向工程深度——甚至发现了原始游戏代码中的怪癖和有意设计选择。许多人赞扬了海豚进展报告的质量，指出其清晰地解释了复杂的技术挑战。一个关键点是团队有意识地决定*不*接受捐款，以避免潜在的法律问题（如Yuzu面临的那些），并保持对由热情驱动的开发而非经济激励的关注。讨论还涉及了恶意ROM的风险，但通常认为风险较低，这得益于模拟器的安全性，以及寻找经过验证的ROM的资源，例如CleanRip和Redump。

银河动物园 Galaxy Zoo 20 天前

研究人员的消息：超过15年来，Galaxy Zoo志愿者帮助天文学家理解宇宙中星系的精美复杂性。我们感谢你们的每一次分类。关于Galaxy Zoo：观察遥远星系的望远镜图像。探索天空。你将发现什么？为了理解星系的形成，我们需要你们的帮助，根据它们的形状对星系进行分类。如果你足够快，你甚至可能是第一个看到你被要求分类的星系的人。在实践中学习！你们的分类将得到其他人的支持，这意味着犯一些错误并不重要。在近二十年的时间里，我们拥有数千名志愿者，对众多望远镜观测到的星系进行了分类，从斯隆数字天空巡天项目拍摄的星系图像开始，到由NASA、ESA和其他组织运行的太空和地面望远镜和设施拍摄的图像。加入我们，探索最新的星系图像。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交登录 Galaxy Zoo (zooniverse.org) 30 分，由 mooreds 1天前发布 | 隐藏 | 过去 | 收藏 | 4 条评论帮助 ra 1天前 | 下一个 [–] 顺便说一句，这不正是小而快、专门的图像模型擅长的吗？回复 aragilar 1天前 | 父评论 | 下一个 [–] 你觉得他们从哪里获取训练数据？;) Galaxy Zoo 已经被用于训练机器学习模型至少十年了，是机器学习入门课程的标准数据集。回复 vova_hn 1天前 | 根评论 | 父评论 | 下一个 [–] 他们如何确保他们的训练数据集没有被有人使用模型提交数据来污染？回复 BrokenCogs 1天前 | 上一个 [–] 这像 Bob Fossil 的 Zooniverse 吗？回复指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系搜索：

大型语言模型时代的可信软件 Reliable Software in the LLM Era 20 天前

## LLM 与可靠软件：Quint 新工作流程 Informal Systems 致力于通过强大的验证来解决信任 AI 生成代码的难题。虽然 LLM 彻底改变了代码创建，但它们*看似*正确却*并非*正确的倾向，需要一种新的方法。他们的解决方案围绕 Quint 可执行规范语言展开，作为人类意图与代码之间至关重要的验证点。 Informal Systems 不依赖 AI 进行设计，而是将其用作翻译器，根据专家定义的协议修改 Quint 规范。此工作流程涉及四个关键步骤：AI 辅助的规范修改、彻底的人工主导的规范验证（使用 Quint 的模拟器和模型检查器）、AI 驱动的代码生成*自*验证后的规范，以及最终的模型化测试，以确保代码与规范一致。该流程已在复杂的 Malachite 共识引擎（被 Circle 收购）上成功测试，将传统上需要数月的重构时间缩短至约两周。一个关键优势是经过验证的规范充当“调试指南针”，可以快速消除不正确的假设。最终，Quint 实现了从编写代码到验证 AI 输出的转变，优先*定义正确性*，通过可执行规范来实现——这种方法能够建立信心，并确保 LLM 时代的可靠性。

## LLM 时代可靠软件：摘要一则 Hacker News 讨论围绕着在大型语言模型 (LLM) 时代构建可靠软件展开。核心共识是**基本的软件工程原则保持不变**：单元测试、集成测试和监控仍然至关重要。然而，LLM 引入了一种新的动态——本质上创建了一个类似于高度活跃的开源项目的产品环境，但核心团队的容量有限。这需要**提高测试的严格性**，可能需要显著扩展测试套件，以捕捉 LLM 引入的细微回归和“无意义”内容，这些内容在代码审查期间可能被人类遗漏。一个关键的挑战是 LLM 更新通常是不透明的，可能会破坏未书面的约定。参与者建议将 LLM 集成与传统代码库区分对待，并强调“规范验证”的重要性。许多评论者戏称这个时代为“混乱十年”，承认对质量控制的更高需求。最终，讨论强调，虽然人工智能改变了验证工作量，但并没有消除验证的必要性。像 Quint 这样的基于形式化方法系统正在被探索，以应对这些挑战。

10亿身份记录在身份验证数据泄露中暴露 1B identity records exposed in ID verification data leak 20 天前

## 巨量数据泄露，10亿条记录曝光一起大规模数据泄露可能影响26个国家的个人，其中美国超过2.03亿人，暴露了一份与IDMerit公司相关联的数据库。IDMerit是一家专门为企业提供身份验证服务的公司。该未加密数据库于2025年11月被发现，包含敏感个人信息，如姓名、地址、出生日期、国民身份证号码和电话号码——这些正是用于确认身份的详细信息。 IDMerit声称其自身系统并未受到损害，并怀疑是报告此问题的“道德黑客”试图勒索。但泄露的数据构成重大风险。犯罪分子可以利用这些信息进行SIM卡交换攻击、高度定向的网络钓鱼诈骗和身份盗窃。专家建议立即采取行动：在主要信用机构冻结信用记录，切换到身份验证器应用程序进行双因素身份验证，使用密码管理器，并考虑使用身份盗窃监控服务。加强移动账户安全并使用强大的杀毒软件也至关重要。此事件凸显了身份验证生态系统的脆弱性，并引发了关于处理敏感数据的公司责任的问题。更多资源和保护技巧请访问Cyberguy.com。

## 数据泄露或波及十亿条记录一起涉及身份验证公司IDMerit的潜在数据泄露事件浮出水面，泄露了与超过十亿个人相关的信息。最初由CyberNews报道的消息来源称，数据包括姓名、出生日期、地址、电话号码和国民身份证号码。然而，细节尚不清楚。 IDMerit否认拥有或控制这些数据，声明他们的系统没有被攻破，并将事件归咎于最初报告此事件的安全研究人员可能进行的勒索企图。据称，该研究人员在提供细节之前要求支付泄露证明的费用。 Hacker News上的讨论强调了对这些泄露事件频率以及当前处罚不足的担忧。建议范围从每条记录处以巨额罚款到开发人员和高管承担刑事责任，但人们担心这会对初创企业产生影响，以及Auth0等公司可能会从更严格的法规中获利。许多评论员质疑泄露的真实性以及相关人员的动机，指出报道中的不一致之处和缺乏具体证据。该事件凸显了人们对数据安全、KYC流程以及加强数据保护法律的更广泛担忧。