每日HackerNews RSS

## 2025年LLM进展:范式转变之年 2025年是大型语言模型(LLM)取得显著且常常令人惊讶进展的一年。一个关键转变是**基于可验证奖励的强化学习 (RLVR)** 的整合,将训练扩展到预训练、监督微调和RLHF之外。RLVR专注于数学和代码等领域的客观奖励,培养了“推理”能力,并允许进行更长、更有影响力的训练。 今年也带来了对LLM智能的新理解——不是作为不断进化的“动物”,而是作为通过独特堆栈召唤出来的“幽灵”,针对模仿人类文本和解决特定任务进行了优化。这导致了**“锯齿状智能”**——在某些领域表现出色,在其他领域却出人意料地存在缺陷——以及对传统基准测试日益增长的不信任。 新的应用层涌现,特别是**Cursor**,展示了LLM应用程序如何编排复杂的LLM调用并提供定制界面。**Claude Code** 演示了强大的代理能力,在用户电脑上本地运行。“**氛围编码**”——通过自然语言编程——赋予了专业人士和新手以力量,彻底改变了软件开发。最后,像**Google Gemini Nano banana** 这样的模型预示了LLM界面的未来,从基于文本的交互转向视觉和空间GUI。 总而言之,2025年揭示了LLM作为一种根本上新的智能形式,既强大又不完美,拥有巨大的未开发潜力。

1999年,一家公司退役了一台HP 9000/720工作站,最初购买用于运行HP/UX下的特定软件。它最终成为X终端的启动服务器,并因硬盘故障而苦苦挣扎。尽管系统管理员优先处理其他任务,但该机器一直存在,直到该公司更换了X终端。作者获得了该工作站,意图运行OpenBSD,移植工作主要由Michael Shalayeff推动。 OpenBSD的移植面临挑战,因为文档有限,主要依靠晦涩的MkLinux项目来获取灵感。作者原本希望做出贡献,但技能尚不足。麻省理工学院学生Matt Fredette的进步推动了项目,他利用Shalayeff的工作创建了一个NetBSD移植版本,实现了多用户功能。Fredette的工作重振了OpenBSD的开发。 一个关键的挑战是在HP 712型号上启用串行控制台访问,HP故意禁用了该功能以鼓励购买715型号。作者成功地逆向工程并实现在OpenBSD的引导加载程序中的解决方案,从而实现了无头操作——即使在晦涩的波特率下——并将代码分享回社区。这涉及在每个支持的速度下进行繁琐的测试,揭示了较低速率下令人沮丧的慢速显示,但最终确保了强大的功能。

一个黑客新闻的讨论围绕着引导加载程序代码的链接展开,引发了对早期技术的怀旧。该帖子吸引了直接参与讨论机器的人员的评论——特别是惠普720、730和750计算机。 一位评论者设计了这些机器的原始EISA逻辑,回忆了它们发布时的速度。另一位评论者补充说,他们促成了购买了几台720,这些机器的使用寿命超过了竞争对手的Sun机器,甚至多年后仍在使用遗留软件。一个幽默的轶事详细描述了HP-UX 积极缓存RAM导致性能下降的问题。 然而,一些评论员质疑链接的代码是否真正符合“最可怕的引导加载程序代码”的称号,而另一些人则赞赏那个时代实用、注重结果的编码方式。该帖子突出了黑客新闻的常见吸引力:与专家联系,以及与小众技术历史相关的第一手资料。

## Misata:逼真合成数据生成 Misata 是一款工具,可直接从自然语言描述生成逼真的多表数据集——无需模式设计或训练数据。只需描述您需要的数据(例如“具有产品和订单的电子商务”),Misata 就会自动生成具有适当模式、关系和业务约束的关系数据库。 主要功能包括自动模式生成、关系完整性、对大型数据集的支持(通过流式传输实现 1000 万+ 行),以及定义自定义业务规则的能力。Misata 利用大型语言模型 (LLM) 通过 Groq、OpenAI 和 Ollama(用于本地、私有生成)等提供商来智能解析描述。 用户可以通过诸如行数、重现性的种子以及注入噪声以提高真实性等选项来定制数据生成。高级功能包括时间漂移模拟和自定义列覆盖。Misata 可作为命令行工具使用,并为复杂场景和与现有管道集成提供企业解决方案。它采用 MIT 许可,由 Muhammed Rasin 构建。

## Misata:基于LLM的合成数据生成 Misata是一个新的开源合成数据引擎,旨在克服Faker和Mimesis等现有工具在关系和时间数据完整性方面的局限性。由rasinmuhammed(github.com/rasinmuhammed)创建,Misata采用两层方法:使用LLM(Groq/Llama-3.3)解释定义数据关系的自然语言规则,并使用高性能的向量化NumPy模拟层生成数据本身。 目前处于早期alpha阶段,Misata在M1 Air上可以生成大约25万行数据每秒。它通过构建表的依赖关系图来确保引用完整性。作者正在寻求关于架构的反馈,特别是关于使用内存Pandas数据框扩展到当前1000万行限制的方法,DuckDB被认为是潜在的解决方案。一个独特且实验性的功能允许从图表描述中生成数据。

Anthropic的标题是“主要积极”。他们说得没错。人们确实看到了益处。但益处并不等于解决问题。85.7%的人在使用人工智能,同时对它感到不安。这是认知负债。就像所有债务一样,它会累积。如果你是一名创作者,觉得人工智能正在侵蚀你的自我意识,你并不孤单。你属于大多数。前进的道路是有意识地采用:理解你正在交易什么,你正在保护什么,以及为什么这些对你很重要。科学家们已经弄清楚了:验证一切,保持你的身份独立,将人工智能视为工具而不是合作者。这就是韧性。

## Anthropic AI 访谈分析总结 Anthropic 最近对 1250 份关于人工智能在工作场所的访谈进行分析,揭示的情况比公司最初的“主要积极情绪”标题更为复杂。该研究由 playbookatlas.com 通过结构化 LLM 分析进行,发现 **85.7% 的受访者体验到与人工智能采用相关的未解决的紧张关系**——具体而言,是在效率与质量以及便利性与技能之间取得平衡。 **创意工作者面临的困境最多,但也是采用人工智能最快的群体**,他们在使用这项技术时常常苦于真实性缺失的感觉。相反,**科学家表现出的焦虑最低**,尽管他们对人工智能的信任度也最低,主要将其视为一种工具。 该分析表明,围绕人工智能存在着复杂的情感景象,用户对其依赖性越来越强,甚至对工作性质的变化感到担忧。虽然承认人工智能模型最近有所改进,但该报告强调人们越来越担心人工智能的使用可能会从有益的辅助转变为对核心专业技能的根本改变——甚至潜在的取代。完整的分析方法和数据集可在网上获取。

## 奥里诺科岩画:一项宏伟的传统 本研究关注于奥里诺科河沿岸发现的一项独特的宏伟岩画传统——特别是大型蛇的雕刻。 近期研究强调了该地区在理解前哥伦布艺术及其与土著知识和文化交流联系方面的重要性。 中奥里诺科地区是岩刻(雕刻)和岩画(绘画)的热点地区,遗址可追溯到早全新世时期。 对157个岩画地点(包括13个拥有超过4米长的雕刻的“宏伟”遗址)的分析揭示了一个一致的主题:巨大的蛇被突出显示并朝向河流。 这些图像很可能作为“神话景观”的关键要素,反映了土著宇宙观,其中蛇代表着与创造、旅程和社会边界相关的强大且常常危险的力量。 地理空间分析表明,这些岩画板被有意放置以从河流和周围景观中获得可见性,表明它们起到了标记作用,并可能具有保护意义。 这一传统似乎与阿拉瓦克人和图卡诺人之间的共同神话相关联,强调了河流旅行和祖先叙事的重要性。 需要进一步的研究来充分理解这些遗址的年代学和文化背景,并继续与土著社区合作以保护和解读这些遗址。

黑客新闻 新的 | 过去的 | 评论 | 提问 | 展示 | 工作 | 提交 登录 奥里诺科河的巨大蛇形雕刻 (2024) (cambridge.org) 20 分,bryanrasmussen 1 天前 | 隐藏 | 过去的 | 收藏 | 2 条评论 snorwick 1 天前 [–] 时机正好。我一直在读大卫·刘易斯-威廉姆斯的《洞穴中的心灵》,并思考着岩石艺术。回复 Mistletoe 1 天前 | 父评论 [–] 他谈论过为什么拉斯科洞穴里似乎没有画人类(除了这个人)吗?https://www.reddit.com/r/interestingasfuck/comments/j3r22t/t...回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## CSS Grid Lanes:一种新的网页布局方法 CSS Grid Lanes 是一种新的网页布局特性,由 Mozilla、Apple 的 WebKit 团队和 CSS 工作组共同开发,为传统的瀑布流布局提供了一种灵活高效的替代方案。通过 `display: grid-lanes` 激活,它利用 CSS Grid 创建响应式、基于列的排列,无需媒体查询或容器查询。 其核心功能使用 `grid-template-columns`(或行)定义“通道”,允许浏览器动态填充可用空间。一个关键特性是其“容差”设置 (`item-tolerance`),它控制项目在通道之间移动的敏感度,以优化视觉流程——影响视觉外观以及键盘/屏幕阅读器用户的可访问性。 Grid Lanes 简化了复杂的布局,实现了无限滚动和不同的列大小等功能。它还支持跨通道扩展项目,并更改布局方向(列或行)。目前已在 Safari Technology Preview 234 中可用,鼓励开发者进行实验并提供反馈,以便 CSS 工作组最终确定细节。这有望成为创建动态且可访问的网页设计的新工具。

## Safari 进展与网页布局争论 - Hacker News 摘要 Hacker News 上的一篇帖子讨论了 Safari 在 interop-2025 基准测试中性能的提升,现在在一系列关键的网页兼容性测试中达到 100%。 这引发了关于 Safari 开发方式的讨论—— 过去发布速度较慢,但现在正在提供重要的网页功能支持,包括 CSS Grid Lanes 和对 OPFS 等 API 的修复。 讨论强调了关于网页开发复杂性和浏览器兼容性的更广泛的争论。 虽然 Grid Lanes 等新功能提供了强大的布局选项,但一些人担心会排除使用旧硬件或浏览器的用户。 另一些人认为,进步需要拥抱新标准,并且开发者应该优先考虑现代功能,并为旧系统提供优雅降级。 一个关键点是快速功能迭代(在基于 Chromium 的浏览器中很常见)与更谨慎的方法之间的紧张关系,一些人批评了苹果的发布周期。 最终,这场对话强调了在创新与可访问性之间取得平衡,并为所有用户维护功能性网页体验的持续挑战。

## 布特科呼吸法:一种治疗哮喘的呼吸技巧 布特科呼吸法是一种呼吸技巧,由苏联生理学家康斯坦丁·布特科在 1950 年代开发,旨在调节呼吸并治疗哮喘等呼吸系统疾病。它基于这样的理念:许多疾病因慢性过度通气(过度呼吸)而加重,导致血液中二氧化碳水平过低。 该方法侧重于通过强调鼻呼吸、屏气和放松的练习来重新训练呼吸模式,旨在实现更慢、更浅的呼吸。支持者声称它可以减少哮喘、慢性阻塞性肺病和过度通气的症状和对药物的依赖。 虽然该方法越来越受欢迎——从越来越多的曝光和最近的社交媒体关注可以看出——但布特科呼吸法在医学界仍然存在争议。有限的高质量研究支持其核心理论,而且研究往往存在方法学缺陷。一些研究表明它可能对生活质量和症状管理有潜在益处,但其对肺功能的影响尚不清楚。尽管最初在苏联医疗保健系统中实施,但由于缺乏足够的证据,它并未获得广泛的医学认可。

## 黑客新闻上关于布特科呼吸法的讨论 黑客新闻上的一场讨论,源于对布特科呼吸法维基百科文章的链接,揭示了不同的经验和观点。 许多评论者分享了家庭成员成功使用该方法的个人经历,尤其是在哮喘和呼吸问题方面,其中一人回忆起一位曾祖父通过数十年的练习获得了令人印象深刻的屏息能力。 虽然承认缺乏广泛的医疗支持和可靠的研究,但许多人强调了潜在的好处,包括改善心率变异性、减少打鼾以及管理胸廓出口综合征等疾病。 一些人指出了相关的技术,如肌功能疗法和Pranayama(一种瑜伽呼吸法),并建议布特科呼吸法可能受益于更好的营销或定位。 讨论的重点是提高二氧化碳耐受力的核心原则以及鼻呼吸的重要性,但后者引发了关于其在剧烈运动中的实用性的争论。 人们提出了对更严格的科学证据的需求,并观察到对简单、非药物干预研究的资金通常有限。

## 非递归Zip炸弹的构造与分析 本文详细介绍了“非递归”Zip炸弹的创建方法——一种能够展开到巨大尺寸的小型Zip文件,无需依赖嵌套的递归解压文件。该技术通过在Zip容器内重叠文件,多次引用压缩的“内核”数据来实现高压缩率。这使得输出大小能够随输入呈二次方增长,达到超过2800万的压缩比(例如,10MB到281TB),并且通过64位扩展(Zip64)可能达到更高。 构造过程使用了常见的DEFLATE压缩算法,确保与大多数Zip解析器的兼容性,但不包括“流式”解析器。优化重点在于通过仔细平衡内核大小和文件开销,以及高效计算CRC-32校验和来最大化压缩比。本文探讨了各种优化方法,包括引用本地文件头和利用Zip64扩展。 该研究强调了Zip解析实现中潜在的漏洞,并讨论了检测方法,指出强大的防御需要沙箱和资源限制,而不能仅仅依赖于基于签名的检测。作者还记录了已发布的Zip炸弹在现实世界中的反应,包括杀毒引擎的检测,以及网络浏览器和安全服务(如Google Safe Browsing和Comcast Xfinity)的阻止。源代码和数据可在GitHub上获取。

## 黑客新闻讨论:更好的Zip炸弹 最近黑客新闻的讨论集中在“zip炸弹”上——恶意设计的ZIP文件,旨在解压缩时耗尽系统资源。文章(bamsoftware.com)详细介绍了一种创建这些炸弹的新方法。 对话强调了ZIP格式的历史性特点,即目录存储在末尾,最初使得部分下载无用。现代HTTP功能,如Range请求和zip感知下载器,缓解了这一问题。用户讨论了ZIP冗余的头部信息,虽然对恢复有用,但可以被利用于漏洞,允许在解压缩过程中产生冲突的解释。 分享了实际例子:一位用户通过仅解压缩大型ZIP归档文件中的更改文件来改进构建时间,另一位用户提到Debian的`unzip`实用程序检测并拒绝潜在的恶意重叠文件。讨论还涉及安全措施,例如扫描重叠的文件范围以识别炸弹,以及限制解压缩比率。 最后,用户探讨了创建“CPU炸弹”的可能性——大型ZIP文件,解压缩需要很长时间但产生的内容很少——并将该概念扩展到压缩的HTTP响应。还参考了一篇相关的博客文章(idiallo.com),详细介绍了使用压缩的`/dev/zero`进行zip炸弹保护。

## Qwen-Image-Layered:通过分解实现一致的图像编辑 最近的图像生成模型在一致性编辑方面面临挑战,因为栅格图像本身具有复杂性。受分层设计工具的启发,**Qwen-Image-Layered** 引入了一种新的扩散模型,它将单个图像*分解*为多个独立的 RGBA 图层。这允许隔离编辑——对一个图层的更改不会影响其他图层——从而显著提高一致性。 该模型通过三个关键创新实现这一点:用于统一表示的 RGBA-VAE,能够处理可变图层数量的 VLD-MMDiT 架构,以及多阶段训练策略。至关重要的是,一个新的数据集,包含从 Photoshop 文档中提取的带注释的多层图像,解决了训练数据不足的问题。 实验表明,Qwen-Image-Layered 在分解质量方面优于现有方法,并建立了一种新颖的、一致且直观的图像编辑方法。

## Qwen-Image-Layered:一种新型开源扩散模型 Qwen-Image-Layered 是 Qwen Image 团队发布的一种新型开源(Apache 2.0 许可)扩散模型。 与许多现有模型不同,它独特地理解图像透明度(RGBA)以及,至关重要的是,**图像图层**——模仿了创意专业人士在 Photoshop 和 Figma 等程序中的工作方式。 这使得能够生成具有不同前景和背景元素的图像。 该模型的发布分两个阶段进行:首先是研究论文,然后是代码和权重。 一个关键的技术方面是“多阶段训练”策略,允许现有图像模型适应图层理解,以及用于处理 Photoshop .PSD 文件的流程。 目前,该模型将图层输出为 PowerPoint 演示文稿(使用 python-pptx)或单独的 PNG 文件。 用户正在探索 ComfyUI 等工具中的工作流程,但最初的 Civitai 工作流程并未成功。 性能各异,报告从高端硬件上的 1 分钟到使用 Cloudflare/Replicate 的 8 秒不等。 **资源:** [HuggingFace 论文](https://huggingface.co/papers/2512.15603), [HuggingFace 模型](https://huggingface.co/Qwen/Qwen-Image-Layered), [GitHub](https://github.com/QwenLM/Qwen-Image-Layered)

## OpenRouter推出响应修复功能,提升LLM输出的可靠性 OpenRouter推出了**响应修复**功能,旨在自动修复大型语言模型(LLM)产生的格式错误的JSON响应。OpenRouter认识到,即使LLM输出中存在很小的错误率(例如2%),也可能严重影响应用程序的稳定性和用户体验,因此响应修复功能可以显著提高可靠性。 早期数据显示出令人印象深刻的结果:**Gemini 2.0 Flash**的缺陷减少了80%,而**Qwen3 235B**的改进率达到了99.8%。这不仅仅是微小的提升——即使将缺陷从2%降低到1%,也能*使错误和支持工单的数量减半*。 该插件解决了常见的JSON错误,例如尾随逗号和缺少括号,为典型响应增加了不到1毫秒的延迟。目前,该功能专注于非流式请求和JSON语法,不处理模式一致性(正确的字段名称/类型),但计划在未来评估此项功能。 **响应修复是免费且可选的**,现已在[openrouter.ai/settings/plugins](openrouter.ai/settings/plugins)开放。OpenRouter旨在提供一个强大的基础设施层,确保LLM输出能够始终“正常工作”。

更多

联系我们 contact @ memedata.com