每日HackerNews RSS

曼迪安发布了一份全面的Net-NTLMv1彩虹表数据集,以突出这种存在数十年的不安全身份验证协议持续构成的风险。尽管自2012年起已被弃用(漏洞自1999年已知),但Net-NTLMv1在许多环境中仍然出乎意料地普遍存在。 此次发布大大降低了演示该协议弱点的门槛。以前需要昂贵的硬件或第三方服务,现在这些表允许安全专业人员使用现成的消费级硬件(低于600美元)在12小时内破解哈希。 这些表利用了已知的明文攻击,在攻击者获得没有扩展会话安全性的Net-NTLMv1哈希时恢复密码哈希。成功利用可能导致权限提升,以及关键的,通过DCSync攻陷域控制器。 该数据集可通过Google Cloud获得,并包含用于验证的校验和。曼迪安鼓励防御者利用这些表主动识别并**禁用Net-NTLMv1**,并缓解身份验证强制攻击,强调采取协作方法来消除这一重大的安全威胁。

谷歌发布了彩虹表——用于破解密码的预计算表——以加速淘汰较旧的不安全协议。这一举动,仅需不到600美元的消费级硬件即可实现,凸显了这些遗留系统的脆弱性。 Hacker News上的评论员指出谷歌过去淘汰不安全协议的经历,这与忽视安全漏洞的公司形成了鲜明对比。然而,一些人预计协议淘汰到实际移除之间可能需要很长时间——可能长达20年。 一位评论员巧妙地将此次发布比作公开展示锁的弱点以推广安防公司,而另一些人则简单地承认这是破解能力的一次“酷炫”演示。讨论的中心在于平衡安全改进与维护旧系统的现实。

大型语言模型(LLM)在自动化和智能体开发方面潜力巨大,但它们偶尔未能持续产生结构化输出(如JSON、XML或代码)阻碍了实际应用。虽然LLM *通常* 生成有效的语法,但其概率性本质给依赖它们执行数据提取和工具调用的开发者带来了可靠性问题。 本手册旨在解决这一挑战,提供一份关于确保确定性、结构化LLM输出的全面且*更新*的资源。它涵盖了底层机制、最佳工具和技术、系统构建/扩展、速度和成本优化以及输出质量改进。 本手册由Nanonets-OCR和docstrange团队创建,旨在整合当前分散在研究论文、博客和代码仓库中的快速发展信息,既作为学习指南,也作为开发者的实用参考。

## LLM 结构化输出:摘要 最近的 Hacker News 讨论强调了“LLM 结构化输出手册”(nanonets.com)作为开发者有价值的资源。该指南详细介绍了确保大型语言模型 (LLM) 产生可预测格式输出的技术,这对于可靠地集成到更大的系统(如代理和管道)中至关重要。 主要收获包括“受约束的非确定性”的优势——即使内容不总是准确,也能保证语法的正确性。这对于资源受限的环境特别有用,例如在 Raspberry Pi 等设备上本地运行模型,在严格的输出约束下(例如“是”或“否”),即使是小型模型也可以有效。 讨论还指出了几个辅助结构化生成的库:Outlines、Guidance 和 XGrammar。TOML 和 TOON 等 JSON 的替代方案也被探索,以期获得更好的可靠性和效率,但支持它们优越性的证据尚有争议。基于正则表达式的 XML 模式强制执行是另一种可行的方法,尤其是在代码生成方面。最终目标是避免解析错误,并确保从 LLM 获得一致且机器可读的输出。

“大脑”病毒于1986年出现,信息为“欢迎来到地牢”,是已知首个针对个人电脑的病毒,因媒体报道而声名鹊起。该病毒由来自巴基斯坦拉合尔的一家商店的阿姆贾德和巴西特·阿尔维兄弟开发,其故事最近由阿姆贾德·阿尔维在2023年讲述。 这个故事是“目击历史”系列的一部分,该系列致力于通过第一手视角探索历史上的关键时刻。该系列涵盖了广泛的主题——从希特勒之死和柏林墙倒塌等历史事件,到科学突破和文化现象。 “目击历史”提供了对有影响力人物生活的洞察,并揭示了令人惊讶的故事,为塑造我们世界的事件提供了一个独特的视角。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 第一款电脑病毒 (bbc.com) 8 分,by andsoitis 1 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 jmkni 21 分钟前 [–] Mikko Hyppönen 关于“Brain”的精彩演讲 - https://www.youtube.com/watch?v=cf3zxHuSM2Y 回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## 向高管沟通工程方案:摘要 Kooth的CTO安娜·希普曼概述了一份工程师寻求领导层支持的实用指南。核心挑战在于弥合技术方案与高管优先事项之间的差距。高管专注于高层目标——公司方向、资源分配、结果和风险管理——并向董事会、股东和客户等利益相关者负责。 成功的沟通需要理解高管的思考方式。方案必须展示明确的商业价值,与整体公司目标(如增加利润或提高客户保留率)保持一致,而不仅仅关注工程改进。预想关键问题:成本、投资回报率、替代方案、风险以及对其他团队的影响。 一个“翻译层”至关重要。必须用以业务为中心的语言取代工程术语,时间线应与高管的规划视野(通常是年,而不是周)保持一致。鉴于高管时间有限,简洁、以结果为导向的沟通至关重要。通过主动解决潜在问题,并从商业影响的角度提出请求,工程师可以显著提高获得批准的可能性,并推动项目成功。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 工程师到管理层的翻译层 (refactoring.fm) 3 分,由 lucidplot 发表于 20 分钟前 | 隐藏 | 过去 | 收藏 | 1 条评论 lucidplot 13 分钟前 [–] 非付费版本:https://www.annashipman.co.uk/jfdi/engineer-exec-translation... 回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

1979年9月,来自东德的斯特雷尔齐克一家和韦泽尔一家,利用自制热气球,进行了一次大胆的逃往西德的行动。彼得·斯特雷尔齐克和根特·韦泽尔渴望自由,花费了一年多的时间,精心策划并制造了热气球,克服了无数挫折,包括一次失败的首次尝试,这引起了东德当局的警觉。 面对戒备森严的边境和射杀逃亡者的命令,他们用搜集到的材料制造了两只热气球,巧妙地设计了燃烧系统并充气了巨大的飞行器。他们的第一次尝试未能到达边境,但第二次,更大的热气球成功地载着八个人——包括四个孩子——飞越了墙壁。 尽管面临热气球燃烧和气温冰冻等挑战,他们最终安全降落在巴伐利亚。这次逃亡引发了东德加强安保措施,并成为了抵抗的象征。这个故事后来被电影《夜渡》(1982)和《气球》(2018)所记录,而热气球本身现在陈列在巴伐利亚博物馆中。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 东德气球逃脱 (wikipedia.org) 29点 由 robertvc 1小时前 | 隐藏 | 过去 | 收藏 | 2评论 VelNZ 3分钟前 | 下一个 [–] Damn Interesting播客(无关联,只是一个忠实粉丝)有一个关于这个话题的节目,如果你更喜欢听这个故事:https://www.damninteresting.com/up-in-the-air/回复 gnatman 4分钟前 | 上一个 [–] 投资、计划、危险和顽强的毅力……令人难以置信的故事。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## 独立客户虚拟机 (IGVM) 项目概要 该项目定义了 IGVM 文件格式,这是一种标准化方法,用于打包启动跨各种虚拟化平台(包括利用 AMD SEV-SNP 和 Intel TDX 实现增强隔离的平台)所需的全部信息。 基本上,IGVM 文件包含用于构建初始客户状态的加载器命令,以及用于验证文件完整性和授权来源的安全测量。 该格式在 `igvm_defs` crate 中定义,并在 `igvm` 中提供 Rust 实现。 该项目积极鼓励贡献,要求签署贡献者许可协议 (CLA) 以确保适当的使用权。 它还遵守微软开源行为准则和商标使用指南。 CLA 要求详情由机器人自动管理,并在提交拉取请求时进行处理。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 独立访客虚拟机 (IGVM) 文件格式 (github.com/microsoft) 5 分,由 ingve 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 讨论 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

@lwn 目前正遭受前所未有的严重爬虫攻击。这是一次涉及数万个地址的DDoS攻击,不幸的是,这影响了网站的响应速度。我有很多想做的事情,但防御来自AI的恶意攻击绝不在其中。我*真的*不想在LWN和读者之间设置障碍,但可能不得不这样做。(又是一个糟糕的一天,抱歉)

LWN.net,一个低带宽技术新闻网站,目前正遭受严重的爬虫攻击——他们经历过的最严重的一次。Hacker News上的讨论集中在对抗这些爬虫的方法上。 一位用户建议通过覆盖JavaScript方法来清除页面内容,或将元素隐藏在Shadow DOM中来阻止它们。然而,这些策略可能会对自动化测试和搜索引擎索引产生负面影响。 另一种更愤世嫉俗的观点认为,大型科技公司甚至可能*激励*针对网站的DDoS攻击,以限制竞争“人工智能”项目的数据访问——一种“拉升后踢腿”的情况。其他人则认为这是一种阴谋论。 根据最近的评论,攻击可能已经减弱,网站可以正常加载。在讨论时,最初提及该攻击的帖子已经超过24小时。

## 数字“垃圾”时代 我们的环境被精心设计以最大化消费,而社交媒体就是一个典型例子。像TikTok这样的平台,凭借其无尽的“为你推荐”页面,优先考虑保持用户参与度——以网站停留时间衡量——而非优质内容。这创造了一种无限滚动的幻觉,隐藏了诸如时间之类的指标,并助长了无意识的消费。 对持续内容的需求导致了低质量、易于制作的大量内容涌现,被称为“垃圾”,这反映了当需求超过供应时,市场如何用更便宜的替代品填补空白。90-9-1规则——只有一小部分用户*创作*内容——被“为你推荐”页面加剧,降低了努力和好奇心的价值。算法提供轻松的娱乐,使知识变得可有可无,并扼杀了真正的创造性投入。 最终,创造力是无法 масштабировать 的,依赖于人类创作者的平台面临着根本问题:他们无法*强迫*人们创作。Vine的衰落故事证明了创作者的力量,而像TikTok这样的平台现在积极压制集体创作者的影响力,以避免类似的命运。解决方案?回归有意识的“网络冲浪”——在算法推荐之外,按照我们自己的意愿主动寻找优质内容。

这个Hacker News讨论围绕着一篇名为“对有眼力的人来说,垃圾内容无处不在” (jason.xyz) 的帖子展开。一位评论员指出,像TikTok“为你推荐”页面这样的平台,内容*供给*可能与*需求*之间存在失衡。他们认为,高效的内容消费速度可能超过了内容创作速度,尽管人类创作的内容存在固有限制。 另一位评论员反驳说,*供给*实际上超过了*需求*,导致优质内容贬值,因为人们的消费时间有限(每天24小时)。 一段简短的对话还提到了常见的语言错误(“exacerbated”与“exasperated”,“hone in”与“home in on”)和有趣的文字游戏。

## LLM 用于更深入的阅读:探索非虚构作品中的联系 该项目展示了如何利用大型语言模型 (LLM) 不仅用于总结,还能进行*更深入*的阅读和知识发现。作者为 Claude Code 提供了工具,分析了 100 本非虚构书籍的图书馆(来源为 Hacker News 上的热门书籍),从而识别不同文本之间的思想联系。 该系统通过将书籍分解成块、按主题进行索引以及构建分层主题树来工作。然后,Claude 使用命令行工具搜索相关段落、识别共同出现的主题,并最终构建“路径”——一系列说明特定见解的摘录(例如,初创公司欺骗与社会心理学之间的联系)。 一个关键发现是,将 Claude 视为协作代理——提供工具并征求反馈——比严格的预编程流程更有效。该代理能够自主提出改进建议并处理细微的编辑,从而扩大了项目范围。在搜索过程中优先考虑新颖性,鼓励探索较少涉足的知识领域。 该项目花费了大约 10 英镑的 token,并使用了 `selectolax`、`sqlite-vec` 和 DSPy 等工具。它突出了 LLM 增强人类阅读能力并在大量文本中促进意外联系的潜力。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 使用 Claude Code 跨书阅读 (pieterma.es) 8 分,gmays 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 jszymborski 1 分钟前 [–] 这很有意思,但我最感兴趣的是主题树是如何创建的。这似乎对很多事情都很有用。有人能指引我一些类似的有详细信息的资源吗?回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## 特征选择总结 特征选择对于构建高效且可解释的机器学习模型至关重要。面对包含500个潜在特征的数据集,目标是识别出最相关的*k*个(例如,15个),以达到最佳模型性能。本总结重点介绍“Filter”方法——在模型训练*之前*评估特征相关性的统计技术。 这些方法依赖于理解数据级别:**名义型**(标签)、**顺序型**(排序)、**等距型**(等距差异,无真零点)和**比例型**(真零点)。方法选择取决于这些级别。关键技术包括: * **皮尔逊相关系数 (Pearson’s r):** 衡量两个连续变量之间的线性相关性。 * **肯德尔τ系数 & 斯皮尔曼ρ系数 (Kendall’s τ & Spearman’s ρ):** 评估单调关系(变量趋向于一起移动,不一定线性),适用于顺序型或非线性数据。 * **卡方检验 (Chi-Squared χ²):** 检验分类变量之间的独立性;较高的χ²表明更强的关系。 * **互信息 (Mutual Information MI):** 一种通用的方法,可以检测变量之间的*任何*关系,无论是线性的还是非线性的。 * **方差分析F值 & 点双相关 (ANOVA F-Score & Point-Biserial Correlation):** 专门用于连续特征预测分类结果,评估组间分离度。 选择合适的方法取决于涉及的数据类型。最终,背景至关重要——没有一种方法是普遍最佳的。理解潜在的统计原理对于有效的特征选择至关重要。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 特征选择:入门 (ikromshi.com) 23 分,作者 ikromshi,6小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 incognito124 1小时前 [–] 啊,这些内容让我想起了我的大学时光。机器学习理论本身很有趣。可惜没人愿意去学习它 :) 如果你进入行业,不要指望能用到这些。我至今还没有。继续努力,期待你的下一篇帖子。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

更多

联系我们 contact @ memedata.com