曼迪安发布了一份全面的Net-NTLMv1彩虹表数据集,以突出这种存在数十年的不安全身份验证协议持续构成的风险。尽管自2012年起已被弃用(漏洞自1999年已知),但Net-NTLMv1在许多环境中仍然出乎意料地普遍存在。 此次发布大大降低了演示该协议弱点的门槛。以前需要昂贵的硬件或第三方服务,现在这些表允许安全专业人员使用现成的消费级硬件(低于600美元)在12小时内破解哈希。 这些表利用了已知的明文攻击,在攻击者获得没有扩展会话安全性的Net-NTLMv1哈希时恢复密码哈希。成功利用可能导致权限提升,以及关键的,通过DCSync攻陷域控制器。 该数据集可通过Google Cloud获得,并包含用于验证的校验和。曼迪安鼓励防御者利用这些表主动识别并**禁用Net-NTLMv1**,并缓解身份验证强制攻击,强调采取协作方法来消除这一重大的安全威胁。
大型语言模型(LLM)在自动化和智能体开发方面潜力巨大,但它们偶尔未能持续产生结构化输出(如JSON、XML或代码)阻碍了实际应用。虽然LLM *通常* 生成有效的语法,但其概率性本质给依赖它们执行数据提取和工具调用的开发者带来了可靠性问题。
本手册旨在解决这一挑战,提供一份关于确保确定性、结构化LLM输出的全面且*更新*的资源。它涵盖了底层机制、最佳工具和技术、系统构建/扩展、速度和成本优化以及输出质量改进。
本手册由Nanonets-OCR和docstrange团队创建,旨在整合当前分散在研究论文、博客和代码仓库中的快速发展信息,既作为学习指南,也作为开发者的实用参考。
## 特征选择总结
特征选择对于构建高效且可解释的机器学习模型至关重要。面对包含500个潜在特征的数据集,目标是识别出最相关的*k*个(例如,15个),以达到最佳模型性能。本总结重点介绍“Filter”方法——在模型训练*之前*评估特征相关性的统计技术。
这些方法依赖于理解数据级别:**名义型**(标签)、**顺序型**(排序)、**等距型**(等距差异,无真零点)和**比例型**(真零点)。方法选择取决于这些级别。关键技术包括:
* **皮尔逊相关系数 (Pearson’s r):** 衡量两个连续变量之间的线性相关性。
* **肯德尔τ系数 & 斯皮尔曼ρ系数 (Kendall’s τ & Spearman’s ρ):** 评估单调关系(变量趋向于一起移动,不一定线性),适用于顺序型或非线性数据。
* **卡方检验 (Chi-Squared χ²):** 检验分类变量之间的独立性;较高的χ²表明更强的关系。
* **互信息 (Mutual Information MI):** 一种通用的方法,可以检测变量之间的*任何*关系,无论是线性的还是非线性的。
* **方差分析F值 & 点双相关 (ANOVA F-Score & Point-Biserial Correlation):** 专门用于连续特征预测分类结果,评估组间分离度。
选择合适的方法取决于涉及的数据类型。最终,背景至关重要——没有一种方法是普遍最佳的。理解潜在的统计原理对于有效的特征选择至关重要。