每日HackerNews RSS

## 使用 obscrd 保护您的内容 obscrd 是一个开源的内容保护系统,旨在保护网站免受抓取和人工智能机器人侵害。它采用多层方法,混淆 HTML 并阻止恶意爬虫,同时不影响用户体验。 **主要功能包括:** * **客户端保护:** 混淆文本,保护电子邮件/电话号码,保护图像(使用 canvas 渲染),并拦截剪贴板以防止轻松复制。 * **服务器端阻止:** 自动执行 `robots.txt` 以阻止超过 20 种人工智能爬虫,并为流行的框架(如 Express 和 Fastify)提供中间件支持。 * **轻松集成:** 利用 React 组件 (`@obscrd/react`) 和 CLI 工具,实现快速的项目设置和种子生成。 obscrd 对人类正常渲染内容,同时向抓取器呈现混淆数据,确保用户获得视觉一致性,并为您的宝贵内容提供强大的保护。加入候补名单以获取抢先体验和更新!

一位独立开发者创建了“obscrd”,一个免费且开源的SDK(可在GitHub上找到:https://github.com/obscrd/obscrd),旨在阻止AI网络爬虫。该工具通过使用CSS视觉上重新排列HTML内容,同时保持用户可读性,从而有效地向依赖纯文本提取的爬虫提供乱码。 除了HTML混淆之外,obscrd还包括电子邮件/电话号码混淆、AI蜜罐(向爬虫注入指令)、剪贴板拦截以及取证面包屑来检测盗窃等功能。它还通过`robots.txt`阻止超过30种已知的AI爬虫。 开发者承认存在局限性——它无法阻止使用无头浏览器或OCR的坚定攻击者——但旨在*提高*简单机器人爬取的成本。Hacker News评论中的一个关键讨论点集中在使用体验问题上,特别是高亮显示和复制粘贴功能损坏,以及对AI生成文档有效性的质疑。开发者澄清说,通过仔细的CSS实现和ARIA属性,为屏幕阅读器的可访问性*是*被保留的。

## Axe:命令行 LLM 代理编排 Axe 是一款 CLI 工具,用于构建和运行专注、可组合的 LLM 驱动代理,它采用了不同于典型聊天机器人中心化 AI 工具的方法。它将代理视为 Unix 程序——每个代理都设计用于单一任务,在 TOML 配置文件中定义,并通过命令行执行,数据输入并输出结果。 主要特性包括支持多种 LLM 提供商(Anthropic、OpenAI、Ollama)、声明式代理定义、子代理委托、持久化内存以及用于可重用指令的技能系统。Axe 可以无缝集成到现有的工具中,如 cron、git 钩子和 CI/CD 管道,避免了专用守护进程或 GUI 的需要。 代理配置有系统提示、模型选择以及对沙盒化工具的访问,用于文件操作和命令执行。Axe 优先考虑简单性和控制力,提供诸如干运行模式、JSON 输出和内存垃圾回收等功能。它可以通过 `go install` 或从源代码构建获得,并提供 Docker 镜像以进行隔离执行。

## Axe:轻量级 AI 代理工具 Axe 是一款新的 12MB 二进制文件,旨在成为笨重 AI 框架的极简替代方案。由 jrswab 创建,它将 LLM 代理视为 Unix 程序——小巧、专注且可组合——拒绝了集成式聊天机器人风格 AI 的趋势。 Axe 使用 TOML 配置文件来定义执行特定任务(代码审查、日志分析等)的代理,可以直接从命令行运行,并通过管道接受输入(例如,`git diff | axe run reviewer`)。主要功能包括子代理委托、可选的持久内存、对各种 LLM 提供商(OpenAI、Anthropic、Ollama)的支持以及安全的文件操作。 Axe 使用 Go 语言构建,除了两个库之外没有其他依赖项,避免了 Python、Docker 和 GUI,优先考虑速度、简洁性和可组合性,以便通过 CLI、cron 作业或 CI/CD 管道自动化任务。它受到类似项目(如 `ell`)的启发,旨在服务于那些喜欢短时、专注型 AI 代理的用户。

## Rudel:Claude 代码分析工具 Rudel 提供了一个仪表盘,用于分析你的 Claude 代码编程会话,提供关于 token 使用量、会话时长、模型性能等方面的洞察。它可以通过 CLI 工具轻松集成:使用 `npm install -g rudel` 安装,登录,并使用 `rudel enable` 启用自动上传。 Rudel 捕获详细的会话数据——记录、时间戳、git 上下文和子代理使用情况——并将其安全地存储在 ClickHouse 中进行分析。可以通过仪表盘授予团队访问权限。 过去的会话也可以批量上传。 **重要安全提示:** Rudel 摄取*完整*的会话数据,可能包括敏感信息,例如代码和密钥。仅在上传此数据可接受的项目中使用它。 虽然 Rudel 不会通过托管服务访问记录中的个人数据,但在使用前请查看他们的隐私政策。 在他们的 GitHub 仓库中可以找到 CLI 命令、自托管和安全报告的文档。 在 [app.rudel.ai](https://app.rudel.ai) 免费试用托管版本。

## Rudel.ai:分析Claude Code会话 一个团队构建了[rudel.ai](https://rudel.ai)来深入了解他们自己对Claude Code的使用情况,由此产生了一个包含1,573个会话(1500万+ tokens,27万+交互)的数据集,他们现在将其开源作为分析工具。 主要发现包括技能使用率出乎意料地低(4%的会话),26%的会话放弃率(通常在第一分钟内),以及根据任务而异的成功率——文档编写最高,重构最低。他们还识别出在最初两分钟内出现的“错误级联”模式,该模式强烈预测会话放弃。 开发者们正在构建一个“良好”代理性能的基准,承认目前缺乏标准。另一位开发者分享了他们互补的工作,即使用阶段和自动化门来构建会话,从而将接受率从73%提高到90%以上。 Rudel.ai 免费使用,并提供云端和本地(Docker)部署选项。该团队欢迎提问和贡献,并致力于改进对其他模型(如Codex)的分析提取。

## 系统编程中的动态类型:摘要 本文探讨了在静态类型系统中表示不同类型数据的技术,并借鉴了GNU Emacs、现代C++和其他实现中的经验。核心挑战是高效处理多态性——当单个变量需要持有不同数据类型时。 详细介绍了三种主要方法:**带标签的联合体**(如`std::variant`),为最大可能的类型分配空间;**胖指针**,在指针旁边添加额外空间来存储类型信息;以及**带标签的指针**,利用指针对齐中未使用的位来存储类型标签。Emacs 独特地使用带标签的指针来处理核心类型,并使用“简陋的继承”(结构体嵌入)来扩展类型表示,超越有限的标签空间,从而在资源受限的环境中优化性能和内存使用。 有趣的是,像LLVM这样的现代系统正在*重新发明*类似的技术,绕过标准的C++ RTTI以实现更快的编译时类型检查。这些标记策略也出现在其他系统,如Linux内核和JavaScript引擎(V8)中,证明了它们持续的相关性。这些方法之间的选择取决于在内存占用、性能和类型层次结构的复杂性之间取得平衡。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 Emacs 内部原理:标签指针 vs. C++ std:variant 和 LLVM (第 3 部分) (thecloudlet.github.io) 3 分,作者 thecloudlet 1 小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 thecloudlet 1 小时前 [–] Emacs 内部原理第 2 部分 HN 链接:https://news.ycombinator.com/item?id=47259961 回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

美国银行对私人信贷提供商的贷款正在显著增加,截至6月已近3000亿美元,对非存款金融机构(NDFI)的总贷款额贡献达到1.2万亿美元。这与十年前相比大幅增长,目前已占美国银行贷款的10%以上。 为了实现收入多元化和降低风险,富国银行、美国银行和摩根大通等银行正在与另类资产管理公司建立合作关系,并积极为非银行贷款机构提供资金——即使他们也在与之竞争。 然而,穆迪评级警告说,这种增长并非没有风险,引用了Tricolor Holdings等最近的破产案例,作为潜在的资产质量挑战的指标。尽管存在这些担忧,私人信贷资产在过去十年中增长了三倍,增速超过了大多数其他信贷领域。

美国银行对私募信贷的敞口达到3000亿美元 (alternativecreditinvestor.com) 9点 由 JumpCrisscross 1小时前 | 隐藏 | 过去 | 收藏 | 2评论 帮助 neogodless 7分钟前 [–] 替代帖子(来自同一作者)https://news.ycombinator.com/item?id=47349806 美国私募信贷违约率在2025年创下纪录的9.2%,惠誉称 (marketscreener.com) 75+ 评论 回复 walthamstow 5分钟前 | 父评论 [–] 该链接是 https://news.ycombinator.com/item?id=47349806 回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## zi2zi-JiT:中文字体风格迁移 zi2zi-JiT是一个基于JiT架构的扩散Transformer模型,用于合成中文字体。它将参考字形的风格转移到源字符上,从而实现字体风格的修改。该模型利用内容编码器(来自FontDiffuser)捕捉字符结构,风格编码器提取风格特征,并采用多源上下文混合方法进行条件设置。 JiT-B/16和JiT-L/16两个变体是在包含400多个字体的超过30万个字符图像的大型数据集上训练的(主要为简体和繁体中文,以及少量日语)。评估指标(FID、SSIM、LPIPS、L1)显示出强大的性能。 该项目提供了数据集创建、微调(使用LoRA在单个GPU上 – 约4GB VRAM)和字符生成工具。微调单个字体可以在一小时内完成。 预训练检查点可用,如果分发包含来自该项目派生的超过200个字符的产品,则需要署名。 代码采用MIT许可,并针对字体输出添加了特定条款。

黑客新闻 新的 | 过去的 | 评论 | 提问 | 展示 | 工作 | 提交 登录 CJK 语言的高保真字体合成 (github.com/kaonashi-tyc) 7 分,来自 kaonashi-tyc-01 2 小时前 | 隐藏 | 过去的 | 收藏 | 1 条评论 帮助 kaonashi-tyc-01 2 小时前 [–] 在原始 zi2zi 的基础上进行后续工作,现在使用 transformer 作为主干。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

访问被拒绝。您没有权限访问“http://www.marketscreener.com/news/us-private-credit-defaults-hit-record-9-2-in-2025-fitch-says-ce7e5fd8df8fff2d”上的服务器。 参考编号:18.c9a4c117.1773320745.1971e4f8 https://errors.edgesuite.net/18.c9a4c117.1773320745.1971e4f8

美国私人信贷违约率在2025年创下纪录的9.2%,评级机构惠誉称 (marketscreener.com) 11点 由 JumpCrisscross 20分钟前 | 隐藏 | 过去 | 收藏 | 1条评论 帮助 FrustratedMonky 4分钟前 [–] 美国的庞氏骗局即将结束。当一切都在上涨时,它运作得很好。2008年金融危机由油价触发。存在许多有问题但没人仔细检查的结构性因素。油价只是敲倒大楼的侧面一击。 只需要一点推动就能崩溃。我们又来了。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## 稀疏化:见证数据的新视角 本文探讨了“稀疏化”,这是一种在依赖类型理论中经常遇到的数学对象,但其应用范围不止于此。稀疏化充当**见证数据**——简化问题解决的信息,通常可以提高效率或清晰度。可以将满足赋值视为 SAT 问题可解性的见证。 具体来说,稀疏化解决了“子列表”问题(在更大的列表中找到一个序列)。它们可以被可视化为元素之间的非重叠路径,表示为位向量,并通过德布鲁因提升/降低等操作生成(类似于置换由交换生成)。至关重要的是,稀疏化可以被*组合*——顺序应用——提供一种强大的视角转变。 作者通过 Python 示例演示了这一点,展示了如何不仅*找到*一个列表是否是子列表,而且*生成一个证书*(稀疏化本身)来证明它。验证此证书通常比找到它更快。 这个概念与 lambda egraphs、并查集,甚至 Prolog 的证明搜索等领域相关联。稀疏化可以被视为一个范畴,继承诸如组合和单位元之类的属性。它们还与德布鲁因索引等概念相关,并可能为自由变量分析和高效数据结构提供一种新颖的方法,从而可能改进诸如哈希常量和名义统一之类的技术。最终,作者认为稀疏化对于良好作用域的项是基础的,超越了 lambda 演算,扩展到其他绑定器,如求和和积分。

黑客新闻 新的 | 过去的 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 稀疏化:子列表见证和德布鲁因索引移位聚类 (philipzucker.com) 7 分,由 matt_d 发表于 2 小时前 | 隐藏 | 过去的 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

最近对LLM代码生成的研究,基于“metr”文章的数据,揭示了一个令人担忧的趋势:虽然LLM越来越能*通过测试*,但适合实际合并到项目中的代码质量在过去一年中没有提高。 该研究比较了LLM基于通过测试和维护者批准的性能,发现以合并性作为判断标准时,成功率显著下降——50%成功的所需时间从50分钟减少到仅8分钟。 重要的是,合并率分析显示自2025年初以来没有上升趋势,尽管通过测试的能力有所提高。 统计建模(使用Brier分数)证实了这一点,表明预测*恒定*合并率的模型比预测逐步改进的模型更准确。 这表明LLM并没有真正提高生产就绪代码的生成能力,引发了对以通过测试作为主要进展指标的质疑。

一篇最近的文章质疑大型语言模型(LLM)是否仍在改进,在Hacker News上引发了争论。文章声称LLM的能力停滞不前,尤其是在编程方面,但评论员们大多不同意。 多位用户指出文章的数据存在重大遗漏,特别是缺乏对OpenAI的GPT-4.5/4.6 Opus & Sonnet以及Google的Gemini等较新模型的分析。 普遍的看法是,LLM的进步并非线性,而是在关键突破(如思维链提示)之后出现爆发,然后进入平台期。许多用户*确实*观察到在他们的工作中有所改进,并指出使用GPT-4等当前模型时,所需的编辑量减少了。虽然承认最近可能出现放缓,但总体情绪是LLM*仍在*变得更好,即使速度已经改变。

## MacBook Neo 与大数据:笔记本电脑基准测试 苹果新款入门级 MacBook Neo,定价 700 美元/800 欧元(512GB 存储,8GB 内存,Apple A18 Pro 芯片),经过了数据库工作负载的测试。目标是:看看它是否符合“在笔记本电脑上进行大数据处理”的理念。 使用 DuckDB 进行基准测试时,MacBook Neo 在最初的“冷启动”测试中表现出色,使用 ClickBench 基准测试完成查询的速度快于可比的云实例,这得益于其本地 NVMe SSD。然而,在持续的“热启动”场景中,拥有更多资源的云实例最终表现优于它。 Neo 还处理了更复杂的 TPC-DS 基准测试,成功地在 100 规模因子下完成所有查询,耗时 15.5 分钟,在 300 规模因子下耗时 79 分钟,但内存限制变得明显。 虽然 DuckDB *可以* 通过内存外处理在 Neo 上处理大量数据,但其较慢的磁盘 I/O(1.5 GB/s)和有限的 8GB 内存使其与高端 MacBook 或专用 Linux/Windows 机器相比,不太适合日常繁重的数据处理。然而,它作为云数据库的客户端是一个不错的选择,并且能够处理偶尔的本地数据处理。

一个 Hacker News 的讨论围绕着一篇博客文章,展示了使用 DuckDB 在低端 MacBook(“Neo”)上进行“大数据”处理。尽管 DuckDB 能够在只有 8GB 内存的情况下处理 300GB 数据集(SF300),但评论者强调了性能瓶颈。 具体来说,Neo 中较慢的 NVMe 驱动器显著影响了文件密集型任务,例如搜索重复文件,导致在处理大量文件时遍历变得令人沮丧。用户们争论“大数据”的定义,回忆过去的炒作,并指出一台标准笔记本电脑可以处理令人惊讶的大型数据集。讨论还涉及苹果公司长期以来将 SSD 焊接到 MacBook 上的做法,以及基准测试中使用 ClickBench,一个包含 1 亿行数据的分析数据库基准测试。总的来说,这篇文章引发了关于实际性能限制以及“大数据”在现代计算中不断变化的含义的对话。

更多

联系我们 contact @ memedata.com