## 使用 obscrd 保护您的内容
obscrd 是一个开源的内容保护系统,旨在保护网站免受抓取和人工智能机器人侵害。它采用多层方法,混淆 HTML 并阻止恶意爬虫,同时不影响用户体验。
**主要功能包括:**
* **客户端保护:** 混淆文本,保护电子邮件/电话号码,保护图像(使用 canvas 渲染),并拦截剪贴板以防止轻松复制。
* **服务器端阻止:** 自动执行 `robots.txt` 以阻止超过 20 种人工智能爬虫,并为流行的框架(如 Express 和 Fastify)提供中间件支持。
* **轻松集成:** 利用 React 组件 (`@obscrd/react`) 和 CLI 工具,实现快速的项目设置和种子生成。
obscrd 对人类正常渲染内容,同时向抓取器呈现混淆数据,确保用户获得视觉一致性,并为您的宝贵内容提供强大的保护。加入候补名单以获取抢先体验和更新!
## Axe:命令行 LLM 代理编排
Axe 是一款 CLI 工具,用于构建和运行专注、可组合的 LLM 驱动代理,它采用了不同于典型聊天机器人中心化 AI 工具的方法。它将代理视为 Unix 程序——每个代理都设计用于单一任务,在 TOML 配置文件中定义,并通过命令行执行,数据输入并输出结果。
主要特性包括支持多种 LLM 提供商(Anthropic、OpenAI、Ollama)、声明式代理定义、子代理委托、持久化内存以及用于可重用指令的技能系统。Axe 可以无缝集成到现有的工具中,如 cron、git 钩子和 CI/CD 管道,避免了专用守护进程或 GUI 的需要。
代理配置有系统提示、模型选择以及对沙盒化工具的访问,用于文件操作和命令执行。Axe 优先考虑简单性和控制力,提供诸如干运行模式、JSON 输出和内存垃圾回收等功能。它可以通过 `go install` 或从源代码构建获得,并提供 Docker 镜像以进行隔离执行。
## 系统编程中的动态类型:摘要
本文探讨了在静态类型系统中表示不同类型数据的技术,并借鉴了GNU Emacs、现代C++和其他实现中的经验。核心挑战是高效处理多态性——当单个变量需要持有不同数据类型时。
详细介绍了三种主要方法:**带标签的联合体**(如`std::variant`),为最大可能的类型分配空间;**胖指针**,在指针旁边添加额外空间来存储类型信息;以及**带标签的指针**,利用指针对齐中未使用的位来存储类型标签。Emacs 独特地使用带标签的指针来处理核心类型,并使用“简陋的继承”(结构体嵌入)来扩展类型表示,超越有限的标签空间,从而在资源受限的环境中优化性能和内存使用。
有趣的是,像LLVM这样的现代系统正在*重新发明*类似的技术,绕过标准的C++ RTTI以实现更快的编译时类型检查。这些标记策略也出现在其他系统,如Linux内核和JavaScript引擎(V8)中,证明了它们持续的相关性。这些方法之间的选择取决于在内存占用、性能和类型层次结构的复杂性之间取得平衡。
## 稀疏化:见证数据的新视角
本文探讨了“稀疏化”,这是一种在依赖类型理论中经常遇到的数学对象,但其应用范围不止于此。稀疏化充当**见证数据**——简化问题解决的信息,通常可以提高效率或清晰度。可以将满足赋值视为 SAT 问题可解性的见证。
具体来说,稀疏化解决了“子列表”问题(在更大的列表中找到一个序列)。它们可以被可视化为元素之间的非重叠路径,表示为位向量,并通过德布鲁因提升/降低等操作生成(类似于置换由交换生成)。至关重要的是,稀疏化可以被*组合*——顺序应用——提供一种强大的视角转变。
作者通过 Python 示例演示了这一点,展示了如何不仅*找到*一个列表是否是子列表,而且*生成一个证书*(稀疏化本身)来证明它。验证此证书通常比找到它更快。
这个概念与 lambda egraphs、并查集,甚至 Prolog 的证明搜索等领域相关联。稀疏化可以被视为一个范畴,继承诸如组合和单位元之类的属性。它们还与德布鲁因索引等概念相关,并可能为自由变量分析和高效数据结构提供一种新颖的方法,从而可能改进诸如哈希常量和名义统一之类的技术。最终,作者认为稀疏化对于良好作用域的项是基础的,超越了 lambda 演算,扩展到其他绑定器,如求和和积分。
最近对LLM代码生成的研究,基于“metr”文章的数据,揭示了一个令人担忧的趋势:虽然LLM越来越能*通过测试*,但适合实际合并到项目中的代码质量在过去一年中没有提高。
该研究比较了LLM基于通过测试和维护者批准的性能,发现以合并性作为判断标准时,成功率显著下降——50%成功的所需时间从50分钟减少到仅8分钟。 重要的是,合并率分析显示自2025年初以来没有上升趋势,尽管通过测试的能力有所提高。
统计建模(使用Brier分数)证实了这一点,表明预测*恒定*合并率的模型比预测逐步改进的模型更准确。 这表明LLM并没有真正提高生产就绪代码的生成能力,引发了对以通过测试作为主要进展指标的质疑。
## MacBook Neo 与大数据:笔记本电脑基准测试
苹果新款入门级 MacBook Neo,定价 700 美元/800 欧元(512GB 存储,8GB 内存,Apple A18 Pro 芯片),经过了数据库工作负载的测试。目标是:看看它是否符合“在笔记本电脑上进行大数据处理”的理念。
使用 DuckDB 进行基准测试时,MacBook Neo 在最初的“冷启动”测试中表现出色,使用 ClickBench 基准测试完成查询的速度快于可比的云实例,这得益于其本地 NVMe SSD。然而,在持续的“热启动”场景中,拥有更多资源的云实例最终表现优于它。
Neo 还处理了更复杂的 TPC-DS 基准测试,成功地在 100 规模因子下完成所有查询,耗时 15.5 分钟,在 300 规模因子下耗时 79 分钟,但内存限制变得明显。
虽然 DuckDB *可以* 通过内存外处理在 Neo 上处理大量数据,但其较慢的磁盘 I/O(1.5 GB/s)和有限的 8GB 内存使其与高端 MacBook 或专用 Linux/Windows 机器相比,不太适合日常繁重的数据处理。然而,它作为云数据库的客户端是一个不错的选择,并且能够处理偶尔的本地数据处理。