展示 HN:适用于 AI 工作流程的本地优先、可逆的个人身份信息清理工具
Show HN: A local-first, reversible PII scrubber for AI workflows

原始链接: https://medium.com/@tj.ruesch/a-local-first-reversible-pii-scrubber-for-ai-workflows-using-onnx-and-regex-e9850a7531fc

启用 JavaScript 和 Cookie 以继续。

## 桥接匿名化:用于人工智能的本地、可逆的个人身份信息清洗 桥接匿名化是一个新的 Node.js/Bun 管道,旨在解决现有个人身份信息 (PII) 清洗方案在敏感人工智能工作流程中的不足。传统的删除方法,例如将姓名替换为“[PERSON]”,可能会通过删除关键上下文信息来降低翻译质量。 该工具提供了一种**本地优先、可逆的方法**,使用类似于 XML 的标签和唯一的 ID 来标记 PII (``)。本地存储的加密 `PIIMap` 将这些 ID 链接到原始数据,从而在翻译后实现恢复。 该系统采用**混合检测引擎**,结合正则表达式用于结构化数据(如信用卡号码)和量化的 `xlm-roberta` 模型用于“软”PII(姓名、地点)。“幻觉防护”使用模糊匹配来纠正 LLM 引起的 XML 标签更改。目前,开发人员正在致力于“语义遮蔽”以保留性别等上下文信息。 该项目采用 MIT 许可,旨在解决隐私保护 NLP 中上下文丢失的问题,并可能扩展到其他 LLM 应用程序。用户正在讨论其在 ChatGPT 输入清洗和数据库匿名化方面的潜力。
相关文章

原文
联系我们 contact @ memedata.com