## 构建一个用于并行计算的微型PC集群:摘要
该项目详细介绍了使用二手联想Tiny PC运行Ubuntu Server构建小型并行计算集群的过程。目标是学习如何将计算密集型R模拟,特别是目标最大似然估计(TMLE),分配到多台机器上,以减少与单台笔记本电脑或云解决方案相比的运行时间。
设置包括安装Ubuntu、配置无密码SSH以实现节点之间无缝通信,以及通过SSH自动化软件包安装。然后将R脚本分发到每个节点以利用多核处理。使用不同的交叉验证折叠(CV5与CV10)和各种SuperLearner模型比较了性能。
结果表明,与单机处理相比,集群的性能有了显著提高。增加CV折叠可以减少偏差,但略微增加方差。调整后的xgboost与glmnet结合,在偏差、方差和覆盖率之间表现出最佳平衡。
该项目强调了进一步开发的机遇,包括创建可重用的集群管理软件包、添加进度监控和ETA估计,以及探索openMPI以进行更高级的并行化。关键经验教训包括有效使用`sprintf`进行系统命令,以及在`future_lapply`中设置种子以获得可重复性的好处。
## OpenAI平台漏洞:通过API日志泄露数据
OpenAI平台存在一个关键漏洞,使用“responses”和“conversations”API构建的应用程序和代理容易发生数据泄露。这源于API日志中不安全的Markdown渲染——即使应用程序本身阻止了恶意Markdown图片。
攻击链涉及将恶意提示注入到AI应用程序使用的数据源中(例如KYC工具)。这会操纵AI生成一个包含敏感用户数据的URL的Markdown图片。虽然应用程序*可能*会阻止渲染此图片,但漏洞在于OpenAI平台的API日志查看器。当开发者在日志中查看标记的对话时,Markdown会被渲染,从而触发对攻击者服务器的请求并泄露被盗数据。
这不仅影响直接使用这些API构建的应用程序,还影响OpenAI的开发工具,如Agent Builder、Assistant Builder、ChatKit,以及可能将OpenAI列为子处理者的任何供应商。尽管通过BugCrowd向OpenAI进行了负责任的披露,但报告被关闭为“不适用”,促使公开发布以告知用户和开发者采取预防措施。