看起来 OpenAI 正在抓取[证书透明度]日志。
It seems that OpenAI is scraping [certificate transparency] logs

原始链接: https://benjojo.co.uk/u/benjojo/h/Gxy2qrCkn1Y327Y6D3

2025年12月,benjojo观察到OpenAI的搜索引擎在新的TLS证书为其域名颁发后,迅速抓取证书透明度(CT)日志。这表明OpenAI正在使用CT日志来发现和索引网站,从而有效地“播种”其搜索引擎。 讨论随后转向了CT日志的隐私影响,这些日志公开记录证书颁发情况。Wolf480pl提出了一种使用nonce来混淆日志中域名信息的方案,但benjojo反驳说,修改日志会损害其核心安全功能——允许独立验证证书颁发机构。 对话承认域名枚举是CT日志固有的,虽然可能不受欢迎,但这是安全的一种权衡。Benjojo建议使用通配符证书作为一种解决方法,引发了关于DNSSEC和NSEC3效用的进一步讨论。最终,这次交流凸显了网络基础设施中透明度、安全性和隐私之间的紧张关系。其他人也指出,通过监控Web服务器日志来获取这项活动的信息,是一项有趣的发现。

一个 Hacker News 的讨论显示,OpenAI 正在积极监控证书透明度 (CT) 日志——网站证书的公开记录,很可能用于网络抓取。这种做法并不罕见,许多组织,从谷歌等大型公司到恶意行为者,都会利用 CT 日志来发现新网站。 一些评论员认为这种活动很常见,但也有人指出其潜在的欺骗性,因为抓取器经常模仿搜索引擎的“用户代理”(如 Googlebot)来避免检测。然而,有用户确认观察到的活动来自 OpenAI 公布的 IP 地址范围。 普遍的看法倾向于这是一种用于 AI 模型训练的标准数据收集技术,因为 CT 日志易于获取且内容全面。有人推测 OpenAI 的商业模式*依赖*于大量的抓取。人们对潜在的滥用表示担忧,但最终,讨论将其定性为一种合法但略显伦理模糊的做法。
相关文章

原文

benjojo posted 12 Dec 2025 20:46 +0000

lol.

I minted a new TLS cert and it seems that OpenAI is scraping CT logs for what I assume are things to scrape from, based on the near instant response from this:

Dec 12 20:43:04 xxxx xxx[719]: 
l=debug 
m="http request" 
pkg=http 
httpaccess= 
handler=(nomatch) 
method=get 
url=/robots.txt 
host=autoconfig.benjojo.uk 
duration="162.176µs" 
statuscode=404 
proto=http/2.0 
remoteaddr=74.7.175.182:38242 
tlsinfo=tls1.3 
useragent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; robots.txt; +https://openai.com/searchbot" 
referrr= 
size=19 
cid=19b14416d95

[email protected] replied 13 Dec 2025 15:55 +0000
in reply to: https://benjojo.co.uk/u/benjojo/h/lPLWBh3YCbFJBH4Dt6

@benjojo
oh, duh I need to be able to find who's issuing carts for my domain

and I'm guessing some people look at all certs issued by CAs and verify certain criteria that may require knowing the domains...

it's kinda sad that it provides domain enumeration, but I guess putting addng zero-knowledge proofs to the mix would've been too complex

联系我们 contact @ memedata.com