Cloudflare 抓取端点
Cloudflare crawl endpoint

原始链接: https://developers.cloudflare.com/changelog/post/2026-03-10-br-crawl-endpoint/

``` curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \ -H 'Authorization: Bearer <apiToken>' \ -H 'Content-Type: application/json' \ "url": "https://blog.cloudflare.com/" curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \ -H 'Authorization: Bearer <apiToken>' ``` ``` curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \ -H 'Authorization: Bearer <apiToken>' \ -H 'Content-Type: application/json' \ "url": "https://blog.cloudflare.com/" curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \ -H 'Authorization: Bearer <apiToken>' ```

## Cloudflare 爬取端点:摘要 Cloudflare 最近宣布了一个新的“爬取端点”,允许自动化系统访问网站内容。此功能使爬取无需直接访问源服务器,而是利用 Cloudflare 现有的缓存内容。讨论的重点在于,Cloudflare 已经缓存内容,为什么之前没有提供这个功能,以及提供这个功能的影响。 主要讨论点包括为预爬取数据所需的增加的缓存占用,以及 CDN 对高效缓存管理的重要性。 也有人担心潜在的利益冲突——Cloudflare 同时销售反爬虫工具*和*爬虫服务。 该端点遵守 `robots.txt` 指令,旨在实现“行为良好”的爬取。 然而,关于这是否足够,存在争议,因为许多网站即使对于合规的机器人也会主动阻止。 该功能适用于免费和付费 Worker 计划,可能为数据提取提供一种经济高效的解决方案,但也引发了关于中心化和小型参与者访问权限的问题。 最终,它简化了某些用例的爬取,但并未消除爬取动态或受保护内容的复杂性。
相关文章

原文

curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \

-H 'Authorization: Bearer <apiToken>' \

-H 'Content-Type: application/json' \

"url": "https://blog.cloudflare.com/"

curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \

-H 'Authorization: Bearer <apiToken>'

联系我们 contact @ memedata.com