Cloudflare 抓取端点

Cloudflare 抓取端点
Cloudflare crawl endpoint

原始链接: https://developers.cloudflare.com/changelog/post/2026-03-10-br-crawl-endpoint/

``` curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \ -H 'Authorization: Bearer <apiToken>' \ -H 'Content-Type: application/json' \ "url": "https://blog.cloudflare.com/" curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \ -H 'Authorization: Bearer <apiToken>' ``` ``` curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \ -H 'Authorization: Bearer <apiToken>' \ -H 'Content-Type: application/json' \ "url": "https://blog.cloudflare.com/" curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \ -H 'Authorization: Bearer <apiToken>' ```

## Cloudflare 爬取端点：摘要 Cloudflare 最近宣布了一个新的“爬取端点”，允许自动化系统访问网站内容。此功能使爬取无需直接访问源服务器，而是利用 Cloudflare 现有的缓存内容。讨论的重点在于，Cloudflare 已经缓存内容，为什么之前没有提供这个功能，以及提供这个功能的影响。主要讨论点包括为预爬取数据所需的增加的缓存占用，以及 CDN 对高效缓存管理的重要性。也有人担心潜在的利益冲突——Cloudflare 同时销售反爬虫工具*和*爬虫服务。该端点遵守 `robots.txt` 指令，旨在实现“行为良好”的爬取。然而，关于这是否足够，存在争议，因为许多网站即使对于合规的机器人也会主动阻止。该功能适用于免费和付费 Worker 计划，可能为数据提取提供一种经济高效的解决方案，但也引发了关于中心化和小型参与者访问权限的问题。最终，它简化了某些用例的爬取，但并未消除爬取动态或受保护内容的复杂性。

curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \
  -H 'Authorization: Bearer <apiToken>' \
  -H 'Content-Type: application/json' \
    "url": "https://blog.cloudflare.com/"
curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \
  -H 'Authorization: Bearer <apiToken>'

Cloudflare 抓取端点 Cloudflare crawl endpoint

Cloudflare 抓取端点
Cloudflare crawl endpoint