Cloudflare设限AI爬虫：2026年将拦截混合用途抓取

2026-07-03 05:45:42

AI爬虫分界线确立：混合用途抓取将被系统性拦截

Cloudflare为应对人工智能行业对网页内容的无差别采集问题，正式设定技术边界——自2026年9月15日起，所有同时执行搜索、代理及模型训练功能的混合型网络爬虫将被默认屏蔽，尤其针对访问广告投放页面的行为。

该策略适用于新注册客户、新创建站点以及所有现有免费套餐用户，除非网站管理者主动调整安全配置，否则其内容将无法被此类多用途机器人访问。这一举措标志着平台对内容分发权的重新定义。

过去互联网生态通过引导用户回源来激励原创内容生产，而当前主流AI模型直接整合网页信息生成答案，不再返回原始出处，导致出版方失去流量与广告收入。Cloudflare此举意在打破这种单向资源汲取模式。

尽管未直接点名，但政策矛头明显指向搜索引擎巨头。数据显示，谷歌每产生一次引荐，平均爬取同一网站14次；相比之下，OpenAI的比率高达1700:1，Anthropic则达到惊人的73000:1，凸显其对内容的高强度依赖。

对此，谷歌回应称其推出的Google-Extended工具允许网站所有者自主选择是否开放内容用于AI训练或Gemini产品，同时不影响搜索可见性。

一年前推出的按爬取次数收费模式正演进为更精细的按使用付费机制——仅当出版商内容真正被用作生成结果的一部分时，才触发报酬发放，从而避免无效采集带来的资源浪费。

Cloudflare研究发现，超过半数的AI爬取行为发生在页面未更新的情况下，既消耗带宽又浪费算力。新模型通过将收益与实际产出挂钩，提升数据利用效率。

该计划已扩展至Ceramic.ai和You.com等平台，支持出版商在内容被集成至AI响应、或被智能代理调用完成任务时获得分成。同时，全新“归因业务洞察”仪表板将提供详细分析，包括内容被引用位置、不同平台的流量转化率等。

此政策对依赖海量、无限制网页抓取构建训练数据的AI企业构成根本性冲击。网页访问将从隐性行为转为显性授权流程，要求引入权限验证、凭证管理或支付接口，显著推高数据获取的运营门槛与成本。

一分钟读懂：Cloudflare宣布自2026年9月起，将默认屏蔽混合用途爬虫，推动出版商与AI公司间内容收益机制变革。新政策强调按使用付费，重塑数据获取成本结构。