
Hat
编者
💡 摘要 (Summary by DeepSeek-v4-Flash)
本文阐述了 BIRD 中文文档的 AI 爬取策略:采用 Content-Signal 规范,允许传统搜索和 AI 输入(RAG/Grounding),严禁将其用于 AI 训练,并依据 EU Directive 2019/790 Article 4 明确保留相关权利。
BIRD 中文文档是由社区志愿者无偿贡献、精心翻译的技术资料。我们希望这些内容:
本站采用由 Cloudflare 联合发起的 Content-Signal 规范 来声明爬取权限。Content-Signal 是核心权限表达,robots.txt 中的具体 User-Agent 条目用于兼容主流搜索、AI 搜索和已知高风险爬虫。
Content-Signal 将 AI 爬虫的使用场景定义为以下三种:
| 信号 | 本站策略 | 说明 |
|---|---|---|
search | yes ✅ | 允许构建搜索索引,提供超链接及简短摘要。注意:不包括生成 AI 搜索摘要。 |
ai-input | yes ✅ | 允许将内容作为输入传递给 AI 模型,用于 RAG、Grounding 等,以便实时为终端用户提供生成式答案。 |
ai-train | no 🚫 | 严禁用于训练或微调任何 AI 模型。 |
User-agent: *
Content-Signal: ai-train=no, search=yes, ai-input=yes
Allow: /完整规则请参阅:bird.xmsl.dev/robots.txt
本站对传统搜索和 AI 搜索保持开放,便于中文 BIRD 文档在搜索结果、RAG、Grounding 和生成式搜索答案中被准确引用;同时明确禁止训练用途。
Googlebot、Bingbot、GPTBot、ChatGPT-User、OAI-Searchbot、PerplexityBot、ClaudeBot、Claude-Web、Google-Extended、Applebot 等。Applebot-Extended、Bytespider、DataForSeoBot 等训练或高风险抓取入口。调整 public/robots.txt 时,应同步更新本文,确保面向人的策略说明与机器可读规则保持一致。
根据 《欧盟数字单一市场版权指令》 (EU Directive 2019/790 on Copyright and Related Rights in the Digital Single Market, Article 4),通过 Content-Signal 等机器可读方式表达的任何限制,均构成法律上对权利的明确保留(Express reservation of rights)。
robots.txt 和 Content-Signal 属于自愿遵守的行业协议,本身并不具备强制性的技术约束力。部分 Bot 仍可能通过伪装身份或忽略协议来绕过限制。
因此,本站保留通过技术手段(如 WAF、速率限制或爬虫特征拦截)对违反本策略的恶意爬取行为进行主动防御的权利。

编者
本文档最后更新时间: 2026-06-10
遵循协议: CC BY-NC-SA 4.0
译者: BIRD-Chinese Community
翻译时间: 2024-01-01
更新时间: 2026-06-10
本文链接: https://bird.xmsl.dev/pages/ai-policy.html