配置选项

网站信息

填写网站地图地址,帮助搜索引擎更好地发现页面

允许的爬虫

通用设置

设置爬虫访问间隔,0-300秒,数值越大请求频率越低

访问规则

💡 常用路径规则

  • /admin/ - 禁止访问管理后台
  • /private/ - 禁止访问私有目录
  • /api/ - 禁止访问 API 接口
  • *.php$ - 禁止访问所有 PHP 文件
  • /wp-admin/ - 禁止访问 WordPress 管理
  • /checkout/ - 禁止访问结账页面

预览结果

🔍 URL 抓取测试

输入完整 URL,系统将根据当前规则判断是否允许抓取

Robots.txt 常见问题解答

什么是 robots.txt 文件?

robots.txt 是位于网站根目录的文本文件,用于指示搜索引擎爬虫哪些页面可以访问、哪些页面应该忽略。它是网站与搜索引擎之间的通信协议,遵循 Robots Exclusion Protocol 标准。通过正确配置 robots.txt,您可以控制搜索引擎对网站内容的抓取,提升 SEO 效果。

robots.txt 应该放在哪里?

robots.txt 文件必须放在网站的根目录下,文件名为小写。例如:https://robots.chuangxiangniao.com/robots.txt。放在其他目录(如 /blog/robots.txt)将不会生效,因为搜索引擎只会读取根目录的 robots.txt。

Disallow 和 Allow 的区别是什么?

Disallow 用于告诉爬虫不要访问指定路径,Allow 用于明确允许访问某个路径。当两者冲突时,大多数搜索引擎会遵循更具体的规则。例如:

Disallow: /private/ - 禁止访问 /private/ 目录下的所有页面

Allow: /private/public.html - 但允许访问 public.html

如何测试 robots.txt 是否生效?

可以使用各大搜索引擎提供的官方工具测试:

  • Google:Search Console → 旧版 Search Console → 抓取 → robots.txt 测试器
  • 百度:百度站长平台 → 抓取诊断工具
  • 360搜索:360站长平台 → 抓取测试
什么是 Sitemap?为什么重要?

Sitemap(网站地图)是列出网站所有重要页面的 XML 文件,帮助搜索引擎更全面地发现和索引您的网站内容。在 robots.txt 中声明 Sitemap 位置(如 Sitemap: https://example.com/sitemap.xml)可以加速搜索引擎对网站的抓取。

Crawl-delay 是什么意思?

Crawl-delay 指定爬虫访问您网站的时间间隔(秒)。例如设置为 Crawl-delay: 10 表示爬虫每秒最多访问一次。这有助于减轻服务器负载,但请注意:Google 不支持此指令,Bing 和百度部分支持。

通配符 * 和 $ 怎么使用?

*(星号)匹配任意字符序列,$(美元符)表示 URL 结尾。例如:

Disallow: /*.php$ - 禁止访问所有以 .php 结尾的 URL

Disallow: /temp/* - 禁止访问 /temp/ 目录下的所有内容