配置选项
网站信息
允许的爬虫
通用设置
访问规则
💡 常用路径规则
/admin/- 禁止访问管理后台/private/- 禁止访问私有目录/api/- 禁止访问 API 接口*.php$- 禁止访问所有 PHP 文件/wp-admin/- 禁止访问 WordPress 管理/checkout/- 禁止访问结账页面
预览结果
🔍 URL 抓取测试
Robots.txt 常见问题解答
什么是 robots.txt 文件?
robots.txt 是位于网站根目录的文本文件,用于指示搜索引擎爬虫哪些页面可以访问、哪些页面应该忽略。它是网站与搜索引擎之间的通信协议,遵循 Robots Exclusion Protocol 标准。通过正确配置 robots.txt,您可以控制搜索引擎对网站内容的抓取,提升 SEO 效果。
robots.txt 应该放在哪里?
robots.txt 文件必须放在网站的根目录下,文件名为小写。例如:https://robots.chuangxiangniao.com/robots.txt。放在其他目录(如 /blog/robots.txt)将不会生效,因为搜索引擎只会读取根目录的 robots.txt。
Disallow 和 Allow 的区别是什么?
Disallow 用于告诉爬虫不要访问指定路径,Allow 用于明确允许访问某个路径。当两者冲突时,大多数搜索引擎会遵循更具体的规则。例如:
Disallow: /private/ - 禁止访问 /private/ 目录下的所有页面
Allow: /private/public.html - 但允许访问 public.html
如何测试 robots.txt 是否生效?
可以使用各大搜索引擎提供的官方工具测试:
- Google:Search Console → 旧版 Search Console → 抓取 → robots.txt 测试器
- 百度:百度站长平台 → 抓取诊断工具
- 360搜索:360站长平台 → 抓取测试
什么是 Sitemap?为什么重要?
Sitemap(网站地图)是列出网站所有重要页面的 XML 文件,帮助搜索引擎更全面地发现和索引您的网站内容。在 robots.txt 中声明 Sitemap 位置(如 Sitemap: https://example.com/sitemap.xml)可以加速搜索引擎对网站的抓取。
Crawl-delay 是什么意思?
Crawl-delay 指定爬虫访问您网站的时间间隔(秒)。例如设置为 Crawl-delay: 10 表示爬虫每秒最多访问一次。这有助于减轻服务器负载,但请注意:Google 不支持此指令,Bing 和百度部分支持。
通配符 * 和 $ 怎么使用?
*(星号)匹配任意字符序列,$(美元符)表示 URL 结尾。例如:
Disallow: /*.php$ - 禁止访问所有以 .php 结尾的 URL
Disallow: /temp/* - 禁止访问 /temp/ 目录下的所有内容