支持哪些搜索引擎爬虫？

本工具支持 Google、Bing、百度、360搜索、字节跳动、Yandex、DuckDuckGo、搜狗等主流搜索引擎的爬虫配置。

Robots.txt 在线生成器 - 免费在线生成robots.txt

配置选项

网站信息

网站地图 URL (Sitemap) 填写网站地图地址，帮助搜索引擎更好地发现页面

允许的爬虫

通用设置

Crawl-delay (爬虫延迟，单位：秒) 设置爬虫访问间隔，0-300秒，数值越大请求频率越低

访问规则

💡 常用路径规则

/admin/ - 禁止访问管理后台
/private/ - 禁止访问私有目录
/api/ - 禁止访问 API 接口
*.php$ - 禁止访问所有 PHP 文件
/wp-admin/ - 禁止访问 WordPress 管理
/checkout/ - 禁止访问结账页面

预览结果

🔍 URL 抓取测试

输入完整 URL，系统将根据当前规则判断是否允许抓取

什么是 robots.txt 文件？

robots.txt 是位于网站根目录的文本文件，用于指示搜索引擎爬虫哪些页面可以访问、哪些页面应该忽略。它是网站与搜索引擎之间的通信协议，遵循 Robots Exclusion Protocol 标准。通过正确配置 robots.txt，您可以控制搜索引擎对网站内容的抓取，提升 SEO 效果。

robots.txt 应该放在哪里？

robots.txt 文件必须放在网站的根目录下，文件名为小写。例如：https://robots.chuangxiangniao.com/robots.txt。放在其他目录（如 /blog/robots.txt）将不会生效，因为搜索引擎只会读取根目录的 robots.txt。

Disallow 和 Allow 的区别是什么？

Disallow 用于告诉爬虫不要访问指定路径，Allow 用于明确允许访问某个路径。当两者冲突时，大多数搜索引擎会遵循更具体的规则。例如：

Disallow: /private/ - 禁止访问 /private/ 目录下的所有页面

Allow: /private/public.html - 但允许访问 public.html

如何测试 robots.txt 是否生效？

可以使用各大搜索引擎提供的官方工具测试：

Google：Search Console → 旧版 Search Console → 抓取 → robots.txt 测试器
百度：百度站长平台 → 抓取诊断工具
360搜索：360站长平台 → 抓取测试

什么是 Sitemap？为什么重要？

Sitemap（网站地图）是列出网站所有重要页面的 XML 文件，帮助搜索引擎更全面地发现和索引您的网站内容。在 robots.txt 中声明 Sitemap 位置（如 Sitemap: https://example.com/sitemap.xml）可以加速搜索引擎对网站的抓取。

Crawl-delay 是什么意思？

Crawl-delay 指定爬虫访问您网站的时间间隔（秒）。例如设置为 Crawl-delay: 10 表示爬虫每秒最多访问一次。这有助于减轻服务器负载，但请注意：Google 不支持此指令，Bing 和百度部分支持。

通配符 * 和 $ 怎么使用？

*（星号）匹配任意字符序列，$（美元符）表示 URL 结尾。例如：

Disallow: /*.php$ - 禁止访问所有以 .php 结尾的 URL

Disallow: /temp/* - 禁止访问 /temp/ 目录下的所有内容