robots文件怎么写?robots文件写法

  robots.txt 语法简洁,核心由 “用户代理(User-agent)” 和 “访问规则(Disallow/Allow)” 构成,支持通配符扩展,无需专业技术即可编写:

  1. robots文件语法规则

  (1)User-agent:指定规则适用的搜索引擎爬虫,* 代表所有爬虫,也可指定具体爬虫(如百度蜘蛛 Baiduspider、谷歌爬虫 Googlebot)。

  示例:User-agent: Baiduspider(仅对百度爬虫生效)

  (2)Disallow:禁止抓取的目录或页面,以 / 开头表示根目录。

  示例:Disallow: /admin/(禁止抓取 /admin 目录下所有内容)、Disallow: /test.html(禁止抓取单个页面)

  Allow:允许抓取的目录或页面,用于在 “禁止整体” 中例外放行部分内容(部分搜索引擎支持)。

  示例:Disallow: /seo/ + Allow: /seo/50/(禁止抓取 /seo/ 目录,但放行 /seo/50 / 子目录)

  2. robots文件通配符用法(进阶扩展)

  (1)*:匹配任意字符(0 个或多个),用于批量匹配规则。

  示例:Disallow: /*.pdf(禁止抓取所有 PDF 文件)

  (2)$:匹配 URL 结尾,用于精准匹配特定后缀或页面。

  示例:Allow: *.htm$(仅允许抓取.htm 后缀的文件,不含.html)。

  3. robots文件关联站点地图(Sitemap)

  通过Sitemap指令告知爬虫站点地图的位置,帮助其快速发现所有核心页面,格式为完整 URL:

  示例:Sitemap: https://example.com/sitemap.xml。

User-agent: *  # 对所有搜索引擎生效
Disallow: /admin/  # 禁止抓取后台目录
Disallow: /private/  # 禁止抓取隐私目录
Disallow: /*.pdf  # 禁止抓取所有PDF文件
Allow: /admin/public/  # 例外放行admin目录下的public子目录
Sitemap: https://example.com/sitemap.xml  # 关联站点地图