robots.txt文件

  robots 文件(全称 robots.txt)是放置在 网站根目录 下的纯文本文件,遵循 “Robots 排除协议”(网络爬虫排除标准),本质是网站向搜索引擎爬虫(如百度蜘蛛、Googlebot)发送的 “导航指令”—— 告诉爬虫哪些页面可以抓取、哪些页面禁止访问,避免无效抓取或敏感信息泄露。

  简单类比:如果网站是一座大楼,robots.txt 就是门口的 “指示牌”,明确告知 “访客(爬虫)” 哪些楼层(目录)可参观、哪些房间(页面)谢绝入内。但需注意,它不是 “防火墙”,无法阻止恶意爬虫或黑客访问,仅对遵守协议的正规搜索引擎有效。

  robots.txt的作用

  robots.txt的作用就是给你的网站做一个权限清单,一般是针对做SEO优化的。在这个文件里面写上哪些文件、哪些形式的链接允许搜索引擎抓取,哪些不允许。

  1,控制爬虫抓取范围:避免爬虫抓取无价值页面(如重复内容、测试页面),节省服务器带宽和资源,让爬虫集中抓取核心内容(如产品页、文章页),提升 SEO 效率。

  2,保护敏感信息:禁止抓取后台管理页面(如 /admin 目录)、用户隐私页面、未公开的内部文档,防止信息泄露。

  3,管理媒体与资源文件:可阻止图片、视频、PDF 等文件被搜索引擎收录,避免版权纠纷或内容滥用。

  4,引导爬虫发现内容:通过关联站点地图(Sitemap),告知爬虫网站的核心页面位置,帮助其更全面地抓取有效内容。

  robots.txt存放位置

  你的网站还没有调整好的时候,不想让搜索引擎收录,可以通过这个文件屏蔽搜索引擎。就像QQ你隐身了别人就看不到你。

  这个文件的名字就是robots.txt,是固定的,不管哪个网站要放这个都是这个名字。一般我们会把robots.txt放到网站的根目录下或FTP根目录下。