SEO
Robots.txt 与 noindex 上线前 QA 检查清单
上线前用这份清单检查 robots.txt 与 noindex,避免测试页、筛选页、站内搜索、重复 URL 和已下线页面错误进入搜索或误挡重要页面。

实操工具
抓取控制 QA
发布日期
2026年6月8日
阅读时间
10 分钟阅读
主题
技术 SEO / Shopify / WordPress / Headless / QA / 实操
SEO
上线前用这份清单检查 robots.txt 与 noindex,避免测试页、筛选页、站内搜索、重复 URL 和已下线页面错误进入搜索或误挡重要页面。

实操工具
抓取控制 QA
发布日期
2026年6月8日
阅读时间
10 分钟阅读
主题
技术 SEO / Shopify / WordPress / Headless / QA / 实操
01
Robots.txt 和 noindex 错误是很安静的上线风险。一行规则可以让测试站不被搜索收录,也可以保护私密 URL,但同样可能误挡本该被索引的产品页、服务页和文章页。真正麻烦的是,抓取控制规则通常分散在多个系统里。
这份清单适合 Shopify 店铺、WordPress 网站、Headless 架构和网站改版上线。只要 URL 结构、筛选、预览环境或旧页面会变化,就应该在上线前跑一遍;SEO 插件、主题、middleware、CDN 规则或 CMS 模板改变索引行为时,也要重新检查。
02
先列出所有会告诉搜索引擎该抓取什么、该索引什么的位置。不要只看可见的 robots.txt 文件。索引行为可能来自页面模板、SEO 插件、HTTP headers、路由处理、CDN 规则、应用扩展、密码保护和 CMS 字段。
每个控制位置都建一行记录。写清负责人、规则配置位置、影响的 URL pattern、部署方式,以及团队如何回滚。如果一个规则没有负责人,就把它当成上线风险。
03
改规则前,先按意图给 URL 分组。一次改版通常会有应该被索引的产品页或服务页、能访问但不该排名的工具页、应该 canonical 的重复状态,以及应该重定向或返回明确状态码的旧 URL。
有用的产出是一张简单决策表。每组 URL 都应该只有一个主规则:index、noindex、disallow、redirect、canonicalize、404 或 410。如果一组 URL 需要两个规则,要写清哪个规则优先,以及怎么测试。
04
大多数抓取控制问题来自没人记得的默认设置。Shopify、WordPress 和 Headless 栈都有不同位置可能输出 robots 或 noindex。先检查默认行为,再只在默认规则不够时添加自定义规则。
每个平台至少测试一个正式页面、一个草稿或预览页面、一个搜索或筛选页面、一个媒体或文件 URL,以及一个旧 URL。这个样本通常能看出规则到底来自平台、主题、插件、middleware 还是托管层。
05
Robots.txt、noindex 和 canonical 不是同一种工具。一个被 robots.txt disallow 的页面可能无法被抓取,所以搜索引擎可能看不到它的 noindex。一个 noindex 页面如果还在 sitemap 里,会发出冲突信号。canonical 目标如果重定向或 noindex,也会破坏信号归并路径。
上线前做一张小型交互矩阵。每个高风险 URL pattern 都记录 robots.txt 结果、状态码、meta robots、X-Robots-Tag header、canonical 目标、sitemap 是否包含,以及预期搜索表现。
06
在 staging 和 production 使用同一组 QA 样本,差异才容易发现。每个重要分组选 10 到 20 个优先 URL:首页、服务或产品页、分类页、博客文章、站内搜索、筛选 URL、本地化路径、媒体文件、旧重定向 URL,以及一个故意删除的 URL。
样本里要有干净 URL,也要有麻烦 URL。加入一个带参数的 URL、一个旧站曾经出现过的大写 URL、一个 trailing-slash 变体、一个分页或筛选 URL、一个预览 URL,以及一个来自 Analytics 或 Search Console 的历史 URL。
07
不要只相信 CMS 预览或页面源码。JavaScript、Server Components、插件、middleware 和 CDN 规则,都可能改变爬虫最终收到的内容。优先模板要同时测试最终 HTTP 响应和渲染后的 DOM。
对于文件和非 HTML route,要直接检查 headers。PDF、图片、Feed、JSON endpoint 和生成的 XML 文件,可能带有页面源码里永远看不到的 X-Robots-Tag。改版如果发布受限文件、下载资料、商品 Feed 或历史资源,这一点尤其重要。
08
抓取控制变化应该像一次发布,而不是一次设置调整。上线前保存当前 robots.txt、sitemap 输出、关键模板 metadata、SEO 插件规则、middleware 规则和 CDN 规则。然后明确谁可以确认最终 production 抓取行为。
回滚不一定意味着回退整个网站。有时最安全的修复是恢复 robots.txt、移除某个 noindex 字段、禁用一条 CDN header 规则、重新生成 sitemap,或回退单个 metadata 组件。
09
前 24 到 48 小时先看明显错误:robots.txt 是否可访问、sitemap 是否能抓取、首页和优先模板是否可索引、redirect 状态是否正确,以及 staging 是否意外暴露。之后继续看 Search Console 覆盖率、抓取统计、已索引页面、404、excluded by noindex 报告,以及可用的服务器日志。
监控窗口至少保留 14 天。搜索引擎不会立刻重新访问所有 URL,延迟的 cache、sitemap 或 redirect 问题,可能要等第一轮抓取后才出现。每个问题都记录 URL、规则来源、预期行为、实际行为、负责人和预防说明。
10
URL 分组表:分组名称、示例 URL、预期搜索表现、robots.txt 规则、meta robots 规则、X-Robots-Tag 规则、canonical 规则、sitemap 规则、负责人和回滚路径。
优先 URL 测试表:URL、状态码、robots.txt 结果、meta robots、header robots、canonical 目标、是否在 sitemap、hreflang 目标、渲染标题和通过状态。
上线日志:变更规则、环境、部署时间、cache 清理时间、验证人、影响 URL 数量、回滚触发条件和上线后监控日期。
实操 / 9 分钟阅读
用这份 URL 参数 SEO 检查清单,在上线前测试筛选、排序、追踪链接、canonical、noindex、重定向、数据统计和多语言边界情况。
实操 / 10 分钟阅读
用这份 canonical URL QA 清单,在上线或改版前检查重复模板、URL 参数、重定向、分页、hreflang、站点地图和渲染后的 HTML。
实操 / 10 分钟阅读
JavaScript 框架会把抓取、渲染、元数据、内链和站点地图问题藏到上线前。上线 Next.js、Headless 或 React 网站前,用这份清单做技术 SEO QA。
实操 / 10 分钟阅读
重定向表不是 SEO 形式主义。它是在改版中保护重要页面、外链、活动 URL 和搜索可见度的执行文件。
改版 / 10 分钟阅读
改版可以改善定位和体验,但如果重定向、metadata、分析追踪和内容归属都留到最后一周,迁移风险会被放大。
当前可接项目 2026 年第 2 季度
开始一个项目
项目沟通
正式方案和 pitch 工作会以付费探索形式确认范围。
开始项目