如何保密开发网站的分期进度?

如何保密开发网站的分期进度?通常不希望你的暂存网站出现在搜索结果中,那么如何防止Google将这些内容编入收录?

霜天遇到的最常见的技术搜收录擎优化问题之一是无意中收录的开发服务器、中转站点、生产服务器或任何其他名称使用。

造成这种情况的原因有很多,通常人们认为没有人会把这些领域与技术误解联系起来。

网站的这些部分通常是敏感的,搜收录擎的收录,暴露出计划的活动、商业或私人数据。

如何判断你的开发者服务器是否被收录

您可以使用Google搜索来确定您的网站是否被收录。

例如,要找到一个站点,您可以在Google上搜索site:domain.com,然后,查看结果或添加像-inurl:www这样的运算符,

您还可以使用第三方工具(如SimilarWeb或SEMrush)查找子域。

可能还有其他敏感领域包含登录门户网站或信息不公开的消费。除了各种Google搜索运营商(也被称为Google Dorking)之外,网站还倾向于在robots.txt文件中封锁这些区域,告诉您到哪里不该看的地方。告诉人们在哪里可以找到你不想让他们看到的信息会出什么问题?

您可以采取许多方法来阻止用户和搜收录擎关闭开发服务器和网站的其他敏感区域的访问。

1、较好的处理方法:HTTP认证

任何你想避开收录的东西都应该包括服务器端的认证。要求进行访问验证是隔离用户和搜收录擎的首选方法。

2、好的处理方法:IP白名单

仅允许已知的IP地址(例如属于您的网络,客户端等的IP地址)是保护您的网站并确保只有那些需要查看网站区域的用户才能看到的重要一步。

3、其次:robots.txt中的Noindex

robots.txt中的Noindex没有正式支持,但可能会从收录中删除页面。我用这种方法的问题是,它仍然告诉人们他们不应该看的地方,它可能不会永远工作或所有的搜收录擎。

我之所以说这是一个“可能”的原因是,它可以工作,实际上可以与robots.txt中的disallow结合,不像其他一些方法,如果你不允许爬行,文章。

4、再次:Noindex标签

元标记中的noindex标记或HTTP标头中的X-Robots-Tag可以帮助您将页面保留在搜索结果之外。

我看到的一个问题是,这意味着更多的页面被搜收录擎抓取,而这些抓取您的网站。我通常会在robots.txt文件中出现不允许的情况下看到此标签。如果您要求Google不要抓取该网页,则他们无法尊重noindex标记,因为他们看不到它。

另一个常见的问题是,这些标签可能会应用在中转站点上,然后在其上线时留在页面上,从而有效地从收录中删除该页面。

5、Canonical

如果你的登台服务器上有一个指向你的主站的规范集,那么基本上所有的信号都应该被正确的整理。内容可能会有不匹配,可能会导致一些问题,并且与noindex标签一样,Google将不得不爬取额外的页面。网站管理员也倾向于在robots.txt文件中添加一个不允许的内容,因此Google再次无法抓取该网页,因为无法看到该网页而无法尊重规范。

当从生产服务器迁移到现场时,您也可能会冒这些标签不变,这可能会导致您不希望显示的标准版本成为规范版本。

6、不推荐:什么都不做

没有做任何事情,不阻止分期网站的收录,通常是因为有人认为,没有人会访问到这个页面,所以没有必要做任何事情,但霜天觉得这样并不友好,谷歌收录可以在24小时内收录。建议大家一次性到位。

7、不推荐:在robots.txt中不允许

这可能是人们尝试保持暂存站点被收录的最常见方式。通过robots.txt中的disallow指令,您可以告诉搜收录擎不要抓取页面 - 但这不会阻止页面收录。他们知道在该位置存在一个页面,并且仍然将其显示在搜索结果中,即使不知道到底是什么。他们从链接提示,例如,页面上的信息类型。

当Google为阻止抓取的网页编入收录时,通常会在搜索结果中看到以下消息:“由于此网站的robots.txt,此结果的说明不可用。

如果您回想一下,这个指令还会阻止Google看到页面上的其他标签,比如noindex和canonical标签,因为它阻止了他们在页面上看到任何东西。您也可能会冒险不记得在网站直播时不允许这样做,这样可以防止在发布时抓取。

如果你有什么东西被收录,怎么办?

根据网址的重要性,爬网可能会花费一些时间(可能在暂存网站的情况下可能较低)。重新抓取网址可能需要几个月的时间,所以任何阻止或问题可能不会被处理一段时间。

如果您获得了不应该被收录的内容,那么最好的做法是在Google Search Console中提交网址删除请求。这应该删除它大约90天,给你时间采取纠正措施。

点赞

发表评论