如何在Weebly中编辑Robots.txt文件
Robots.txt 包含是指示搜索引擎爬虫抓取哪些内容以及哪些内容不包含在您的网站中的标准方式。 您可以直接访问 robots.txt 文件并从管理员部分编辑或控制您网站的搜索引擎可见性。 Weebly 是一个免费的托管平台,不允许用户访问服务器上的文件。 因此,唯一可用的选项是从站点编辑器管理设置。 如果您想知道如何从 Weebly 站点编辑器编辑 robots.txt文件,请参阅以下说明。
推荐:如何在Weebly中添加H1-H6标题标签
你可以用 Robots.txt 做什么?
Google 和 Bing 等搜索引擎使用网络爬虫或机器人来查找和索引您网站中的内容。 这些漫游器将首先检查站点服务器根目录中名为 robots.txt 的文件,并获取将任何页面或部分排除在抓取之外的说明。 Weebly编辑robots.txt文件中包含 XML 站点地图位置,以帮助搜索引擎轻松找到您的站点地图文件。 您可以在 robots.txt 文件中从您的 Weebly 站点中排除以下内容:
- Weebly 默认排除一些机器人和目录
- 您可以排除单个页面、博客或整个站点
通过 robots.txt 文件阻止页面将立即从搜索引擎中删除它们。 如果您取消阻止相同的页面,搜索引擎需要更长的时间来重新索引它们。 由于这个原因,您可能会失去排名和流量。 因此,请确保在执行此任务之前阻止正确的页面并了解风险。
默认 Weebly Robots.txt 文件
每当您点击“发布”按钮时,Weebly 都会自动为您的网站生成 robots.txt 文件。 这是您在 Weebly 代码编辑器中看不到的动态文件,您可以在其中找到源模板和其他资产。 但是,您可以通过将 robots.txt 后缀添加到您的站点地址来在浏览器上查看该文件。 以下是 Weebly robots.txt 文件 URL 的示例:
Robots.txt 文件 | 领域 |
---|---|
https://www.yoursite.com/robots.txt | 自定义域 |
https://yourfreesite.weebly.com/robots.txt | 非常免费的网站 |
默认情况下,Weebly robots.txt 文件包含为所有 Weebly 站点插入的以下条目。
- XML 站点地图 URL
- 禁止 NerdyBot 访问网站上的所有内容
- 阻止所有机器人访问 /阿贾克斯/ 和 /应用/ 您网站上的目录
除了 NerdyBot crawler 和 ajax/apps 文件夹之外,您站点中的所有其他内容都可以用于爬取索引。
请注意,user-agent 是一个用于识别特定爬虫的字符串。 例如,Googlebot 和 Bingbot 分别是 Google 和 Bing 搜索引擎的用户代理。 使用 * 作为用户代理表示规则适用于所有用户代理。 该规则应提及禁止或允许所有内容(由 / 表示)、特定文件夹或特定页面。 您应该为要添加指令的每个用户代理添加单独的行,并将该用户代理的所有规则组合在一个块中。 但是,Weebly 将用户代理的禁止条目添加为 *,并且无法阻止特定用户代理的页面或站点。 您可以查看我们的单独文章以了解有关 robots.txt 文件的更多信息。
现在,您知道 robots.txt 文件在哪里以及它是如何工作的。 让我们解释如何在您的 Weebly编辑robots.txt文件中为特定页面和博客添加排除条目。
在 Robots.txt 文件中排除整个站点
如果您希望将整个网站从搜索引擎中排除,请按照以下说明进行操作。
- 转到 Weebly 站点编辑器中的“设置”部分。
- 导航到“SEO”设置并向下滚动到底部。
- 找到并启用“从搜索引擎中隐藏网站”选项。
- 单击“保存”按钮以保存您的更改。
- 确保单击“发布”按钮,以便将更改应用于您的实时站点。
现在,打开您的 robots.txt 文件并检查文件中发生的情况。 Weebly 将删除所有默认条目并禁止所有用户代理使用整个站点内容。
请注意,如果您想让您的网站在没有公共访问权限的情况下离线,请转到“常规”部分。 向下滚动到底部并取消发布您的网站。
推荐:WordPress LMS插件LifterLMS插件All Addons
禁止 Robots.txt 文件中的页面
如果您不希望搜索引擎为您网站的特定页面编制索引,请按照以下说明进行操作。
- 转到 Weebly 站点编辑器中的“页面”部分。
- 通过将其添加到 robots.txt 文件中来选择要隐藏的页面。
- 向下滚动到 SEO 设置面板的底部,然后选中“从搜索引擎中隐藏此页面”选项。
- 发布您的网站以使更改生效。
现在,检查您的 robots.txt 文件。 您将看到该页面被排除规则禁止,并添加到所有用户代理的现有规则集中。
在排除单个页面或博客部分之前,请确保您已禁用“从搜索引擎中隐藏网站”选项,如上所述。 当您的整个网站已经隐藏时,隐藏页面是没有意义的。 因此,首先让您的网站对搜索引擎可见,然后隐藏单个页面或帖子。
请注意,您还可以通过设置访问密码或仅允许成员访问来隐藏特定页面。 您可以通过在“页面”部分下选择一个页面来使用“可见性”设置来执行此操作。
禁止在 Robots.txt 文件中发布博客文章
不幸的是,Weebly 不允许阻止单个博客文章。 您可以做的是禁止整个博客页面,类似于隐藏标准页面,如上所述。 但是,这将阻止整个“博客”目录,从而阻止您网站中的所有博客文章。 当您发布的帖子数量较多时,这将产生很大的影响。
- 当您在 Weebly 站点编辑器中时,转到“页面”部分并单击“博客”页面。 确保选择您的博客页面,因为名称可以是您在创建 Weebly 博客时提供的任何名称。
- 转到“SEO 设置”部分并选择“从搜索引擎中隐藏此页面”选项。
- 发布您的网站并在单独的浏览器窗口中检查 robots.txt 文件。
与禁止单页不同,您可以在文件中看到所有与博客相关的页面都被阻止。
以下是 Weebly robots.txt 文件中所有被阻止博客项目的详细信息:
被阻止的页面/部分 | 完整的网址 | 细节 |
---|---|---|
/blog.html | https://yoursite.com/blog.html | 这是显示所有帖子的博客页面。 但是,此页面将被重定向到 Weebly 中的 yoursite.com/blog 页面。 |
/1/ | https://yoursite.com/1/feed | 这是您的博客提要 URL。 |
/博客/ | https://yoursite.com/blog/ https://yoursite.com/blog/first-post https://yoursite.com/blog/last-post | 这将禁止所有通常出现在之后的博客文章 /博客/ URL 中的一部分。 如果您打开 yoursite.com/blog/ 页面,它将被重定向到 yoursite.com/blog。 |
/博客 | https://yoursite.com/blog | 这是您在打开博客页面时将在浏览器中看到的实际博客页面。 |
当您的站点上有多个博客时,您将在 robots.txt 文件中看到所有博客页面的相应条目。 对于第二个博客,提要 URL 将更改为 /2/,依此类推。
编辑 Weebly Robots.txt 文件的限制
尽管在 Weebly 中阻止整个站点和单个页面很容易,但您将受到很多限制。
- 默认情况下,所有用户代理都将被阻止,并且没有选项可以仅阻止特定机器人。
- 您不能阻止单个博客帖子,并且出于此目的阻止整个博客将是一个坏主意。
- robots.txt 文件无法阻止 Weebly 商店页面,例如您的产品和类别页面。 但是,Weebly 会阻止所有上传的商店文件和内容公开访问它们。
禁止 robots.txt 文件中的页面也会从您的 XML 站点地图中删除该页面。 但是,如果它是从其他页面链接的,搜索引擎仍然可以找到被阻止的页面。 最好的例子是使用 Weebly 搜索框,它会显示结果,包括您被阻止的页面。