Russia Data Set

Posted: **Sun Jan 26, 2025 4:53 am**

我查看了前 20 个排名位置中的桌面和移动设备以及每个有机类别，从 39,791 个唯一子域的 142,964 个唯一 URL 中获得了 341,553 个排名位置。然后我检查了每个子域的 robots.txt 是否允许我抓取我的主页（给定 8 个不同的用户代理）：人類人工智能 Applebot 扩展咬蜘蛛 ccbot 谷歌扩展 GPT 机器人 PerplexityBot 谷歌机器人特别是，这种方法可能会错过使用我在四月份的文章中建议考虑的策略之一的网站 - 即仅排除网站的某些部分。

，因此在仅考虑阻止特定部分的网站时，我将少报阻止百分伊朗电话号码表阻塞率让我们首先看看这 39,791 个子域中的阻止百分比。总体百分比较低。一些要点：有趣的是，有些网站阻止了 Google 机器人，但仍然出现在这些结果中。关于爬行和索引之间的区别的有用教训。 GPTBot 是有史以来被阻止最多的人工智能机器人。

可能是因为这是第一个也是讨论最多的。令人失望的是，CCBot 也经常被屏蔽。我说沮丧是因为这是Common Crawl，一个主要不是关于训练人工智能模型的公共项目。另外，虽然我们不能说这些网站何时开始阻止 CCBot，但如果是最近，它肯定会在马匹逃跑后关上马厩的门 - 模型不再从 CCBot 获取更新。 Graph 正在通过子域打破站点封锁 AI 机器人。

有趣的是，如果我们查看来自被阻止网站的排名 URL 的百分比，而不是阻止它们的网站的百分比，则情况看起来会大不相同。因此，换句话说，我们现在倾向于排名较高的网站。 Graph 正在通过子域打破站点封锁 AI 机器人。 “获胜者”——如果我们可以这样称呼的话——仍然是 GPTBot，亚军仍然是 CCBot。

Russia Data Set

在这里为简单起见我只测试主页

在这里为简单起见我只测试主页