Google divulgue la liste des adresses IP de Googlebot

L’User agent ou robot d’exploration des sites est librement configurable pour l’accès HTTP (S). Ce qui signifie qu’il n’y a pas seulement que les « vrais » Googlebots sur Internet, mais aussi des tiers qui espèrent bénéficier de l’appel de leurs robots d’exploration Googlebot.

Google divulgue la liste des adresses IP de GooglebotDans le passé, la seule façon de déterminer l’authenticité de l’accès de Googlebot était de rechercher le DNS et le DNS inversé, l’adresse IP d’accès.

L’expression « robot d’exploration » désigne tout programme qui permet de détecter et d’analyser automatiquement des sites Web en suivant des liens d’une page à une autre. Et le robot d’exploration principal de Google s’appelle Googlebot.

En 2007, Google a mis au jour un mécanisme permettant aux référenceurs SEO ou aux propriétaires de sites de vérifier que Googlebot est bien celui qu’il dit être grâce à des vérifications DNS inversées.

Mais maintenant, Google a également décidé de publier une liste d’adresses IP que Googlebot utilisera pour explorer votre site.

Google a publié la liste complète des adresses IP qu’il utilise pour explorer et accéder à votre site Web sous les agents utilisateurs Googlebot.

Google a déclaré que si vous ne souhaitez pas utiliser le DNS inversé d’autres types de méthodes de vérification de Googlebot, vous « pouvez identifier Googlebot par adresse IP en faisant correspondre l’adresse IP du robot à la liste des adresses IP Googlebot.

Google a publié deux fichiers JSON différents avec la liste des adresses IP que Googlebot peut utiliser :

  1. Vous pouvez identifier Googlebot par adresse IP en faisant correspondre l’adresse IP du robot à la liste des adresses IP Googlebot dans ce fichier JSON.
  2. Pour tous les autres robots d’exploration Google, faites correspondre l’adresse IP du robot à la liste complète des adresses IP Google dans ce fichier JSON.

Si vous pensez que quelqu’un explore votre site, prétendant être Googlebot, et que vous voulez vérifier que le blocage de ce faux robot d’exploration Googlebot n’est pas vraiment Google, vous pouvez utiliser la méthode de ligne de commande ou la méthode de liste IP automatique.

Notez que Google peut mettre à jour cette liste d’adresses IP de Googlebot et que vous devez donc vérifier le fichier probablement quotidiennement. Vous pouvez également accéder à tous les autres robots d’exploration Google qui correspondent à l’adresse IP du robot d’exploration par rapport à la liste complète des adresses IP Google.

Souvent, les sites peuvent être ralentis et potentiellement même se déconnecter (ou planter) en raison des faux robots qui explorent et espionnent le site.

Vous voulez rarement empêcher Google de crawler votre site, car cela peut entraîner des problèmes d’indexation et de classement dans la recherche Google. Donc, savoir quel robot d’exploration est vraiment de Google et lequel ne l’est pas, peut vous aider à décider quels robots escrocs bloquer de votre site.

Il existe également des services tiers, comme Cloudflare et d’autres qui vous aident à gérer cela.

Cela rend les choses un peu plus faciles pour certains sites (CDN, etc.), et les anciens problèmes / risques liés au camouflage semblent avoir pour la plupart disparu.

Bref, pour aider à résoudre le problème de l’identification des faux Googlebot, Google fournit maintenant une liste d’adresses IP légitimes. Dans un fichier JSON, Google répertorie toutes les adresses IP que Googlebot utilise actuellement.

Cela rend beaucoup plus facile de stocker cette liste régulièrement et, lorsqu’un Googlebot y accède, de vérifier brièvement si l’adresse IP de l’accès correspond à la liste. Merci Google !