Voici la liste de tous les changements de Robots.txt pour GoogleBot

On le sait depuis la veille que Google un standard officiel. Et semble vouloir accélérer le mouvement.

Voici la liste de tous les changements de Robots.txt pour GoogleBot

Pour ce faire, il vient dans la foulée de proposer quelques changements de ses propres documents pour développeur autour de la spécification pour les faire correspondre au projet Internet révélé la veille.

Voici une liste

  1. Suppression de la section « Langue requise » dans ce document parce que la langue est spécifique au projet Internet.
  2. Robots.txt accepte désormais tous les protocoles basés sur URI.

  3. Google suit au moins 5 sauts de redirection (une redirection vers une page redirigée aussi qui est elle-même par la suite redirigée, etc… jusqu’à 5 fois

    Le traitement des redirections logiques pour le fichier robots.txt basé sur le contenu HTML qui renvoie 2xx (images, JavaScript, ou meta redirections de type rafraîchissement) est déconseillé et le contenu de la première page est utilisé pour trouver les règles applicables.

  4. Google traite les demandes infructueuses ou les données incomplètes comme une erreur de serveur. Les « enregistrements » sont maintenant appelés « lignes » ou « règles », le cas échéant.
  5. Google ne prend pas en charge le traitement des éléments avec des erreurs simples ou des fautes de frappe (par exemple, «user agent» au lieu de «user-agent»).
  6. Google applique actuellement une taille limite de 500 kibioctets (KiB), et ignore le contenu après cette limite. In extenso, si votre contenu est plus lourd, il n’y a qu’une partie qui serait explorée.
  7. Syntaxe formelle du Augmented Backus-Naur Form (ABNF) par RFC5234 mise à jour pour être valide et pour couvrir les caractères UTF-8 dans robots.txt.
  8. Suppression des références au système de crawling Ajax dépréciée.

Les grands changements sont donc :

  • Googlebot suivra 5 sauts de redirection,
  • Demandes infructueuses de requêtes=erreur serveur
  • Il y a une limite de taille de 500 KiB
  • Il prend en charge URI sur la base des protocoles.

Ok, donc, erreur de serveur pour :

  • Cache inférieur à 30 jours : arrêt de l’exploration
  • Cache supérieur à 30 jours et version mise en cache disponible
  • Cache supérieur à 30 jours et version mise en cache indisponible

Google précise dans son document mis à jour :

Autorisation totale : tout le contenu peut être exploré ;

Interdiction totale : aucun contenu ne peut être exploré

Autorisation conditionnelle :

Rappelons que Google a officiellement annoncé qu’il va désormais ignorer les directives noindex, nofollow et crawl-delay dans les fichiers .

Il a en effet déclaré dans son post d’annonce :

parsercrawl-delay, nofollow, et noindex.

0,001% de tous les fichiers robots.txt sur Internet.

Source