15 premiers Mo indexés pour le référencement : ça signifie quoi ?

Google a clarifié la façon dont son Googlebot classe les pages Web, affirmant qu’il indexera désormais automatiquement que les 15 premiers Mo du code HTML d’une page Web.

15 premiers Mo indexés pour le référencement : ça signifie quoi ?

En tant que moteur de recherche qui domine le marché de la recherche, de nombreux sites Web vivent ou meurent par leur classement Google. En conséquence, comprendre exactement comment cela fonctionne est l’objectif de nombreux webmasters.

Google a apporté un peu plus de lumière sur le sujet, en décrivant comment son Googlebot explore et indexe les pages :

Googlebot peut explorer les 15 premiers Mo de contenu dans un fichier HTML ou un fichier texte pris en charge. Après les 15 premiers Mo du fichier, Googlebot arrête l’exploration et ne considère que les 15 premiers Mo de contenu pour l’indexation.

La limite de taille de fichier est appliquée sur les données non compressées.

La petite information est importante, donnant aux webmasters une cible à viser. La limite de 15 Mo devrait également encourager la conception de sites Web allégés et performants, qui conviennent aussi bien sur un smartphone qu’un ordinateur de bureau avec une connexion haut débit.

Google révèle donc que son robot d’indexation Googlebot n’utilise que les 15 premiers Mo du code HTML d’une page pour déterminer les classements sur Google.

Cela reste aussi une mesure d’équité, de la part de Google, pour tout contenu Web, qu’il soit long ou court alors même que des études ont démontré que le contenu long obtient de meilleurs classements. C’est aussi une décision qui pourrait aider Google à faire des économies sur ses ressources utilisées pour l’indexation. CQFD.

Ainsi, dans une mise à jour du document d’aide de Googlebot, Google a discrètement annoncé qu’il explorerait les 15 premiers Mo d’une page Web. Tout ce qui suit cette coupure ne sera pas inclus dans les calculs de ranking.

Cela a laissé certains membres de la communauté SEO se demander si cela signifiait que Googlebot ignorerait complètement le texte qui se trouvait sous les images après la coupure dans les fichiers HTML.

John Mueller de chez Google a toutefois apporté la précision intéressante :

 

Il est spécifique au fichier HTML lui-même, comme il est écrit.

Les ressources incorporées / le contenu extrait avec des balises IMG ne font pas partie du fichier HTML.

 

Règles générales de base pour la taille de la page

Idéalement, vous souhaitez conserver la taille de votre page DOM HTML à environ 100 Ko ou moins, selon votre créneau. Le DOM (Document Object Model) est une interface pour vos pages web. C’est une API permettant aux programmes de lire et manipuler le contenu de la page, sa structure et ses styles.

Les pages peuvent être plus grandes dans certaines niches; dans le commerce électronique, par exemple, il n’est pas rare de voir des pages autour de 150kb-200kb, en fonction du nombre d’images de produits sur la page.

Vous ne voulez pas devenir trop grand, car alors vous commencerez à avoir un impact négatif sur l’expérience utilisateur et pourriez manquer des opportunités d’obtenir un coup de pouce de classement avec de bons scores Core Web Vitals.

Mais réduire la taille de la page sans tenir compte de l’expérience utilisateur pourrait faire en sorte que votre page ne soit pas aussi utile que celle de vos concurrents. L’équilibre est donc la clé.

Si vous recherchez des outils pour vérifier la taille de la page HTML, l’outil suivant de SEO Site Checkup est un bon outil.

 

 

Bon à savoir sur le crawl Googlebot

D’après Google, le temps et les ressources que Google consacre à l’exploration d’un site sont généralement régis par le budget d’exploration de ce site. Notez que tous les éléments explorés sur votre site ne sont pas nécessairement indexés. Chaque page doit être évaluée, consolidée et examinée afin de déterminer si elle sera indexée après son exploration.

Le budget d’exploration est déterminé par deux éléments clés : la limite de la capacité d’exploration et le besoin d’exploration.

1. Limite de la capacité d’exploration

L’objectif de Googlebot est d’explorer votre site sans surcharger vos serveurs. Pour ce faire, Googlebot calcule une limite de la capacité d’exploration. Celle-ci correspond au nombre maximal de connexions simultanées parallèles que Googlebot peut utiliser pour explorer un site, ainsi qu’au temps qu’il doit attendre entre deux explorations. Cette valeur est calculée dans le but de couvrir l’ensemble de votre contenu principal sans surcharger vos serveurs.

La limite de la capacité d’exploration peut augmenter ou diminuer en fonction de différents facteurs tels que :

 

2. Besoin d’exploration

En règle générale, Google consacre autant de temps que nécessaire à l’exploration d’un site, en fonction de sa taille, de la fréquence de mise à jour, de la qualité de ses pages et de sa pertinence par rapport aux autres sites.

Les facteurs qui jouent un rôle majeur dans la détermination du besoin d’exploration sont les suivants :

  • Inventaire perçu
  • Popularité
  • Obsolescence

En outre, les événements sur l’ensemble du site comme les déplacements peuvent déclencher une augmentation du besoin d’exploration afin de réindexer le contenu sur les nouvelles URL.

 

Que signifient alors les 15 premiers Mo pour le SEO ?

Pour s’assurer qu’il est pondéré par Googlebot, le contenu important doit maintenant être inclus bien évidemment en haut des pages Web.

Cela signifie que le code source doit être structuré de manière à placer les informations pertinentes pour le référencement avec les 15 premiers Mo dans un fichier HTML ou texte pris en charge.

Cela signifie également que les images et les vidéos doivent être compressées et non encodées directement dans le code HTML, dans la mesure du possible.

Les meilleures pratiques SEO recommandent actuellement (voir plus haut) de garder les pages HTML à 100 Ko ou moins (l’idéal étant 33 Ko), de sorte que de nombreux sites ne seront pas affectés par ce changement.

La taille de la page peut aussi être vérifiée à l’aide de divers outils, notamment Google Page Speed Insights.

En théorie, il peut sembler inquiétant que vous puissiez potentiellement avoir du contenu sur une page qui n’est pas utilisée pour l’indexation, et donc le référencement organique. Mais, dans la pratique, cependant, 15 Mo est une quantité considérablement importante de HTML.

Comme l’indique Google, les ressources telles que les images et les vidéos sont récupérées séparément. D’après l’ajout de Google, il semble que cette limite de 15 Mo s’applique uniquement au HTML.

Il serait difficile de dépasser cette limite avec le code HTML à moins de publier des livres entiers de texte sur une seule page. En utilisant, par exemple, les balises de pagination (rel= »next » et rel= »prev »), toujours utile pour le crawl, pour scinder le contenu en plusieurs pages

Si vous avez des pages qui dépassent 15 Mo de HTML, il est probable que vous ayez des problèmes sous-jacents qui doivent être résolus de toute façon.

Source : Searchenginejournal