WordPress 5.3 devrait changer la façon dont il bloque l\'indexation Google

WordPress

WordPress 5.3 devrait changer la façon dont il bloque l\'indexation Google

Ce changement abandonne la solution traditionnelle Robots Meta Tag.

Et ce, au moment ou annonce son intention de faire du fichier .txt un standard officiel et propose même déjà 5 alternatives à la directive noindex

Il s\’agit de la balise Meta Robots que WordPress utilisera :

 

Cette balise meta demande que les moteurs de recherche excluent la page de l\’indexation et les décourage d’explorer davantage le site Web.

Blocage de l’indexation Google

Cela a longtemps été une pratique courante d\’utiliser le fichier Robots.txt pour bloquer l\’indexation d\’un site Web.

Le mot «indexation» signifiait l’exploration du site par GoogleBot.

En utilisant la fonction de blocage Robots.txt, vous pouvez empêcher Google de télécharger la page Web spécifiée et, a-t-on supposé, Google ne serait pas en mesure d\’afficher vos pages dans les résultats de recherche.

Mais cette directive de .txt empêche seulement Google d’explorer la page. Google a toujours été libre de l\’ajouter à son index s\’il était en mesure de découvrir l\’URL autrement.

Ainsi, pour empêcher un site d\’apparaître dans l\’index, un éditeur bloquerait Google d’ « indexer » les pages. Ce qui n\’était pas toujours efficace.

WordPress 5.3 va vraiment prévenir l\’indexation

WordPress a adapté l\’approche Robots.txt. Mais cela change dans la version 5.3.

Lorsqu\’un éditeur sélectionne actuellement « décourager les moteurs de recherche d\’indexer ce site », ce que cela fait, c\’est ajouter une entrée aux robots.txt du site qui interdit à Google de le visiter.

A partir de WordPress 5.3, WordPress adoptera l\’approche plus fiable “Robots Meta Tag” pour empêcher l\’indexation d\’un site Web.

Cette modification affectera le paramètre « décourager les moteurs de recherche d\’indexer ce site ».

Ce changement est une amélioration. Les éditeurs WordPress peuvent être plus sûrs en sachant que les pages Web bloquées ne seront pas affichées dans les résultats de recherche de Google.

Comme l\’écrit Joost de Valk dans une explication sur l\’exclusion des moteurs de recherche, l\’exclusion de l\’exploration peut avoir pour effet de permettre l\’indexation d\’un site :

Un site n\’a pas besoin d\’être exploré pour être répertorié.

Si un lien pointe vers une page, un ou n\’importe où, Google suit ce lien.

Si le robot.txt sur ce domaine empêche le crawling de cette page par un moteur de recherche, il va encore afficher l\’URL dans les résultats s’il peut recueillir … il pourrait être utile de regarder de près.

Ces changements visent à mieux décourager les moteurs de recherche de référencer un site plutôt que de les empêcher de parcourir le site.

Dans les versions précédentes de WordPress, Disallow: / a été ajouté au fichier robots.txt pour empêcher les moteurs de recherche d’explorer le site. Cela a été supprimé pour les sites Web non publics dans WordPress 5.3.

Pourquoi WordPress a-t-il utilisé Robots.txt ?

WordPress s\’est appuyé sur Robots.txt pour bloquer l\’indexation d\’un site Web parce que c\’est ainsi que tout le monde a gardé les pages de s’afficher dans les résultats de recherche de Google. C\’était la façon habituelle de le faire.

Pourtant, même si tout le monde l\’a fait de cette façon, comme expliqué plus haut, c\’était une approche peu fiable.

Le mot « indexation » ayant deux significations

  1. L\’indexation signifie explorer, comme lorsque Googlebot visite et télécharge des pages Web.
  2. L\’indexation peut également signifier l\’ajout d\’une page Web à la base de données de Google des pages Web (qui est appelé l\’index).

Bloquer Google d’indexer une page web l\’empêchera de voir la page Web, mais Google pourrait toujours indexer la page Web et l\’ajouter à l\’index de Google. Est-ce logique ?

Robots.txt Versus Robots Meta Tag

Garder une page web hors de l\’index de Google n\’était pas l\’intention de la solution Robots.txt. Faire cela est le travail de Meta Tag Robots, dixit Searchenginejournal.

Il est donc bon de voir WordPress embrasser Robots Meta Tag comme la solution pour bloquer les pages Web de l\’affichage dans les moteurs de recherche.

La méthode la plus efficace pour exclure les sites en développement d\’être indexés par les moteurs de recherche est d\’inclure le HTTP Header X-Robots-Tag: noindex, nofollow lors de la desserte de tous les actifs pour votre site: images, PDFs, vidéo et autres actifs.

Précisons que l\’en-tête HTTP X--Tag (exemple : header(\ »X-Robots-Tag: noindex, nofollow\ », true); ) n\’a pas les mêmes objectifs, les mêmes effets et ne s\’implémente pas de la même manière que le fichier Robots.txt. Néanmoins, ces deux méthodes sont très liées.

Et comme la plupart des actifs non-HTML sont servis directement par le serveur Web sur un site WordPress, le logiciel de base est incapable de définir cet en-tête HTTP. Vous devez consulter la documentation de votre serveur Web ou de votre hôte pour vous assurer que ces actifs sont exclus sur les sites en développement.

WordPress 5.3 devrait sortir en Novembre 2019.

Auteur : Noel Nguessan

Je suis Noel Nguessan, fondateur du site Arobasenet.com qui existe en tant que nom de domaine depuis 2007 comme site de mon entreprise avant de devenir en 2010 un site d'information SEO à part entière. Pour ma part, j'ai été intégré le monde de l'internet 1997 en qualité de créateur de site internet, avant de devenir développeur web et multimédia au début de l'année 2000. Par la suite, après avoir exercé très tôt en free-lance auprès de plusieurs start-ups jusuq'en 2010 en tant développeur Web, je suis tout naturellement arrivé au référencement Web, notamment après avoir lu les premiers articles SEO d'Olivier Andrieux (Abondance.com) qui m'a beaucoup inspiré dans ce métier. Je lui dit merci. J'ai ainsi pu poursuivre ma carrière en travaillant discrètement en free-lance pour des agences Web qui créaient des sites mais avaient ponctuellement besoin de quelqu'un qui pouvait leur fournir des recommandations d'optimisation web en fonction de la clientèle. Je pense avoir longtemps respecté les règles de discrétion de mes apporteurs d'affaires et surtout avoir bien rempli les différentes missions à moi confiées. Aujourd'hui, la retraite se rapproche. Alors je passe le plus clair de mon temps à divulguer le marketing internet et des réseaux sociaux à travers mon site Arobasenet.com... Certes, il s'agit sur ce site de relayer des news SEO de sources anglaises, mais c'est un travaille plus que passionnant. Tant je découvre des articles d'intérêt que je partage mes fidèles lecteurs. Arobasenet.com, c'est à ce jour (Juillet 2021) : - 6.784 articles publiés depuis 2010 - Plus de 34 millions de pages vues - 300.000 pages vues en moyenne par mois.