Google privilégie l\'indexation des pages HTTPS par défaut


Google favorisera les pages HTTPS par défaut

En d’autres termes, le référencement HTTPS devient maintenant la priorité pour Google, après en avoir fait un critère de classement avec un tout petit \ »boost\ » au départ.

Toutefois, les pages HTTP ne seront probablement pas pour l’instant affectées dans les résultats de recherche. Google ne cherche qu’à fournir plus de pages sécurisées dans ses résultats, mais on peut s’attendre à ce que l’étape suivante, comme il l’a fait avec le mobile-friendly, sera de déclasser les pages non-sécurisées.

page sécurisée HTTPS dans ses résultats de recherche. Et ce, mêmes si cette page ne bénéficie d’aucune redirection à partir d\’une autre page HTTP.

Comme le dit John Mueller (voir tweet ci-dessus) de chez Google, le référencement HTTPS s\’imposera à long terme.

Mais, pour l\’instant, pour que cette indexation par défaut puisse se faire, certains critères devront être remplis.

Critères de l’indexation du HTTPS par défaut

Comme le dit Google, lorsque deux URL associées au même nom de domaine semblent avoir le même contenu, mais sans avoir le même protocole de diffusion, la priorité sera accordée à l\’URL HTTPS, si cette dernière remplit les conditions suivantes :

  • Elle ne contient pas de dépendances non sécurisées.
  • Son exploration n\’est pas bloquée par un fichier robots.txt.
  • Elle ne redirige pas les internautes vers ou via une page HTTP non sécurisée.
  • Elle ne possède pas de lien \ »rel=\ »canonical\ »\ » vers la page HTTP.
  • Elle ne contient pas de balise Meta \ »noindex\ » pour les robots.
  • Elle ne comprend pas de liens sortants à partir de l\’hôte redirigeant vers des URL HTTP.
  • Le sitemap répertorie l\’URL HTTPS, ou ne mentionne pas la version HTTP de l\’URL.
  • Le serveur dispose d\’un certificat TLS valide.

Donc, en ce qui concerne Google, la version HTTPS de votre site, si vous en avez, sera prioritaire par défaut.

Mais, en ce qui concerne les autres moteurs de recherche, vous pouvez les forcer à considérer vos pages HTTPS comme prioritaires en configurant votre site HTTP de sorte qu\’il redirige vers la version HTTPS équivalente et en mettant en œuvre l\’en-tête HSTS (HTTP Strict Transport Security) sur votre serveur.

Qu’est-ce que le HTTP Strict Transport Security (HSTS)

Le HTTP Strict Transport Security (HSTS) est un mécanisme de politique de sécurité proposé pour HTTP, permettant à un serveur web de déclarer à un agent utilisateur (comme un navigateur web), compatible, qu\’il doit interagir avec lui en utilisant une connexion sécurisée (comme HTTPS).

La politique est donc communiquée à l\’agent utilisateur par le serveur via la réponse HTTP, dans le champ d\’en-tête nommé « Strict-Transport-Security ». La politique spécifie une période de temps durant laquelle l\’agent utilisateur doit accéder au serveur uniquement de façon sécurisée.

Ainsi, lorsque la politique HSTS est active pour un site web, l\’agent utilisateur compatible opère comme suit :

  • Si la sécurité de la connexion ne peut être assurée (par exemple, le certificat TLS est auto-signé), celui-ci affiche un message d\’erreur et interdit à l\’utilisateur l\’accès au site à cause de cette erreur.

La politique HSTS aide à protéger les utilisateurs de sites web contre quelques attaques réseau passives (écoute clandestine) et actives. Une attaque du type man-in-the-middle ne peut pas intercepter de requête tant que le HSTS est actif pour ce site.

C\'est quoi le contenu dupliqué pour Google ?

Le contenu dupliqué ou contenu en double est aussi l’un des sujets récurrents du référencement Web abordés par les .

Qu\'est-ce que Google entend par contenu dupliqué ou en double ?

Et ce, en raison du fait qu’il existe différentes sortes de contenus en double dont certains peuvent être pénalisés par et d’autres pas.

Le dernier Hangout de John Mueller sur le “duplicate content”

Par définition, et selon Google

Alors, voici quelques précisions de John Mueller :

  • Le contenu dupliqué touche à peu près tous les sites web, quelle que soit leur taille.
  • Selon John Mueller, le contenu en double, c’est un même contenu sur un même site. C’est aussi un même contenu avec un même chemin d’accès dans des URLs avec et sans WWW.
  • N’est pas un contenu dupliqué un contenu traduit ou adapté à partir d’une autre langue (ce n’est pas une raison pour ne pas citer la source). Il en est de même avec différentes pages ayant un même titre et/ou une même description, ainsi que le contenu dans les applications.
  • John Mueller confirme ce qu’avait déjà dit Gary Illyes en Mars 2015, à savoir que le contenu dupliqué n’est pas en soi une cause de pénalité.
  • Les contenus dupliqués sont une perte de temps de stockage et de ressources serveurs.
  • Si une page est dupliquée, Google ne conserve qu’une seule copie.
  • Un contenu dupliqué pour 2 localisations dans deux pays différents n’est pas une cause de pénalité.

La pénalité de contenu dupliqué est donc un mythe.

Comment gérer les contenus dupliqués

Selon Google, les mesures suivantes vous permettent de résoudre les problèmes de contenu en double de manière proactive et de vous assurer que les visiteurs accèdent au contenu que vous souhaitez leur présenter.

  • Utilisez les redirections 301 : si vous avez restructuré votre site, utilisez des redirections 301 (\ »RedirectPermanent\ »
  • Soyez cohérent :http://www.example.com/page/, http://www.example.com/page ni http://www.example.com/page/index.htm.
  • Utilisez des domaines de premier niveau :

    Google peut supposer que le site ”http://www.example.de”“http://www.example.com/de” ou http://de.example.com.

  • Soyez prudent en diffusant votre contenu :Guest blogging), Google affichera systématiquement la version jugée la plus appropriée pour les internautes pour chaque recherche donnée, qui pourra correspondre ou non à celle que vous préférez.

    notamment en guest blogging) inclut un lien renvoyant vers votre article original.

  • Utilisez Search Console pour indiquer à Google comment indexer votre site : vous pouvez indiquer à Google votre domaine favori (par exemple, http://www.example.com ou http://example.com).
  • Limitez les répétitions :l\’outil de gestion des paramètres
  • Évitez la publication de pages incomplètes :Meta noindex pour bloquer leur indexation.
  • Apprenez à maîtriser votre système de gestion de contenu :
  • Limitez les contenus similaires :
  • rel=\ »canonical\ » ou des redirections 301.

Si votre site a été retiré des résultats de recherche, après avoir apporté les modifications nécessaires et vous être assuré que votre site respectait ses consignes SEO, envoyez une demande de réexamen à Google.

Quand Google décide-t-il de ralentir ou d\'arrêter l\'indexation d\'un site ?


lors du SMX East de New York qui se termine aujourd\’hui. Selon lui, Google disposent de 2 moyens techniques pour déterminer si GoogleBot, son robot d\’exploration et d\’indexation, devrait ralentir ou arrêter son analyse d\’un site web.

Exploration et indexation par GoogleBot


En effet, l\’un des facteurs les plus importants du référencement web consiste à s\’assurer d\’abord que les robots des moteurs de recherche peuvent accéder à vos pages web. Si ils ne peuvent pas accéder à vos pages web, alors vous traverserez probablement une période difficile de classement dans les résultats de recherche.

Google a déjà dit qu\’il utilisait de nombreux signaux pour déterminer si GoogleBot doit arrêter l\’exploration de votre site Internet, en dehors des signaux évidents tels que la balise meta \ »noindex\ », l\’attribut \ »nofollow\ » ainsi que le fichier \ »robots.txt\ ».

Selon +Gary Illyes,  les 2 signaux suivants sont les signaux d\’exploration très importants pour Google :

  • Délai de connexion au serveur : Google fera attention au temps qu\’il met pour se connecter au serveur d\’hébergement et à la page désirée. Si ce temps de connexion s\’allonge indéfiniment, GoogleBot va reculer et ralentir ou arrêter l\’exploration de vos pages web qui pourraient alors ne pas être indexées lors de ce passage.

    Si Google décide de faire machine arrière, c\’est pour ne pas faire chuter votre serveur (down). Cependant, il utilisera votre délai de connexion comme facteur d\’exploration et d\’indexation de votre site.

  • Les codes de statut HTTP des serveurs : Google va également arrêter ou ralentir son exploration quand il obtient des codes de statut serveur dans la classe des 500 (500 à 520).

    Les codes d\’erreur 5xx du serveur signifient souvent qu\’il y a en général des problèmes internes au serveur qui ne répond pas. Alors, quand Google reçoit ce type de codes d\’erreurs serveur, il fait aussi machine arrière pour ne pas en rajouter aux problèmes techniques actuels du serveur.

Dans les deux cas, GoogleBot reviendra plus tard (Quand ?). Mais, dans l\’immédiat il recule quand il voit que ces deux signaux sont à l\’origine d\’ennuis sur votre serveur.

Google : Comment gérer les différentes versions d\'un site multilingue ?

+Zineb Ait Bahajji dans son récent post sur Google Webmaster Central.

Ainsi, pour reprendre les exemples de +Zineb, si vous travaillez aussi à l\’international, vous devez créer une page d\’accueil pour les visiteurs américains et pour les visiteurs parlant l\’anglais et une page différente pour la France et les visiteurs parlant le français.

Pour créer un site web adapté à ce genre de situations et afficher le contenu approprié aux utilisateurs en fonction de leur langue ou de leur localisation, Zineb Ait Bahajji nous livre 3 méthodes qu\’elle détaille par la suite :

  • Montrer à chacun de vos visiteurs le même contenu : Google recommande que vous affichiez une notification basée sur les préférences de langues possibles à l\’utilisateur pour montrer que vous disposez d\’une meilleure page d\’accueil pouvant mieux lui convenir.
  • Offrez la possibilité à vos visiteurs de choisir : Vous redirigez tous vos visiteurs vers une page spécifique, avec des liens par pays ciblé, où ils pourront choisir le contenu qu\’ils veulent. Si vous utilisez cette option, pensez à utiliser l\’annotation \ »rel-alternate-hreflang x-défaut\ » afin de communiquer à Google ce que vous faites avec cette page et les liens sur la page.
  • Rediriger automatiquement en fonction de la langue et de la localisation : De façon dynamique en affichant le bon contenu ou en utilisant la redirection 302 côté serveur. Si vous choisissez cette option, Google vous recommande de configurer les annotations \ »rel=\ »alternate\ » hreflang=\ »x\ »  et de vous assurer que la page d\’accueil reste accessible pour l\’exploration et l\’indexation de votre site.

    Et surtout, offrez toujours la possibilité aux utilisateurs de passer d\’une langue à une autre, à l\’aide d\’un menu déroulant, par exemple.

Il faut ici noter que Google utilise uniquement le contenu visible de votre page pour déterminer la langue utilisée. Google indique ne pas tenir compte d\’informations linguistiques codées comme des attributs lang.

Qu\’en est-il des contenus dupliqués dans ces cas ?

Selon Google, les sites Web qui fournissent du contenu pour des régions différentes et dans des langues différentes génèrent du contenu qui est parfois identique ou similaire, mais disponible sur des URL différentes. Cela ne présente en général pas de problème tant que le contenu s\’adresse à des utilisateurs différents dans des pays différents. Il recommande cependant vivement de proposer du contenu unique à chaque groupe de visiteurs.

Néanmoins, Google dit avoir conscience que cette solution n\’est pas toujours envisageable. Il n\’est généralement pas nécessaire de masquer les doublons en interdisant l\’exploration dans un fichier robots.txt ou en utilisant une balise Meta de robot \ »noindex\ ».

Si vous proposez toutefois du contenu aux mêmes utilisateurs sur des URL différentes (par exemple, si à la fois example.fr/ et example.com/fr/ affichent du contenu en français pour des utilisateurs en France), vous devez sélectionner une version préférée et rediriger (ou utiliser l\’élément lien rel=canonical) comme il se doit.

En outre, vous devez respecter les consignes sur rel-alternate-hreflang afin de garantir que la langue ou l\’URL régionale correcte est proposée aux personnes effectuant des recherches.

Pourquoi le nombre d\'URLs indexées peut-il baisser dans Google Webmaster Tools ?

Google Webmaster Tools




Depuis son annonce du 31 mars dernier

Le nombre d\’URLs indexées et affiché va donc dépendre de la version du site et de sa validation ou non dans les Google Webmaster Tools.

John Mueller est revenu sur ce changement de fin Mars à l\’occasion d\’un post sur Google+ d\’un webmaster qui s\’étonnait de voir que son nombre de pages indexées avait considérablement baissé.

Pour le cas de ce webmaster, John Mueller a laissé entendre que la réduction des données de son site à la date de mise à jour mentionnée à la page \ »Index Google -> Etat de l\’indexation\ » est due à l\’existence d\’une version alternative du site qui a été vérifié dans Google Webmaster Tools.

Alors, John Mueller recommande au webmaster de vérifier en faisant une recherche sur Google à partir de la commande \ »site:votredomaine.com\ » et de découvrir quelle version du site il voit sur les pages de résultats. Si la version WWW du site est visible dès la première page, c\’est alors la version sur laquelle se trouve la grande majorité des données indexées.

Par contre, si vous voulez que Google indexe et comptabilise les URLs de la version WWW et celles de la version sans-WWW, vous devez faire vérifier et valider ces 2 versions dans Google Webmaster Tools.

Qu\’est-ce qui a changé depuis fin Mars?

Auparavant, quelle que soit la version validée ou quel que soit le sous-domaine ou le répertoire, Google affichait des statistiques globales de vos données sans faire de distinction.

Maintenant, Sur la page \ »État de l\’indexation\ », vous ne pouvez consulter que les données du site sélectionné et validé dans les outils pour les webmasters.

Voici d\’ailleurs ce qu\’en dit Google  :

Nous n\’affichons pas les données globales de toutes les versions de votre site. Même si nous explorons et indexons le contenu de votre site, que vous l\’ayez ou non validé dans les outils pour les webmasters, seules les URL indexées pour une version particulière de votre site figurent dans le rapport \ »État de l\’indexation\ ».

Ainsi, si vous validez uniquement un sous-répertoire de votre site dans les outils pour les webmasters, seules les données de ce sous-répertoire s\’afficheront sur la page \ »État de l\’indexation\ » (http://www.exemple.com/blog/). Toutefois, le domaine de premier niveau reflétera toujours le nombre total d\’URL indexées pour ce domaine.

Ce qui confirme bien que depuis l\’annonce de cette mise à jour, la page \ »État de l\’indexation\ » ne reflète que les données de la structure de l\’URL du site sélectionné.

C\’est pourquoi Google vous encourage fortement à valider toutes les versions pertinentes de votre site et à définir un domaine favori si les internautes peuvent accéder à votre site à la fois par des URL WWW ou non-WWW ou avec ou sans-WWW. Car, les données concernant l\’état de l\’indexation correspondent précisément à la version d\’une URL spécifique de votre site validé (par exemple, les données provenant de http://www.exemple.com ne sont pas identiques à celles provenant de https://exemple.com).

Pour conclure, retenez que le nombre total d\’URLs de l\’index Google affiche la totalité des URLs pouvant figurer dans les résultats de recherche, ainsi que d\’autres URLs que Google peut découvrir autrement (Par exemple une page en NoIndex qui reçoit quand même un backlink…).

Ce nombre change au fil du temps, à mesure que vous ajoutez ou supprimez des pages. Le nombre d\’URLs indexées est souvent bien inférieur au nombre d\’URL explorées, car le Nombre total de pages indexées n\’inclut pas les URL en double, les URL non canoniques, les URL peu utiles ou qui contiennent une balise Meta noindex.

Voici maintenant comment bien référencer votre site internet sur Google.

Pourquoi Google n\'indexe-t-il pas toujours tous les liens du fichier Sitemap ?

Fichier Sitemap.

Mais, est-ce pour autant que toutes les pages seront indexées ?

Google Webmaster

Gary Illyes

Sitemap comme un moyen d\’aider GoogleBot  à trouver vos contenus. Car, si des URLs manquent dans votre fichier, les robots auront du mal à les trouver , et donc les explorer. Ce qui entraînerait une indexation très lente de vos pages.

Il faut enfin savoir que pour que GoogleBot indexe une URL, celle-ci devrait :

– renvoyée une réponse 200 OK;

– ne pas être redirigée vers une autre URL;

– avoir une URL canonique identique;

– ne pas avoir de balise meta noindex dans le code source.

Google clarifie l\'utilisation de son outil de suppression de liens

Outil de suppression de liens.

Déjà, 2 semaines après sa mise à disposition, Matt Cutts avait accordé une interview à Danny Sullivan pour apporter des précisions.

Mais, ces dernières semaines, les critiques ont repris de plus belle sur la blogosphère, notamment anglosaxonne.

Olivier Andrieu

clarifier l\’utilisation de cet outil.

Voici la traduction de son message :

Peut-être quelques éclaircissements peuvent aider à comprendre …

  • Pour les changements de site de grande taille, je vous recommande:
    • De ne pas utiliser le fichier robots.txt