Comment corriger ou réparer l\'erreur 404 ?

Lorsque les visiteurs suivent des liens hypertextes

Comment corriger ou réparer l\'erreur 404 ?

Les liens brisés ne sont pas seulement mauvais pour l\’expérience utilisateur

Qu’est-ce que les liens brisés affectent ?

La page d’erreur 404 ne frustre pas uniquement les moteurs de recherche et les utilisateurs. Elle aura aussi une incidence sur votre entreprise elle-même.

  1. Votre chiffre d’affaires :

    En plus de perdre des revenus, vous perdrez aussi des clients. Un client potentiel qui ne trouve pas la page de conversion est une personne qui pourrait faire savoir à son entourage et sur les réseaux sociaux (par exemple) la mauvaise expérience vécue sur votre site.

    Et au final, ce n’est pas un seul client potentiel que vous aurez perdu, mais beaucoup d’autres.

    Après tout, vous ne voudriez pas perdre votre temps et effort pour créer votre site Web

  2. Votre taux de rebond :

    La page d\’erreur 404

    Le taux de rebond est mesuré par la quantité de temps (durée

    va au fil du temps générer un taux de rebond plus élevé.

    Lorsque les moteurs de recherche constatent un taux de rebond élevé sur votre page, ils vont brandir un carton rouge

    Par conséquent, il est très important de garder les visiteurs satisfaits quand ils visitent votre site en .

  3. Votre :

    Comme mentionné ci-dessus, le taux de rebond peut provoquer un mauvais classement dans les pages de résultats.

    Un autre facteur qui aura une incidence sur votre classement , c’est de voir votre page non indexée lors de l’exploration de Googlebot. Google utilise ses robots pour explorer votre site en entier afin de recueillir des informations précieuses sur la thématique de votre page.

Les liens sortants brisés

Et vous pourriez ne pas savoir que le contenu lié a été supprimé ou déplacé sur le site externe.

Lorsque votre site a des liens sortants brisés, c’est un mauvais signal à la fois pour vos utilisateurs et votre référencement. Googlebot explore le Web en allant de liens en liens pour collecter des données sur chaque page.

Veillez à vérifier régulièrement vos liens sortants pour vous assurer que vous ne redirigez pas les lecteurs (ou les bots) vers les pages brisées.

Comment vérifier et analyser vos liens sortants morts

Si vous avez un petit site, cette vérification des liens morts pourra se faire manuellement via l’extension Chrome “Check My Links” pour examiner manuellement chaque page de votre site et effectuer des contrôles individuellement pour détecter les liens brisés.

Cet outil vous aidera à découvrir à la fois les liens internes (liens de votre propre site) et les liens externes (liens vers d’autres sites

Si vous avez un gros site, il ne sera probablement pas possible de vérifier manuellement chaque page pour découvrir les liens brisés. Dans ce cas, il vaut mieux investir dans des vérificateurs de liens morts payants tels que Ahref ou Semrush qui peuvent vous aider à trouver des liens cassés en vrac sur votre site.

Vous pouvez aussi utiliser Broken Link Checker qui est un outil gratuit parfait si vous avez un site de moins de 3000 pages. Au-delà de 3000 pages, une contribution vous sera demandée.

Vous entrez votre , vous sélectionnez “Report distinct broken links only” et vous cliquez sur le bouton “Report distinct broken links only” après avoir saisi le code de vérification affiché.

Le résultat s’affiche au bout de quelques minutes dans un tableau avec, s’il y en a,cliquez sur URL pour le lien de votre page) et de destination (cliquez sur SRC pour le lien de la page pointée).

A vous d’aller le corriger ou le supprimer dans la page d’origine sur votre site.

Liens internes morts et pages d\’erreurs 404

Une erreur 404 se produit lorsque le contenu de votre site a été supprimé ou déplacé sans aucune redirection appropriée mise en place pour rediriger les visiteurs vers la page correcte.

explorer et indexer les sites

Lorsque les utilisateurs tombent sur des pages inexistantes ou déplacées sur votre site, cela peut affecter votre ratio d’utilisateurs habituels et affecter les taux de conversion de votre site Web.

Pour trouver les pages erreur 404 sur votre site résultant des liens internes cassés, vous pouvez utiliser l’outil Broken Link Check ou l’extension Chrome “Check My Links”, tous deux cités plus haut.

3 façons d\’éviter et fixer les pages d’erreur 404

  1. Mettez à jour plutôt que de supprimer le contenu :liens vers votre site).
  2. La redirection 301 pour envoyer les visiteurs vers une nouvelle page :en utilisant la redirection 301.
  3. Contactez le webmaster et demandez que le lien soit mis à jour :une URL incorrecte

Alors que Google affirme qu’avoir des pages d’erreur 404 ne nuira pas nécessairement à votre référencement

Twitter permet aux pros de demander la localisation d\'un profil

Les marques et les entreprises présentes sur Twitter peuvent désormais régler plus rapidement les problèmes et aider les clients en leur demandant leur localisation via un Message Privé.

Twitter permet aux pros de demander la localisation du client via un message privé

Ce qui renforce la position de dans le créneau de la relation client.

Twitter vient en effet de déployer un nouvel outil qui ne manquera pas d’être une aubaine pour les marques ayant plusieurs adresses physiques dans un pays ou à l’international et qui centralisent leur service clients sur une seule et même plateforme.

Dans un Message Privé, une entreprise peut maintenant demander l’accès à l’emplacement d’un utilisateur afin de mieux le servir ou de mieux l’orienter.

Les utilisateurs doivent accepter la demande en appuyant sur un bouton “Partager la Localisation” avant que l’information de leur emplacement sur une carte ne soit accessible à la marque.

Images via Twitter.com

Cette fonctionnalité devrait être très utile dans grand nombre de cas, en particulier pour les services clients et aussi pour les bots.

En obtenant les informations de localisation partagées instantanément par les clients qui les interpellent via Twitter, les marques peuvent répondre plus précisément à leurs clients.

Toutefois, l’utilisateur a également la possibilité de choisir ce qui sera exactement envoyé à la marque :

Certaines entreprises qui ont testé cette fonctionnalité l’ont finalement adoptée pour développer un bot qui dirige les utilisateurs vers le magasin de la chaîne ou la succursale la plus proche en fonction de leur emplacement, avec la possibilité de passer une commande en ligne pour être livrés.

Ce changement est l’une des nombreuses améliorations qui ont été déployées par Twitter dans le domaine de la relation client au cours des mois précédents, telles que les réponses rapides automatisées et les messages de bienvenue pour les marques.

Facebook Messenger relooke sa page d\'accueil avec de nouvelles sections

Poursuivant ses efforts pour se distinguer de plus en plus de l’application , Messenger adopte désormais une nouvelle interface avec l’ajout d’un onglet Accueil (Home).

Nouveau Facebook Messenger

Cet écran d’accueil va ainsi permettre aux utilisateurs de voir, immédiatement, qui parmi leurs amis est actuellement connecté, ceux qui fêteront bientôt leurs anniversaires et les personnes favorites avec lesquels le chat est régulier.

L’objectif de ce nouveau look est d’offrir plus de hiérarchie pour permettre de reprendre une discussion abandonnée ou de commencer plus facilement de nouvelles discussions avec les personnes avec lesquelles vous engagez souvent.

Ainsi, Messenger poursuit sa route vers une application autonome de chat qui vous permet de communiquer avec des applications, des chatbots, des entreprises et des amis.

C’est pourquoi l’écran d’accueil affiche maintenant une section avec une liste des amis qui sont en ligne, une autre pour vos contacts favoris, une autre pour les rappels d’anniversaire, et une dernière pour les message en attente de réponse de votre part.

Facebook Messenger relooke sa page d\'accueil avec de nouvelles sections
Image via Facebook

La barre du haut a maintenant été remplacée par une barre de recherche, qui reproduit l’expérience de recherche mobile de Facebook.

Une nouvelle interface qui intervient quelques jours après que Facebook ait officiellement annoncé le retour des SMS dans Messenger.

Tout est donc mis en place pour faire en sorte que les 900 millions d’utilisateurs de n’éprouvent plus le besoin de quitter l’application Messenger pour communiquer avec leurs amis.

Google n\'est pas un moteur de recherche selon le Parlement Européen

Selon l’association EDRi qui rapporte l’information, l’Union Européenne vient d’adopter un texte législatif qui établit que n’est pas un moteur de recherche comme nous le pensions tous jusqu’à maintenant.

Google n\'est pas un moteur de recherche selon le Parlement Européen

Ainsi, après deux années de procédures et de négociations entre le Parlement Européen et le Conseil de l’Union Européenne, le texte final adopté signifierait aussi que , et DuckDuckgo ne sont pas des moteurs de recherche.

Rappelons ici que l’EDRi (European Digital Rights) est une association belge qui regroupe 35 organisations de défense des libertés numériques dans 21 pays européens. L’objectif est de lutter pour la défense des droits des citoyens au sein de l’Union européenne en sensibilisant les gouvernements et l’opinion publique.

Alors, pourquoi Google n’est pas un moteur de recherche aux yeux du Parlement Européen ?

Selon la définition adoptée  (PDF) par les députés européens, un moteur de recherche explore tous les sites web, ce que ne ferait pas Google. Selon eux, \ »Google ne recherche pas et/ou n’indexe pas le web obscur (dark web ou deep web) tel que Tor, tout comme il ne visite pas les pages qui lui interdisent l’accès via le fichier robots.txt du site\ ».

Finalement, on serait tenté de penser qu’il n\’y a actuellement aucun moteur de recherche existant aujourd\’hui qui corresponde à la définition énoncée par la Directive sur la Sécurité des Réseaux et de l\’Information (SRI) qui indique :

“Le moteur de recherche en ligne est un service numérique qui permet aux utilisateurs d\’effectuer des recherches en principe dans tous les sites Web ou, dans un sous-ensemble géographique correspondant, des sites Web dans une langue déterminée sur la base d\’une requête sur n\’importe quel sujet sous la forme d\’un mot, phrase ou autre expression et renvoie des liens dans lequel se trouvent les renseignements concernant le contenu demandé.”

C’est donc l’emploi de l’expression clé “en principe dans tous les sites Web” qui est techniquement ce qui disqualifie tous les moteurs de recherche tels qu’on les connaît aujourd’hui d’être des moteurs de recherche, selon la définition de l’UE.

Car, Google, pour ne citer que lui en tant que leader de la recherche internet, choisirait de ne pas rechercher les sites Web de Tor et serait également en conformité avec les demandes des fichiers “robots.txt”, par lesquels les propriétaires de sites Web demandent au moteur de recherche de ne pas indexer leurs pages.

Comme le note l’EDRi dans son post, Google supprime environ 1 million les pages web individuelles chaque jour de son index pour de prétendues violations du droit d\’auteur, il désindexe aussi des pages pour diverses raisons, telles que les “revenge porn\ ». Et surtout, d’immenses quantités de documents ne sont également pas indexés par Google.

En bref, ni Google ni tout autre service de recherche… n’indexe ou ne veut indexer, en principe et en pratique, tous les sites Web. Les moteurs de recherche donc, conformément à la Directive sur la Sécurité des Réseaux et de l\’Information (SRI), n\’existent pas en Europe.

Google privilégie l\'indexation des pages HTTPS par défaut


Google favorisera les pages HTTPS par défaut

En d’autres termes, le référencement HTTPS devient maintenant la priorité pour , après en avoir fait un critère de classement avec un tout petit \ »boost\ » au départ.

Toutefois, les pages HTTP ne seront probablement pas pour l’instant affectées dans les résultats de recherche. Google ne cherche qu’à fournir plus de pages sécurisées dans ses résultats, mais on peut s’attendre à ce que l’étape suivante, comme il l’a fait avec le mobile-friendly, sera de déclasser les pages non-sécurisées.

page sécurisée HTTPS

Critères de l’indexation du HTTPS par défaut

conditions suivantes :

  • Elle ne contient pas de dépendances non sécurisées.
  • Elle ne redirige pas les internautes vers ou via une page HTTP non sécurisée.
  • Elle ne possède pas de lien \ »rel=\ »canonical\ »\ » vers la page HTTP.
  • Elle ne contient pas de balise Meta \ »noindex\ » pour les robots.

Donc, en ce qui concerne Google, la version HTTPS de votre site, si vous en avez, sera prioritaire par défaut.

l\’en-tête HSTS (HTTP Strict Transport Security) sur votre serveur.

Qu’est-ce que le HTTP Strict Transport Security (HSTS)

Le HTTP Strict Transport Security (HSTS) est un mécanisme de politique de sécurité proposé pour HTTP, permettant à un serveur web de déclarer à un agent utilisateur (comme un navigateur webcomme HTTPS).

« Strict-Transport-Security »

La politique HSTS aide à protéger les utilisateurs de sites web contre quelques attaques réseau passives (écoute clandestine) et actives. Une attaque du type man-in-the-middle ne peut pas intercepter de requête tant que le HSTS est actif pour ce site.

C\'est quoi le contenu dupliqué pour Google ?

Le contenu dupliqué ou contenu en double est aussi l’un des sujets récurrents du référencement Web abordés par les .

Qu\'est-ce que Google entend par contenu dupliqué ou en double ?

Et ce, en raison du fait qu’il existe différentes sortes de contenus en double dont certains peuvent être pénalisés par et d’autres pas.

Le dernier Hangout de John Mueller sur le “duplicate content”

Par définition, et selon Google, par contenu dupliqué, il entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires. À l\’origine, la plupart de ces contenus ne sont pas malveillants.

Cependant, dans certains cas, le contenu est délibérément dupliqué entre les domaines afin de manipuler le classement du site par les moteurs de recherche ou d\’augmenter le trafic. Ce type de pratique trompeuse peut avoir, selon Google, des effets négatifs sur la navigation de l\’internaute qui voit quasiment le même contenu se répéter dans un ensemble de résultats de recherche.

En conséquence, le référencement du site peut être affecté, ou le site peut être retiré définitivement de l\’index Google, auquel cas il ne s\’affichera plus dans les résultats de recherche.

Alors, voici quelques précisions de John Mueller :

  • Le contenu dupliqué touche à peu près tous les sites web, quelle que soit leur taille.
  • Selon John Mueller, le contenu en double, c’est un même contenu sur un même site. C’est aussi un même contenu avec un même chemin d’accès dans des URLs avec et sans WWW.
  • N’est pas un contenu dupliqué un contenu traduit ou adapté à partir d’une autre langue (ce n’est pas une raison pour ne pas citer la source). Il en est de même avec différentes pages ayant un même titre et/ou une même description, ainsi que le contenu dans les applications.
  • John Mueller confirme ce qu’avait déjà dit Gary Illyes en Mars 2015, à savoir que le contenu dupliqué n’est pas en soi une cause de pénalité.
  • Les contenus dupliqués sont une perte de temps de stockage et de ressources serveurs.
  • Si une page est dupliquée, Google ne conserve qu’une seule copie.
  • Un contenu dupliqué pour 2 localisations dans deux pays différents n’est pas une cause de pénalité.
  • Le contenu dupliqué dans les résultats de recherche crée de la confusion chez les utilisateurs. C’est pourquoi Google ne choisit de n’afficher qu’une seule version, l\’originale.

La pénalité de contenu dupliqué est donc un mythe.

Comment gérer les contenus dupliqués

Selon Google, les mesures suivantes vous permettent de résoudre les problèmes de contenu en double de manière proactive et de vous assurer que les visiteurs accèdent au contenu que vous souhaitez leur présenter.

  • Utilisez les redirections 301 : si vous avez restructuré votre site, utilisez des redirections 301 (\ »RedirectPermanent\ ») dans votre fichier .htaccess pour rediriger efficacement les internautes, Googlebot et les autres robots d\’exploration.
  • Soyez cohérent : soyez cohérent dans votre système de liens internes. Par exemple, n\’établissez pas de lien vers http://www.example.com/page/, http://www.example.com/page ni http://www.example.com/page/index.htm.
  • Utilisez des domaines de premier niveau : pour aider Google à présenter la version la plus appropriée d\’un document, utilisez dans la mesure du possible des domaines de premier niveau pour gérer du contenu spécifique à un pays donné.

    Google peut supposer que le site ”http://www.example.de”, par exemple, présente du contenu destiné à l\’Allemagne, par rapport à “http://www.example.com/de” ou http://de.example.com.

  • Soyez prudent en diffusant votre contenu : si vous publiez votre contenu sur d\’autres sites (Guest blogging), Google affichera systématiquement la version jugée la plus appropriée pour les internautes pour chaque recherche donnée, qui pourra correspondre ou non à celle que vous préférez.

    Cependant, il est utile de s\’assurer que chaque site sur lequel votre contenu est diffusé (notamment en guest blogging) inclut un lien renvoyant vers votre article original.

  • Utilisez Search Console pour indiquer à Google comment indexer votre site : vous pouvez indiquer à Google votre domaine favori (par exemple, http://www.example.com ou http://example.com).
  • Limitez les répétitions : par exemple, au lieu d\’inclure un avis de copyright au bas de chaque page, insérez un bref récapitulatif, puis établissez un lien vers une page plus détaillée. Par ailleurs, vous pouvez utiliser l\’outil de gestion des paramètres pour définir la manière dont Google doit traiter les paramètres d\’URL.
  • Évitez la publication de pages incomplètes : les internautes n\’apprécient pas les pages \ »vides\ », évitez donc les espaces réservés dans la mesure du possible. Utilisez la balise Meta noindex pour bloquer leur indexation.
  • Apprenez à maîtriser votre système de gestion de contenu : vérifiez que vous maîtrisez l\’affichage du contenu sur votre site Web. Les blogs, forums et systèmes associés affichent souvent le même contenu dans des formats divers.
  • Limitez les contenus similaires : si de nombreuses pages de votre site sont similaires, développez chacune d\’entre elles ou regroupez-les pour n\’en faire qu\’une seule.
  • Il n\’est pas recommandé de bloquer l\’accès des robots d\’exploration au contenu en double de votre site Web, que ce soit à l\’aide d\’un fichier robots.txt ou d\’autres méthodes.

    Il est préférable de permettre aux moteurs de recherche d\’explorer ces URL, mais marquez celles-ci comme des doubles à l\’aide de l\’élément link rel=\ »canonical\ », de l\’outil de gestion des paramètres d\’URL ou des redirections 301.

  • Dans le cas où le contenu en double nous conduit à explorer excessivement votre site Web, vous pouvez également régler les paramètres de la vitesse d\’exploration dans Search Console.

En conclusion, sachez que le contenu en double n\’entraîne pas de conséquences négatives particulières pour votre site sauf si l\’objectif semble être de tromper et de manipuler les résultats des moteurs de recherche.

Cependant, si Google estime qu\’il s\’agit de pratiques trompeuses, il retirera votre site de ses pages de résultats de recherche.

Si votre site a été retiré des résultats de recherche, après avoir apporté les modifications nécessaires et vous être assuré que votre site respectait ses consignes SEO, envoyez une demande de réexamen à Google.

Google demande de ne pas bloquer l\'accès de Googlebot aux fichiers

Search Console a commencé à envoyer à de nombreux webmasters des messages d’alerte par email les notifiant de l’impossibilité pour Googlebot, le robot d’indexation de Google, d’explorer librement certains fichiers. 

Ce qui pourrait impacter le référencement de leurs sites web.

Google envoie des notifications aux sites bloquant l’accès aux fichiers CSS et JavaScript

Ces fichiers généralement mentionnés par Google concernent les CSS et autres JavaScripts qui n’autorisent pas l’accès à leurs données.

Voici un exemple de message reçu par certains webmasters :

Plus particulièrement, Googlebot ne peut accéder à vos fichiers JavaScript ou CSS à cause de restrictions dans votre fichier robots.txt. Ces fichiers nous permettent de comprendre que votre site Web fonctionne correctement. En bloquant l\’accès à ces éléments, il est donc possible que le classement du site ne soit pas optimal.

Le message d’alerte indique également avec insistance que le blocage des fichiers Javascript et/ou CSS “peut entraîner des classements qui ne soient pas optimaux”.

Alors que Google a fait savoir, après un changement de ses consignes aux webmasters, de ne plus jamais bloquer Googlebot lors de ses visites d’exploration et d’indexation. Notamment via le fichier robots.txt.

Voici d’ailleurs ce qu’il dit dans ses consignes :

Pour nous aider à comprendre le contenu de votre site de manière exhaustive, autorisez l\’exploration de tous les éléments de votre site, tels que les fichiers CSS et JavaScript. Notre système d\’indexation affiche des pages Web à l\’aide du code HTML de la page, ainsi que d\’éléments tels que les fichiers images, CSS et JavaScript.

Pour voir les éléments de page qui ne peuvent pas être explorés par Googlebot et pour résoudre les problèmes relatifs aux instructions dans votre fichier robots.txt, utilisez la fonctionnalité Explorer comme Google et l\’outil de test du fichier robots.txt dans les outils pour les webmasters.

Comment découvrir les ressources bloquées par robots.txt

Les ressources bloquées sont aussi mises en évidence dans la section “Index Google” -> “Ressources bloquées” dans votre Console.

Le message d’alerte dans fournit aussi les détails sur la façon de résoudre le problème en proposant toutefois de mettre à jour la règle du fichier robots.txt pour débloquer la ressource.

Il semble que depuis quelques jours, Google a augmenté le nombre de messages qu\’il envoie aux webmasters sur les blocages de GoogleBot.

Et ils sont aussi nombreux, les webmasters qui utilisent , qui ont reçu des avertissements pour avoir utilisé “abusivement” l’instruction “Disallow: /wp-content/plugins” dans leur fichier robots.txt.

Voici les différents types d’instructions qui peuvent générer un message d’alerte dans Google Search Console et par email :

Disallow: /.js$*

Disallow: /.inc$*

Disallow: /.css$*

Disallow: /.php$*

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /cgi-bin/

Disallow: /wp-content/uploads/

Disallow: /wp-includes/css/

Disallow: /wp-includes/js/

Disallow: /wp-includes/images/

Ce que demande donc Google dorénavant, c’est qu’il n’y ait plus dans aucun fichier robots.txt d’instructions du type “Disallow: /nomdufichier” ou “Disallow: /nomdurepertoire/”.

Si vous en avez dans votre fichier robots.txt, supprimez-les immédiatement, remplacez-les par \ »Allow: /\ » et le problème sera résolu. Sinon, votre référencement pourrait en souffrir comme Google le mentionne dans ses notifications.

Car, Google déconseille de restreindre l\’accès à tous les fichiers existant dans votre site afin d\’améliorer leur indexation, notamment pour le mobile, et donc probablement votre classement sur Google.

Testez votre fichier robots.txt

L\’outil de test du fichier robots.txt vous indique si votre fichier robots.txt empêche nos robots d\’explorer des URL spécifiques sur votre site.

  1. Depuis la page d\’accueil de la Search Console, sélectionnez le site dont vous souhaitez tester le fichier robots.txt.
  2. Sous l\’en-tête \ »Exploration\ » du tableau de bord de gauche, sélectionnez l\’Outil de test du fichier robots.txt.
  3. Apportez des modifications à votre fichier robots.txt en ligne dans l\’éditeur de texte.
  4. Faites défiler le code du fichier robots.txt pour localiser les avertissements relatifs à la syntaxe et les erreurs de logique signalés. Le nombre d\’avertissements relatifs à la syntaxe et d\’erreurs de logique s\’affiche immédiatement sous l\’éditeur.
  5. Saisissez une extension de l\’URL ou un chemin d\’accès dans la zone de texte en bas de la page.
  6. Dans la liste déroulante à droite de la zone de texte, sélectionnez le user-agent que vous souhaitez simuler.
  7. Cliquez sur le bouton TEST après avoir choisi le robot pour lancer la simulation.
  8. Vérifiez si le bouton TEST indique Acceptée ou Bloquée pour savoir si nos robots d\’exploration peuvent ou non explorer cette URL.

1 Milliard de dollars : c\'est le coût de la fraude publicitaire dans les applis mobiles

La fraude publicitaire en ligne est désormais un fléau qui commence à préoccuper sérieusement les annonceurs et surtout les plateformes publicitaires.

Je vous annonçais d’ailleurs ici que les géants du Net tels que , et Facebook étaient en train de s’associer pour faire face en commun à ces clics frauduleux qui pénalisent les annonceurs et pourraient donc remettre en cause la crédibilité des factures qui leur sont présentées par les plateformes publicitaires.

Chiffres de la fraude publicitaire dans les applis mobiles

Une nouvelle étude de la société Forensiq vient de tirer la sonnette d’alarme en révélant que les applications mobiles seraient aussi une cible des fraudeurs.

Mais, dans le cas des appareils mobiles, il s’agit dans un premier temps du piratage desdits appareils afin d’afficher des publicités masquées et de simuler des activités humaines similaires aux traditionnels robots ou bots rencontrés sur les ordinateurs.

Forensiq dit que sa plateforme de détection de fraudes a identifié plus de 5.000 applications mobiles commettant la fraude publicitaire tout en surveillant tous les types de trafic irrégulier suites à ces impressions publicitaires fictives.

La société Forensiq affirme qu\’elle a observé, pendant 10 jours,  plus de 12 millions de dispositifs uniques avec des applications \ »infectées\ », touchant environ 1 % des appareils mobiles qu\’elle a observés aux États-Unis et 2 à 3 % en Europe et en Asie.

Suivant l\’activité qu\’elle a observée, Forensiq estime qu’il y aurait une perte annuelle de plus 857 millions de dollars au niveau mondial sur les CPM (Coûts Par Mille affichages) de 1 dollar sur et Mobile et 1,25 dollar sur les plateformes .

Tout comme les botnets (réseaux de bots) qui infectent les ordinateurs des utilisateurs non avertis, beaucoup de ces applications auraient tendance à s’exécuter en permanence en arrière-plan sur les smartphones et à servir des milliers d\’annonces par jour qui ne sont jamais vues par les utilisateurs.

Lorsqu\’une application est exécutée par l’utilisateur au premier plan, seules 10 à 20 % des annonces mobiles sont visibles.

Dans certains cas, les applications ont été conçues pour frauder les publicités. Dans d\’autres cas, Forensiq a vu que l\’activité programmatique des applications ne supportaient pas la publicité.

Images via Marketingland.com

La société Forensiq estime que les applications sont \ »victimes d\’usurpation d\’applications” qui nécessitent que les éditeurs ou les plateformes publicitaires mobiles modifient les headers des applis.

Parce que ces applications diffusent des annonces, souvent au rythme de 20 annonces par minute et peuvent aussi récupérer des données.

Selon Forensiq, ces applications malveillantes demandent souvent des autorisations suspectes, et sont notamment en mesure d’empêcher les mobiles de se mettre en veille, de s’exécuter au démarrage, de modifier et supprimer du contenu sur la carte SD et accéder aux services de localisation lors de l\’exécution en arrière-plan.

Beaucoup de ces autorisations sont requises même si les véritables caractéristiques de l\’application ne les exigent pas réellement.

Forensiq dit aussi avoir constaté que quelques applications installaient un script pour simuler des clics aléatoires et charger la page de destination de l\’annonceur à l\’insu de l\’utilisateur.

Tandis que d\’autres applications redirigeaient automatiquement des utilisateurs par le biais de liens d\’affiliation vers des sites Web demandant aux utilisateurs d\’acheter des objets ou autres applications sur l\’app store.

Quand Google, Yahoo et Facebook s\'allient pour bloquer les faux trafics de robots

Malgré la concurrence qui existe entre eux, les Géants du Net savent s’unir pour faire face à un même danger commun quand leurs intérêts sont en jeu.

, et viennent de créer un fichier commun destiné à bloquer les faux trafics web et à combattre la fraude publicitaire.

Quand Google, Yahoo et Facebook collaborent pour bloquer les mauvais robots

Ce fichier est constitué d’une liste noire des adresses IP identifiées des robots simulant de faux trafics sur leurs plateformes. Et donc sur tous les sites web.

Ainsi, comme le rapporte le site Thehackernews, ce nouveau programme commun va permettre à ces leaders du Net de blacklister et de rejeter les visites de certains robots web, ainsi que des bots nuisibles et consommateurs de bande passante inutilement.

Google, Yahoo et Facebook ou tout autre entreprise du domaine des nouvelles technologies va donc tenir une liste noire qui va répertorier des adresses IP suspectes de systèmes informatiques dans les data centers qui peuvent être tentées de se faire passer pour des humains pour cliquer les publicités de façon automatisée.

DoubleClick de Google a, à lui tout seul, bloqué près de 8,9% du trafic de certains data center au cours du mois de Mai dernier.

L’objectif de cette collaboration est surtout de mettre en place un front commun contre certaines activités nuisibles pour tous, notamment les clics frauduleux sur les publicités en ligne qui constituent aujourd’hui un fléau, mais aussi un vrai business pour leurs auteurs…

D’ailleurs, ces précurseurs de ce front commun entendent bien inviter d’autres leaders du Net à y contribuer afin de réduire considérablement certaines fraudes qui pululent sur le Net. Il faut dire que ces clics frauduleux touchent à “leurs portes-feuilles”, et c’est préoccupant pour eux.

Et c’est aussi préoccupant pour les annonceurs qui paient pour des clics factices.

Créer un site qui s\'auto-détruit dès que Google l\'indexe, c\'est possible !

Il s’agit ici d’une expérience menée par +Matthew Rothenberg qui se présente comme étant artiste et accessoirement hacker (dans le sens du bidouilleur).

Son expérimentation à consister à créer un site dénommé Unindexed qui va continuellement se chercher dans . Donc, chercher à savoir si l’a indexé.

Créer un site qui s\'auto-détruit dès que Google l\'indexe

Et, contrairement à l’attente de tout webmaster pour son site, Unindexed va refuser d’être présent sur Google.

Alors, dès qu’il se sera trouvé dans les pages de résultats de Google, il va, avec beaucoup de précaution, se supprimer de la page de résultats en s’auto-détruisant. Pour laisser ainsi Google afficher un message d’erreur.

Il fait donc ainsi de l’instant T où l’algorithme de Google le découvre et le classe le catalyseur de la destruction. Car, il s’auto-détruit de façon permanente.

Unindexed a quand même vécu pendant 22 jours, le temps qu’il soit repéré par Google. Il s’en est allé le 24 Février dernier en laissant ce message :

The site was discovered by Google after 22 days on Tue Feb 24 2015 21:01:14 GMT+0000 (UTC) and consequently instantly destroyed. Prior to the automatic deletion it it had hundreds of visitors and dozens of contributions. No backups were kept.

Informations si vous voulez faire le test

Matthew Rothenberg a livré quelques informations sur sa méthodologie que voici :

  • Le contenu de ce site est uniquement stocké en mémoire (via Redis) et se charge via un fichier depuis une partition chiffrée (ou sécurisée) de son ordinateur personnel.

    Cette partition est ensuite détruite immédiatement après le lancement du site. Les sauvegardes sont alors désactivées. Le contenu est vidé de la mémoire une fois que le site détecte qu\’il a été indexé par Google.

  • L\’URL du site peut être générée de façon algorithmique et est configurée via la variable d\’environnement, alors ce code source peut être rendu public sans divulguer l\’emplacement du site aux robots.
  • Les visiteurs peuvent laisser des commentaires sur le site pendant qu\’il est actif. Mais, ces commentaires seront supprimés de la même façon que le contenu indexé par Google. Ce qui rend les commentaires aussi éphémères que le contenu lui-même.

Si vous voulez tenter l’expérience, vous pouvez récupérer le code laissé par Rothenberg ici.

Bien entendu, personne ne le ferait avec son propre site.