Comment corriger ou réparer l\'erreur 404 ?

Lorsque les visiteurs suivent des liens hypertextes

Comment corriger ou réparer l\'erreur 404 ?

Les liens brisés ne sont pas seulement mauvais pour l\’expérience utilisateur

Qu’est-ce que les liens brisés affectent ?

La page d’erreur 404 ne frustre pas uniquement les moteurs de recherche et les utilisateurs. Elle aura aussi une incidence sur votre entreprise elle-même.

  1. Votre chiffre d’affaires :

    Les liens morts sont des obstacles dans le processus de conversion. Peu importe combien de temps vous avez passé à obtenir des clients sur votre site, s\’ils ne peuvent pas accéder à la page de conversion, tous vos efforts seront vains.

    En plus de perdre des revenus, vous perdrez aussi des clients. Un client potentiel qui ne trouve pas la page de conversion est une personne qui pourrait faire savoir à son entourage et sur les réseaux sociaux (par exemple) la mauvaise expérience vécue sur votre site.

    Et au final, ce n’est pas un seul client potentiel que vous aurez perdu, mais beaucoup d’autres.

    Si vous ne fournissez pas une bonne expérience utilisateur, vos visiteurs vont répandre le mot et vous finirez par perdre plus de clients que vous ne l\’aurez imaginé.

    Après tout, vous ne voudriez pas perdre votre temps et effort pour créer votre site Web, et avoir des visiteurs malheureux ? Il suffit de penser à quel point c’est frustrant de trouver un lien par lequel vous espérez obtenir plus d\’informations, et d’arriver sur une page erreur 404 qui vous dit que la réponse n\’existe pas.

  2. Votre taux de rebond :

    La page d\’erreur 404 n\’est pas seulement frustrante, mais elle pourrait nuire à votre taux de rebond aussi.

    Le taux de rebond est mesuré par la quantité de temps (durée) qu\’un visiteur passe sur votre page, et si l\’utilisateur ne reste pas pendant un certain laps de temps, il sera considéré comme ayant «rebondi» à partir de votre page.

    Lorsque vous avez des visiteurs mécontents sur votre site, chacun d\’eux quittera votre site Web, ce qui va au fil du temps générer un taux de rebond plus élevé.

    Lorsque les moteurs de recherche constatent un taux de rebond élevé sur votre page, ils vont brandir un carton rouge, et l\’ensemble du site pourrait ne plus sembler pertinent pour ces moteurs de recherche.

    Par conséquent, il est très important de garder les visiteurs satisfaits quand ils visitent votre site en fournissant une bonne expérience d\’utilisateur.

  3. Votre :

    Comme mentionné ci-dessus, le taux de rebond peut provoquer un mauvais classement dans les pages de résultats.

    Lorsque Google voit que les visiteurs quittent votre page après quelques petites secondes, il va supposer que les visiteurs n\’ont pas trouvé ce qu\’ils cherchent.

    Ensuite, s\’il s\’agit d\’une page non trouvée que Google sait détecter, il pourrait supprimer la page de ses SERPS comme n’étant pas une page crédible et fiable pouvant procurer une bonne expérience utilisateur.

    Un autre facteur qui aura une incidence sur votre classement Google, c’est de voir votre page non indexée lors de l’exploration de Googlebot. Google utilise ses robots pour explorer votre site en entier afin de recueillir des informations précieuses sur la thématique de votre page.

    Mais quand les crawlers de Google arrivent sur un lien brisé, ils ont tendance à arrêter le processus d\’indexation, ce qui peut ruiner vos chances d\’obtenir un classement plus élevé.

Les liens sortants brisés

Lorsque vous pointez des liens vers d\’autres sites à partir de votre propre site, ces liens sont appelés liens sortants. Limiter ou supprimer tous les liens morts pointant vers des pages externes peut être parfois difficile, car vous n\’avez probablement pas le contrôle sur le contenu externe que vous liez.

Et vous pourriez ne pas savoir que le contenu lié a été supprimé ou déplacé sur le site externe.

Lorsque votre site a des liens sortants brisés, c’est un mauvais signal à la fois pour vos utilisateurs et votre référencement. Googlebot explore le Web en allant de liens en liens pour collecter des données sur chaque page.

Veillez à vérifier régulièrement vos liens sortants pour vous assurer que vous ne redirigez pas les lecteurs (ou les bots) vers les pages brisées.

Comment vérifier et analyser vos liens sortants morts

Si vous avez un petit site, cette vérification des liens morts pourra se faire manuellement via l’extension Chrome “Check My Links” pour examiner manuellement chaque page de votre site et effectuer des contrôles individuellement pour détecter les liens brisés.

Cet outil vous aidera à découvrir à la fois les liens internes (liens de votre propre site) et les liens externes (liens vers d’autres sites) rompus. Gardez l\’enregistrement des occurrences des liens rompus dans une feuille de calcul ou dans un simple documents txt afin de pouvoir revenir plus tard corriger ou supprimer des liens.

Si vous avez un gros site, il ne sera probablement pas possible de vérifier manuellement chaque page pour découvrir les liens brisés. Dans ce cas, il vaut mieux investir dans des vérificateurs de liens morts payants tels que Ahref ou Semrush qui peuvent vous aider à trouver des liens cassés en vrac sur votre site.

Vous pouvez aussi utiliser Broken Link Checker qui est un outil gratuit parfait si vous avez un site de moins de 3000 pages. Au-delà de 3000 pages, une contribution vous sera demandée.

Vous entrez votre , vous sélectionnez “Report distinct broken links only” et vous cliquez sur le bouton “Report distinct broken links only” après avoir saisi le code de vérification affiché.

Le résultat s’affiche au bout de quelques minutes dans un tableau avec, s’il y en a, à la fois les liens internes et les liens sortants brisés. Pour chaque lien brisé par ligne, vous avez la page d\’origine (cliquez sur URL pour le lien de votre page) et de destination (cliquez sur SRC pour le lien de la page pointée).

A vous d’aller le corriger ou le supprimer dans la page d’origine sur votre site.

Liens internes morts et pages d\’erreurs 404

Les liens internes se rapportent à des liens qui vont d\’une page de votre site Web vers une autre page de votre site Web. Ces liens sont ceux sur lesquels vous avez le plus de contrôle.

Une erreur 404 se produit lorsque le contenu de votre site a été supprimé ou déplacé sans aucune redirection appropriée mise en place pour rediriger les visiteurs vers la page correcte.

Il est important de comprendre que l\’une des façons pour les moteurs de recherche d’explorer et indexer les sites est de visiter leurs liens. S\’il y a des liens morts sur votre site Web, ils peuvent arrêter l’exploration de votre site, ainsi que l\’indexation de vos pages.

Et les pages d’erreur 404 encouragent les utilisateurs à quitter votre site et passer au site suivant plutôt que d’y rester en espérant trouver l\’information dont ils ont besoin à partir d\’une page cassée pourtant visitée.

Lorsque les utilisateurs tombent sur des pages inexistantes ou déplacées sur votre site, cela peut affecter votre ratio d’utilisateurs habituels et affecter les taux de conversion de votre site Web.

Pour trouver les pages erreur 404 sur votre site résultant des liens internes cassés, vous pouvez utiliser l’outil Broken Link Check ou l’extension Chrome “Check My Links”, tous deux cités plus haut.

3 façons d\’éviter et fixer les pages d’erreur 404

  1. Mettez à jour plutôt que de supprimer le contenu : Au lieu de supprimer des pages, essayez de mettre à jour ou actualiser le contenu. Cela permettra d\’éviter les pages 404 indésirables évitables qui peuvent résulter de la suppression du contenu avec lequel d\’autres pages sont en liaison (liens vers votre site).
  2. La redirection 301 pour envoyer les visiteurs vers une nouvelle page : Si le contenu existe toujours sur votre site, mais a simplement changé d\’emplacement, ou s\’il y a eu une mise à jour de la structure de votre URL, alors redirigez les visiteurs vers la nouvelle page en utilisant la redirection 301.
  3. Contactez le webmaster et demandez que le lien soit mis à jour : si l\’erreur 404 se produit parce qu\’un site externe à pointer un lien vers votre contenu à l\’aide d\’une URL incorrecte, vous pouvez être en mesure de résoudre le problème en contactant et en demandant une mise à jour à l\’auteur du contenu externe ou au webmaster du site externe.

Alors que Google affirme qu’avoir des pages d’erreur 404 ne nuira pas nécessairement à votre référencement, elles peuvent gravement nuire à l\’expérience utilisateur qui peut entraîner des performances médiocres telles que des taux de rebond plus élevés.

Les moteurs de recherche essaient tant que faire se peut d\’améliorer constamment l\’expérience utilisateur. Alors, une bonne règle de base est que si c\’est mauvais pour l\’utilisateur, ce n\’est probablement pas bon non plus pour votre SEO.

Google n\'est pas un moteur de recherche selon le Parlement Européen

Selon l’association EDRi qui rapporte l’information, l’Union Européenne vient d’adopter un texte législatif qui établit que n’est pas un moteur de recherche comme nous le pensions tous jusqu’à maintenant.

Google n\'est pas un moteur de recherche selon le Parlement Européen

Ainsi, après deux années de procédures et de négociations entre le Parlement Européen et le Conseil de l’Union Européenne, le texte final adopté signifierait aussi que , et DuckDuckgo ne sont pas des moteurs de recherche.

Rappelons ici que l’EDRi (European Digital Rights) est une association belge qui regroupe 35 organisations de défense des libertés numériques dans 21 pays européens. L’objectif est de lutter pour la défense des droits des citoyens au sein de l’Union européenne en sensibilisant les gouvernements et l’opinion publique.

Alors, pourquoi Google n’est pas un moteur de recherche aux yeux du Parlement Européen ?

Selon la définition adoptée  (PDF) par les députés européens, un moteur de recherche explore tous les sites web, ce que ne ferait pas Google. Selon eux, \ »Google ne recherche pas et/ou n’indexe pas le web obscur (dark web ou deep web) tel que Tor, tout comme il ne visite pas les pages qui lui interdisent l’accès via le fichier robots.txt du site\ ».

Finalement, on serait tenté de penser qu’il n\’y a actuellement aucun moteur de recherche existant aujourd\’hui qui corresponde à la définition énoncée par la Directive sur la Sécurité des Réseaux et de l\’Information (SRI) qui indique :

“Le moteur de recherche en ligne est un service numérique qui permet aux utilisateurs d\’effectuer des recherches en principe dans tous les sites Web ou, dans un sous-ensemble géographique correspondant, des sites Web dans une langue déterminée sur la base d\’une requête sur n\’importe quel sujet sous la forme d\’un mot, phrase ou autre expression et renvoie des liens dans lequel se trouvent les renseignements concernant le contenu demandé.”

C’est donc l’emploi de l’expression clé “en principe dans tous les sites Web” qui est techniquement ce qui disqualifie tous les moteurs de recherche tels qu’on les connaît aujourd’hui d’être des moteurs de recherche, selon la définition de l’UE.

Car, Google, pour ne citer que lui en tant que leader de la recherche internet, choisirait de ne pas rechercher les sites Web de Tor et serait également en conformité avec les demandes des fichiers “robots.txt”, par lesquels les propriétaires de sites Web demandent au moteur de recherche de ne pas indexer leurs pages.

Comme le note l’EDRi dans son post, Google supprime environ 1 million les pages web individuelles chaque jour de son index pour de prétendues violations du droit d\’auteur, il désindexe aussi des pages pour diverses raisons, telles que les “revenge porn\ ». Et surtout, d’immenses quantités de documents ne sont également pas indexés par Google.

En bref, ni Google ni tout autre service de recherche… n’indexe ou ne veut indexer, en principe et en pratique, tous les sites Web. Les moteurs de recherche donc, conformément à la Directive sur la Sécurité des Réseaux et de l\’Information (SRI), n\’existent pas en Europe.

Google privilégie l\'indexation des pages HTTPS par défaut


Google favorisera les pages HTTPS par défaut

En d’autres termes, le référencement HTTPS devient maintenant la priorité pour Google, après en avoir fait un critère de classement avec un tout petit \ »boost\ » au départ.

Toutefois, les pages HTTP ne seront probablement pas pour l’instant affectées dans les résultats de recherche. Google ne cherche qu’à fournir plus de pages sécurisées dans ses résultats, mais on peut s’attendre à ce que l’étape suivante, comme il l’a fait avec le mobile-friendly, sera de déclasser les pages non-sécurisées.

Ainsi, maintenant, lorsqu’un site web aura deux pages aux contenus identiques dont l’une est en HTTP et l’autre en page sécurisée HTTPS dans ses résultats de recherche. Et ce, mêmes si cette page HTTPS ne bénéficie d’aucune redirection à partir d\’une autre page HTTP.

Comme le dit John Mueller (voir tweet ci-dessus) de chez Google, le référencement HTTPS s\’imposera à long terme.

Mais, pour l\’instant, pour que cette indexation par défaut puisse se faire, certains critères devront être remplis.

Critères de l’indexation du HTTPS par défaut

Comme le dit Google, lorsque deux URL associées au même nom de domaine semblent avoir le même contenu, mais sans avoir le même protocole de diffusion, la priorité sera accordée à l\’URL HTTPS, si cette dernière remplit les conditions suivantes :

  • Elle ne contient pas de dépendances non sécurisées.
  • Son exploration n\’est pas bloquée par un fichier robots.txt.
  • Elle ne redirige pas les internautes vers ou via une page HTTP non sécurisée.
  • Elle ne possède pas de lien \ »rel=\ »canonical\ »\ » vers la page HTTP.
  • Elle ne contient pas de balise Meta \ »noindex\ » pour les robots.
  • Elle ne comprend pas de liens sortants à partir de l\’hôte redirigeant vers des URL HTTP.
  • Le sitemap répertorie l\’URL HTTPS, ou ne mentionne pas la version HTTP de l\’URL.
  • Le serveur dispose d\’un certificat TLS valide.

Donc, en ce qui concerne Google, la version HTTPS de votre site, si vous en avez, sera prioritaire par défaut.

Mais, en ce qui concerne les autres moteurs de recherche, vous pouvez les forcer à considérer vos pages HTTPS comme prioritaires en configurant votre site HTTP de sorte qu\’il redirige vers la version HTTPS équivalente et en mettant en œuvre l\’en-tête HSTS (HTTP Strict Transport Security) sur votre serveur.

Qu’est-ce que le HTTP Strict Transport Security (HSTS)

Le HTTP Strict Transport Security (HSTS) est un mécanisme de politique de sécurité proposé pour HTTP, permettant à un serveur web de déclarer à un agent utilisateur (comme un navigateur web), compatible, qu\’il doit interagir avec lui en utilisant une connexion sécurisée (comme HTTPS).

La politique est donc communiquée à l\’agent utilisateur par le serveur via la réponse HTTP, dans le champ d\’en-tête nommé « Strict-Transport-Security ». La politique spécifie une période de temps durant laquelle l\’agent utilisateur doit accéder au serveur uniquement de façon sécurisée.

Ainsi, lorsque la politique HSTS est active pour un site web, l\’agent utilisateur compatible opère comme suit :

  • Si la sécurité de la connexion ne peut être assurée (par exemple, le certificat TLS est auto-signé), celui-ci affiche un message d\’erreur et interdit à l\’utilisateur l\’accès au site à cause de cette erreur.

La politique HSTS aide à protéger les utilisateurs de sites web contre quelques attaques réseau passives (écoute clandestine) et actives. Une attaque du type man-in-the-middle ne peut pas intercepter de requête tant que le HSTS est actif pour ce site.

C\'est quoi le contenu dupliqué pour Google ?

Le contenu dupliqué ou contenu en double est aussi l’un des sujets récurrents du référencement Web abordés par les .

Qu\'est-ce que Google entend par contenu dupliqué ou en double ?

Et ce, en raison du fait qu’il existe différentes sortes de contenus en double dont certains peuvent être pénalisés par et d’autres pas.

Le dernier Hangout de John Mueller sur le “duplicate content”

Par définition, et selon Google

Alors, voici quelques précisions de John Mueller :

  • Le contenu dupliqué touche à peu près tous les sites web, quelle que soit leur taille.
  • Selon John Mueller, le contenu en double, c’est un même contenu sur un même site. C’est aussi un même contenu avec un même chemin d’accès dans des URLs avec et sans WWW.
  • N’est pas un contenu dupliqué un contenu traduit ou adapté à partir d’une autre langue (ce n’est pas une raison pour ne pas citer la source). Il en est de même avec différentes pages ayant un même titre et/ou une même description, ainsi que le contenu dans les applications.
  • John Mueller confirme ce qu’avait déjà dit Gary Illyes en Mars 2015, à savoir que le contenu dupliqué n’est pas en soi une cause de pénalité.
  • Les contenus dupliqués sont une perte de temps de stockage et de ressources serveurs.
  • Si une page est dupliquée, Google ne conserve qu’une seule copie.
  • Un contenu dupliqué pour 2 localisations dans deux pays différents n’est pas une cause de pénalité.

La pénalité de contenu dupliqué est donc un mythe.

Comment gérer les contenus dupliqués

Selon Google, les mesures suivantes vous permettent de résoudre les problèmes de contenu en double de manière proactive et de vous assurer que les visiteurs accèdent au contenu que vous souhaitez leur présenter.

  • Utilisez les redirections 301 : si vous avez restructuré votre site, utilisez des redirections 301 (\ »RedirectPermanent\ »
  • Soyez cohérent :http://www.example.com/page/, http://www.example.com/page ni http://www.example.com/page/index.htm.
  • Utilisez des domaines de premier niveau :

    Google peut supposer que le site ”http://www.example.de”“http://www.example.com/de” ou http://de.example.com.

  • Soyez prudent en diffusant votre contenu :Guest blogging), Google affichera systématiquement la version jugée la plus appropriée pour les internautes pour chaque recherche donnée, qui pourra correspondre ou non à celle que vous préférez.

    notamment en guest blogging) inclut un lien renvoyant vers votre article original.

  • Utilisez Search Console pour indiquer à Google comment indexer votre site : vous pouvez indiquer à Google votre domaine favori (par exemple, http://www.example.com ou http://example.com).
  • Limitez les répétitions :l\’outil de gestion des paramètres
  • Évitez la publication de pages incomplètes :Meta noindex pour bloquer leur indexation.
  • Apprenez à maîtriser votre système de gestion de contenu :
  • Limitez les contenus similaires :
  • rel=\ »canonical\ » ou des redirections 301.

Si votre site a été retiré des résultats de recherche, après avoir apporté les modifications nécessaires et vous être assuré que votre site respectait ses consignes SEO, envoyez une demande de réexamen à Google.

Google demande de ne pas bloquer l\'accès de Googlebot aux fichiers

Search Console a commencé à envoyer à de nombreux webmasters des messages d’alerte par email les notifiant de l’impossibilité pour Googlebot, le robot d’indexation de Google, d’explorer librement certains fichiers. 

Ce qui pourrait impacter le référencement de leurs sites web.

Google envoie des notifications aux sites bloquant l’accès aux fichiers CSS et JavaScript

Ces fichiers généralement mentionnés par Google concernent les CSS et autres JavaScripts qui n’autorisent pas l’accès à leurs données.

Voici un exemple de message reçu par certains webmasters :

Plus particulièrement, Googlebot ne peut accéder à vos fichiers JavaScript ou CSS à cause de restrictions dans votre fichier robots.txt. Ces fichiers nous permettent de comprendre que votre site Web fonctionne correctement. En bloquant l\’accès à ces éléments, il est donc possible que le classement du site ne soit pas optimal.

Le message d’alerte indique également avec insistance que le blocage des fichiers Javascript et/ou CSS “peut entraîner des classements qui ne soient pas optimaux”.

Alors que Google a fait savoir, après un changement de ses consignes aux webmasters, de ne plus jamais bloquer Googlebot lors de ses visites d’exploration et d’indexation. Notamment via le fichier robots.txt.

Voici d’ailleurs ce qu’il dit dans ses consignes :

Pour nous aider à comprendre le contenu de votre site de manière exhaustive, autorisez l\’exploration de tous les éléments de votre site, tels que les fichiers CSS et JavaScript. Notre système d\’indexation affiche des pages Web à l\’aide du code HTML de la page, ainsi que d\’éléments tels que les fichiers images, CSS et JavaScript.

Pour voir les éléments de page qui ne peuvent pas être explorés par Googlebot et pour résoudre les problèmes relatifs aux instructions dans votre fichier robots.txt, utilisez la fonctionnalité Explorer comme Google et l\’outil de test du fichier robots.txt dans les outils pour les webmasters.

Comment découvrir les ressources bloquées par robots.txt

Les ressources bloquées sont aussi mises en évidence dans la section “Index Google” -> “Ressources bloquées” dans votre .

Le message d’alerte dans Console fournit aussi les détails sur la façon de résoudre le problème en proposant toutefois de mettre à jour la règle du fichier robots.txt pour débloquer la ressource.

Il semble que depuis quelques jours, Google a augmenté le nombre de messages qu\’il envoie aux webmasters sur les blocages de GoogleBot.

Et ils sont aussi nombreux, les webmasters qui utilisent , qui ont reçu des avertissements pour avoir utilisé “abusivement” l’instruction “Disallow: /wp-content/plugins” dans leur fichier robots.txt.

Voici les différents types d’instructions qui peuvent générer un message d’alerte dans Google Search Console et par email :

Disallow: /.js$*

Disallow: /.inc$*

Disallow: /.css$*

Disallow: /.php$*

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /cgi-bin/

Disallow: /wp-content/uploads/

Disallow: /wp-includes/css/

Disallow: /wp-includes/js/

Disallow: /wp-includes/images/

Ce que demande donc Google dorénavant, c’est qu’il n’y ait plus dans aucun fichier robots.txt d’instructions du type “Disallow: /nomdufichier” ou “Disallow: /nomdurepertoire/”.

Si vous en avez dans votre fichier robots.txt, supprimez-les immédiatement, remplacez-les par \ »Allow: /\ » et le problème sera résolu. Sinon, votre référencement pourrait en souffrir comme Google le mentionne dans ses notifications.

Car, Google déconseille de restreindre l\’accès à tous les fichiers existant dans votre site afin d\’améliorer leur indexation, notamment pour le mobile, et donc probablement votre classement sur Google.

Testez votre fichier robots.txt

L\’outil de test du fichier robots.txt vous indique si votre fichier robots.txt empêche nos robots d\’explorer des URL spécifiques sur votre site.

  1. Depuis la page d\’accueil de la Search Console, sélectionnez le site dont vous souhaitez tester le fichier robots.txt.
  2. Sous l\’en-tête \ »Exploration\ » du tableau de bord de gauche, sélectionnez l\’Outil de test du fichier robots.txt.
  3. Apportez des modifications à votre fichier robots.txt en ligne dans l\’éditeur de texte.
  4. Faites défiler le code du fichier robots.txt pour localiser les avertissements relatifs à la syntaxe et les erreurs de logique signalés. Le nombre d\’avertissements relatifs à la syntaxe et d\’erreurs de logique s\’affiche immédiatement sous l\’éditeur.
  5. Saisissez une extension de l\’URL ou un chemin d\’accès dans la zone de texte en bas de la page.
  6. Dans la liste déroulante à droite de la zone de texte, sélectionnez le user-agent que vous souhaitez simuler.
  7. Cliquez sur le bouton TEST après avoir choisi le robot pour lancer la simulation.
  8. Vérifiez si le bouton TEST indique Acceptée ou Bloquée pour savoir si nos robots d\’exploration peuvent ou non explorer cette URL.

1 Milliard de dollars : c\'est le coût de la fraude publicitaire dans les applis mobiles

La fraude publicitaire en ligne est désormais un fléau qui commence à préoccuper sérieusement les annonceurs et surtout les plateformes publicitaires.

Je vous annonçais d’ailleurs ici que les géants du Net tels que , et étaient en train de s’associer pour faire face en commun à ces clics frauduleux qui pénalisent les annonceurs et pourraient donc remettre en cause la crédibilité des factures qui leur sont présentées par les plateformes publicitaires.

Chiffres de la fraude publicitaire dans les applis mobiles

Une nouvelle étude de la société Forensiq vient de tirer la sonnette d’alarme en révélant que les applications mobiles seraient aussi une cible des fraudeurs.

Mais, dans le cas des appareils mobiles, il s’agit dans un premier temps du piratage desdits appareils afin d’afficher des publicités masquées et de simuler des activités humaines similaires aux traditionnels robots ou bots rencontrés sur les ordinateurs.

Forensiq dit que sa plateforme de détection de fraudes a identifié plus de 5.000 applications mobiles commettant la fraude publicitaire tout en surveillant tous les types de trafic irrégulier suites à ces impressions publicitaires fictives.

La société Forensiq

Lorsqu\’une application est exécutée par l’utilisateur au premier plan, seules 10 à 20 % des annonces mobiles sont visibles.

Dans certains cas, les applications ont été conçues pour frauder les publicités. Dans d\’autres cas, Forensiq a vu que l\’activité programmatique des applications ne supportaient pas la publicité.

Images via Marketingland.com

La société Forensiq estime que les applications sont \ »victimes d\’usurpation d\’applications” qui nécessitent que les éditeurs ou les plateformes publicitaires mobiles modifient les headers des applis.

Parce que ces applications diffusent des annonces, souvent au rythme de 20 annonces par minute et peuvent aussi récupérer des données.

Selon Forensiq, ces applications malveillantes demandent souvent des autorisations suspectes, et sont notamment en mesure d’empêcher les mobiles de se mettre en veille, de s’exécuter au démarrage, de modifier et supprimer du contenu sur la carte SD et accéder aux services de localisation lors de l\’exécution en arrière-plan.

Beaucoup de ces autorisations sont requises même si les véritables caractéristiques de l\’application ne les exigent pas réellement.

Forensiq dit aussi avoir constaté que quelques applications installaient un script pour simuler des clics aléatoires et charger la page de destination de l\’annonceur à l\’insu de l\’utilisateur.

Tandis que d\’autres applications redirigeaient automatiquement des utilisateurs par le biais de liens d\’affiliation vers des sites Web demandant aux utilisateurs d\’acheter des objets ou autres applications sur l\’app store.

Quand Google, Yahoo et Facebook s\'allient pour bloquer les faux trafics de robots

Malgré la concurrence qui existe entre eux, les Géants du Net savent s’unir pour faire face à un même danger commun quand leurs intérêts sont en jeu.

, et viennent de créer un fichier commun destiné à bloquer les faux trafics web et à combattre la fraude publicitaire.

Quand Google, Yahoo et Facebook collaborent pour bloquer les mauvais robots

Ce fichier est constitué d’une liste noire des adresses IP identifiées des robots simulant de faux trafics sur leurs plateformes. Et donc sur tous les sites web.

Ainsi, comme le rapporte le site Thehackernews, ce nouveau programme commun va permettre à ces leaders du Net de blacklister et de rejeter les visites de certains robots web, ainsi que des bots nuisibles et consommateurs de bande passante inutilement.

Google, Yahoo et Facebook ou tout autre entreprise du domaine des nouvelles technologies va donc tenir une liste noire qui va répertorier des adresses IP suspectes de systèmes informatiques dans les data centers qui peuvent être tentées de se faire passer pour des humains pour cliquer les publicités de façon automatisée.

DoubleClick de Google a, à lui tout seul, bloqué près de 8,9% du trafic de certains data center au cours du mois de Mai dernier.

L’objectif de cette collaboration est surtout de mettre en place un front commun contre certaines activités nuisibles pour tous, notamment les clics frauduleux sur les publicités en ligne qui constituent aujourd’hui un fléau, mais aussi un vrai business pour leurs auteurs…

D’ailleurs, ces précurseurs de ce front commun entendent bien inviter d’autres leaders du Net à y contribuer afin de réduire considérablement certaines fraudes qui pululent sur le Net. Il faut dire que ces clics frauduleux touchent à “leurs portes-feuilles”, et c’est préoccupant pour eux.

Et c’est aussi préoccupant pour les annonceurs qui paient pour des clics factices.

Créer un site qui s\'auto-détruit dès que Google l\'indexe, c\'est possible !

Il s’agit ici d’une expérience menée par +Matthew Rothenberg qui se présente comme étant artiste et accessoirement hacker (dans le sens du bidouilleur).

Son expérimentation à consister à créer un site dénommé Unindexed qui va continuellement se chercher dans Search. Donc, chercher à savoir si Google l’a indexé.

Créer un site qui s\'auto-détruit dès que Google l\'indexe

Et, contrairement à l’attente de tout webmaster pour son site, Unindexed va refuser d’être présent sur Google.

Alors, dès qu’il se sera trouvé dans les pages de résultats de Google, il va, avec beaucoup de précaution, se supprimer de la page de résultats en s’auto-détruisant. Pour laisser ainsi Google afficher un message d’erreur.

Il fait donc ainsi de l’instant T où l’algorithme de Google le découvre et le classe le catalyseur de la destruction. Car, il s’auto-détruit de façon permanente.

Unindexed a quand même vécu pendant 22 jours, le temps qu’il soit repéré par Google. Il s’en est allé le 24 Février dernier en laissant ce message :

The site was discovered by Google after 22 days on Tue Feb 24 2015 21:01:14 GMT+0000 (UTC) and consequently instantly destroyed. Prior to the automatic deletion it it had hundreds of visitors and dozens of contributions. No backups were kept.

Informations si vous voulez faire le test

Matthew Rothenberg a livré quelques informations sur sa méthodologie que voici :

  • Le contenu de ce site est uniquement stocké en mémoire (via Redis) et se charge via un fichier depuis une partition chiffrée (ou sécurisée) de son ordinateur personnel.

Si vous voulez tenter l’expérience, vous pouvez récupérer le code laissé par Rothenberg ici.

Bien entendu, personne ne le ferait avec son propre site.

99% du Web n\'est pas accessible à tous

Le Web tel que nous le connaissons ne serait que la partie visible de l’iceberg. Car, en dessous, réside un immense océan totalement inconnu appelé le Web invisible.

Par sa nature même, la taille du Web invisible est difficile à mesurer. Mais des chercheurs universitaires estiment aujourd’hui que le Web que nous connaissons ne représente que moins de 1% de la totalité du World Wide Web.

99% du web ne vous est pas accessible

Ce qui veut donc dire que 99% du Web ne peut être visité librement par tout le monde. Car, il s’agit d’un espace clos non accessible aux non-initiés.

Lorsque vous surfez sur le Web, vous ne restez qu’à la surface. Alors qu’en dessous se trouvent des dizaines de milliards de pages web auxquelles vous ne pourrez jamais accéder.

Bien que le Web invisible soit peu connu, le concept est pourtant assez simple. Pensez aux moteurs de recherche. Pour vous donner des résultats, , et vont indexer constamment des pages. Ils y arrivent en suivant les liens entre les sites. Ce qui leur permet seulement de rassembler des pages statiques, comme celle vous êtes en ce moment en train de lire.

Selon l’article de cnn.com, ce que ces moteurs de recherche ne capturent pas, ce sont les pages dynamiques, comme celles qui sont produites lorsque vous posez une question à une base de données en ligne. Et les liens dans ce type de contenu plus profond ne sont pas suivis par les robots.

D’autre part, Google et les autres moteurs n’indexent pas aussi les pages issues des réseaux privés ou les pages orphelines qui ne sont connectées avec aucune autre page.

Selon une étude de 2001, la dernière connue dans ce domaine, 54% des sites web hébergées sont des bases de données et 13% sont des pages cachées parce que faisant partie d’un intranet accessible aux membres disposant d’un identifiant pour y accéder.

C\’est une collection de sites secrets (se terminant en .onion) qui nécessitent un logiciel spécial pour y accéder. Les gens utilisent Tor pour que leurs activités sur le Web ne puissent pas être retracées. Et il fonctionne sur un système de relais qui fait rebondir les signaux entre les différents ordinateurs Tor dans le monde entier.

Tor est donc utilisé pour des communications sensibles exécutées de façon anonyme.

Mais, depuis au moins une dizaine d’années, Tor est aussi devenu une plateforme d’accès au black market pour la vente et la distribution de produits généralement illicites.

Et, alors que le Web profond est inaccessible pour le grand public, il n’en reste pas moins que sa croissance économique et financière est exponentielle.