C’est un texte controversé qui a été définitivement voté par les parlementaires français en novembre 2018. Voulue par le gouvernement, critiquée par beaucoup (juristes, élus), la loi contre la manipulation de l’information en période de scrutin s’attaque aux fake news, ces fausses nouvelles diffusées sur Internet qui ont pollué les dernières campagnes pour l’élection présidentielle aux États-Unis et en France, et qui se répandent à chaque actualité forte. Le Parlement européen appréhende le phénomène pour les prochaines élections prévues en mai 2019, même si Google et Facebook se sont engagés en septembre dernier, dans une charte, à repérer les comptes "robotisés" émettant en masse de fausses informations. Ou à traquer la publicité en ligne qui les véhicule. La Commission leur a d’ailleurs demandé un rapport mensuel.
La pratique de la "désinformation" ou de l’"intox" - fondée sur la diffusion de mensonges, de citations hors contexte ou de photos truquées - n’est évidemment pas nouvelle. Mais avec les réseaux sociaux, Twitter (335 millions d’utilisateurs) et Facebook (2,27 milliards) en tête, elle a pris une ampleur inédite.
Automatiser les opérations de vérification
Profitant des algorithmes de recommandation et de personnalisation, ces "infox", selon la recommandation de la Commission d’enrichissement de la langue française, ciblent un public précis avant d’être transmises, partagées et commentées entre internautes. "Il n’y a plus de filtre entre la consommation de l’information et sa rediffusion, sans compter le nombre de personnes touchées", résume Vincent Claveau, spécialiste du traitement automatique des langues au CNRS. Si la détection se fait actuellement au coup par coup, sur la base de signalements et de vérifications, des laboratoires de recherche travaillent désormais à automatiser ces opérations. Une accélération vitale pour tenter d’endiguer le phénomène. Certaines solutions privilégient la vérification ou la contradiction d’un fait (lire l’encadré ci-dessous) ou traquent l’altération de photos ou de vidéos. Mais une autre approche consiste à repérer des articles douteux sur la base de l’analyse du langage. "On ne modifie pas un texte comme on recadre ou manipule une image. Ce sont les aspects stylistiques qui peuvent être décryptés", poursuit Vincent Claveau.
C’est un texte controversé qui a été définitivement voté par les parlementaires français en novembre 2018. Voulue par le gouvernement, critiquée par beaucoup (juristes, élus), la loi contre la manipulation de l’information en période de scrutin s’attaque aux fake news, ces fausses nouvelles diffusées sur Internet qui ont pollué les dernières campagnes pour l’élection présidentielle aux États-Unis et en France, et qui se répandent à chaque actualité forte. Le Parlement européen appréhende le phénomène pour les prochaines élections prévues en mai 2019, même si Google et Facebook se sont engagés en septembre dernier, dans une charte, à repérer les comptes "robotisés" émettant en masse de fausses informations. Ou à traquer la publicité en ligne qui les véhicule. La Commission leur a d’ailleurs demandé un rapport mensuel.
La pratique de la "désinformation" ou de l’"intox" - fondée sur la diffusion de mensonges, de citations hors contexte ou de photos truquées - n’est évidemment pas nouvelle. Mais avec les réseaux sociaux, Twitter (335 millions d’utilisateurs) et Facebook (2,27 milliards) en tête, elle a pris une ampleur inédite.
Automatiser les opérations de vérification
Profitant des algorithmes de recommandation et de personnalisation, ces "infox", selon la recommandation de la Commission d’enrichissement de la langue française, ciblent un public précis avant d’être transmises, partagées et commentées entre internautes. "Il n’y a plus de filtre entre la consommation de l’information et sa rediffusion, sans compter le nombre de personnes touchées", résume Vincent Claveau, spécialiste du traitement automatique des langues au CNRS. Si la détection se fait actuellement au coup par coup, sur la base de signalements et de vérifications, des laboratoires de recherche travaillent désormais à automatiser ces opérations. Une accélération vitale pour tenter d’endiguer le phénomène. Certaines solutions privilégient la vérification ou la contradiction d’un fait (lire l’encadré ci-dessous) ou traquent l’altération de photos ou de vidéos. Mais une autre approche consiste à repérer des articles douteux sur la base de l’analyse du langage. "On ne modifie pas un texte comme on recadre ou manipule une image. Ce sont les aspects stylistiques qui peuvent être décryptés", poursuit Vincent Claveau.
Distinguer une structure narrative spécifique
Pour ce faire, le chercheur travaille à l’Institut de recherche en informatique et systèmes aléatoires (Irisa, unité mixte de recherche à laquelle collabore huit établissements de tutelle dont le CNRS), à Rennes, avec des algorithmes d’apprentissage automatique : ils permettent de distinguer un article de presse d’un article dit de ré-information qui prétend donner une lecture non officielle d’une actualité, en versant dans la désinformation. L’algorithme apprend à repérer les éléments propres à cette réinformation dans le vocabulaire employé ("vérité", "ce qu’on vous cache"…), les émotions énoncées ("scandaleux"…), les pronoms personnels utilisés ("je", "nous"), la ponctuation (points d’interrogation ou d’exclamation). La méthode parvient aussi à dégager une structure narrative spécifique. "Ainsi, sur le sujet des migrants par exemple, on obtiendra : “Tel nombre de migrants originaires de X (pays, ville) a débarqué dans la ville de Y qui, depuis, est le théâtre de Z (faits divers).” Cette trame se décline pour d’autres sujets. Seuls détails et images diffèrent", détaille Vincent Claveau.
À l’université du Michigan (États-Unis), une chercheuse en informatique a ainsi collecté 240 articles de presse puis demandé à des volontaires d’en écrire une version "infox" imitant le style journalistique. Ces travaux ont servi à entraîner un algorithme analysant l’usage des adverbes, des termes positifs, du ton, etc. Résultats : lors de tests sur un corpus mélangeant informations authentiques et fausses, le programme a su pointer ces dernières avec 76 % de succès… contre 70 % pour des humains. L’approche linguistique est aussi au cœur d’une collaboration entre le laboratoire d’intelligence artificielle (IA) du Massachusetts Institute of Technology (MIT, Cambridge, États-Unis) et le Qatar Computing Research Institute. L’algorithme élaboré a, pour l’heure, identifié les infox avec 65 % de succès à peine. Mais ce projet a montré qu’un site de désinformation pouvait être repéré automatiquement à partir de seulement 150 articles publiés et que d’autres critères pouvaient être combinés aux données stylistiques, comme les caractéristiques de l’adresse Internet.
Pouvoir alerter rapidement : un enjeu stratégique
"Ces programmes informatiques fondés sur le langage sont encore peu raffinés, mais ils sont utiles pour assurer un premier filtrage", estime Ioana Manolescu, directrice de recherche à Inria, l’Institut national de recherche en informatique. Un enjeu stratégique dans un contexte où il faut pouvoir alerter rapidement. Cédric Maigrot, doctorant en informatique à l’Irisa, a ainsi concentré son travail sur les tweets douteux. Après analyse, son algorithme fournira à terme un "score de fiabilité" en temps quasi réel afin d’alerter les internautes avant qu’ils ne partagent le message. Avec cette limite, à l’épreuve de toute technique : lorsqu’une personne veut croire une information qui conforte son opinion, difficile de l’en détourner.
Vérifier les sources est aussi une affaire de technologie
Lancé il y a quatre ans, le projet ContentCheck réunit des experts en gestion de base de données et en analyse automatique de texte sur de grands corpus. Tous sont issus d’Inria, du CNRS, des universités Rennes-I et Lyon-I, en collaboration avec le quotidien Le Monde. "L’idée consiste à voir si nos technologies peuvent faciliter l’accès aux sources", expose la coordinatrice Ioana Manolescu. En s’intéressant, par exemple, à l’émetteur d’une information : qui est-il ? S’est-il déjà exprimé sur le même sujet ? Avec qui est-il en lien ? Les chercheurs de ce projet ANR ont aussi élaboré ConnectionLens, un logiciel prototype capable de révéler les liens entre des données ne figurant jamais ensemble dans les mêmes documents. Un autre logiciel, de développement, "modélise les déclarations : qui a dit quoi ? à qui ? qui était au courant ? depuis quand ? qui a changé d’avis ?", poursuit la chercheuse. Idéal pour suivre la vie politique.