
Les articles non-sens générés par ordinateur, repérés des années après que le problème ait été vu pour la première fois, pourraient conduire à une vague de rétractations.
Des articles de recherche absurdes générés par un programme informatique apparaissent encore dans la littérature scientifique plusieurs années après la première découverte du problème, a révélé une étude. Certains éditeurs ont dit à Nature qu’ils retireraient les journaux, ce qui pourrait entraîner plus de 200 rétractations.
Le problème a commencé en 2005 , lorsque trois doctorants ont créé un logiciel de production de papier appelé SCIgen pour « amusement maximal », et pour montrer que certaines conférences accepteraient des articles dénués de sens. Le programme bricole des mots pour générer des articles de recherche avec des titres, du texte et des graphiques aléatoires, facilement repérables comme du charabia par un lecteur humain. Le téléchargement est gratuit et tout le monde peut l’utiliser.
En 2012, l’informaticien Cyril Labbé avait trouvé 85 faux papiers SCIgen lors de conférences publiées par l’Institut des ingénieurs électriciens et électroniciens (IEEE) ; il a ensuite trouvé plus de 120 faux papiers SCIgen publiés par l’IEEE et par Springer 2 . On ne savait pas qui avait produit les articles ni pourquoi. Les articles ont ensuite été retirés - ou parfois supprimés - et Labbé a publié un site Web permettant à quiconque de télécharger un manuscrit et de vérifier s’il semble être une invention SCIgen. Springer a également parrainé un projet de doctorat pour aider à repérer les articles SCIgen, qui a abouti à un logiciel libre appelé SciDetect . (Springer fait désormais partie de Springer Nature ; l’ équipe des actualités de Nature est indépendante du point de vue rédactionnel de son éditeur.)
La lutte contre les usines de faux papiers qui produisent de la science factice
Labbé, qui travaille à l’Université Grenoble Alpes en France, recherchait à l’origine dans les manuscrits des mots typiques du vocabulaire de SCIgen. Mais lui et un autre informaticien, Guillaume Cabanac de l’Université de Toulouse, en France, ont eu une nouvelle idée : la recherche de phrases grammaticales clés caractéristiques de la production de SCIgen. En mai dernier, Cabanac et lui ont recherché de telles expressions dans des millions d’articles indexés dans la base de données Dimensions.
Après avoir inspecté manuellement chaque hit, les chercheurs ont identifié 243 articles absurdes créés entièrement ou partiellement par SCIgen, rapportent-ils dans une étude publiée le 26 mai 1 . Ces articles, publiés entre 2008 et 2020, ont été publiés dans diverses revues, actes de conférence et sites de pré-impression, et concernaient principalement le domaine de l’informatique. Certains ont paru dans des revues en libre accès ; d’autres ont été bloqués. Quarante-six d’entre eux avaient déjà été retirés ou supprimés des sites Web où ils avaient été publiés pour la première fois.
Depuis l’année dernière, les chercheurs ont ajouté 20 autres articles à leur liste, y compris des articles de charabia créés par MATHgen (logiciel qui génère des articles de mathématiques) et le générateur de propositions SBIR (qui crée des propositions de subventions absurdes). Cabanac et Labbé ont publié certaines de leurs conclusions sur Twitter et sur le site Web d’examen par les pairs PubPeer, et ils publient leurs résultats complets en ligne .
Rembourrage CV
La plupart des derniers articles de SCIgen ont été rédigés par des chercheurs chinois (64%) ou indiens (22%), bien que Labbé note que les manuscrits auraient pu être soumis au nom de n’importe qui à leur insu. Un auteur de plusieurs articles a déclaré à Labbé et à Cabanac qu’il les avait présentés comme des canulars. Mais d’autres manuscrits semblent avoir été édités avec de véritables listes de références, ce qui suggère qu’ils auraient pu être générés pour gonfler le nombre de citations des scientifiques. « Je pense que la grande majorité est créée pour compléter les CV afin de répondre à un besoin de publier des articles », explique Labbé.
Les chercheurs n’ont trouvé que deux articles SCIgen qui n’avaient pas été retirés à l’IEEE - qui les évalue tous les deux - et un article Springer contenant un fragment de texte MATHgen. Mais d’autres éditeurs ont été plus mal pris. IOP Publishing, une filiale de l’Institut de physique basé à Londres, a déclaré avoir retiré dix articles « car il y avait des preuves claires qu’ils avaient été générés par ordinateur » et cherche à savoir pourquoi ils n’ont pas été identifiés lors de l’examen par les pairs lors de la conférence où ils se trouvaient. accepté. « Nous avons des preuves raisonnables suggérant que le processus d’examen par les pairs de certains de ces articles a été compromis », déclare Kim Eggleton, responsable de l’intégrité et de l’inclusion de l’éditeur.
Les éditeurs qui ont publié le plus de contenu SCIgen étaient Trans Tech Publications, un éditeur suisse, qui a publié 57 articles SCIgen, Blue Eyes Intelligence Engineering and Sciences Publication (BEIESP), basé en Inde, qui en comptait 54 ; et Atlantis Press, un éditeur français qui a été acquis par Springer Nature en mars, avec 39. Trans Tech Publications et Atlantis ont déclaré à Nature qu’ils enquêtaient et étaient en train de retirer les articles, mais un porte-parole de BEIESP a déclaré qu’il avait publié seuls les articles dont le contenu original a passé avec succès un examen par les pairs et des contrôles de plagiat en double aveugle.
Des centaines de scientifiques auto-citants extrêmes révélés dans une nouvelle base de données
Le populaire serveur de pré-impression SSRN, où les articles sont partagés avant l’examen par les pairs, avait publié 16 articles de SCIgen, selon l’étude. Un porte-parole du SSRN a déclaré qu’il enquêtait sur la question, et a noté qu’il a fourni un « dépistage limité » pour ses pré-impressions (avec un « dépistage avancé » pour les manuscrits de soins de santé).
Cabanac est préoccupé par la manière non transparente dont certains éditeurs traitent ces journaux. L’IEEE, par exemple, a effacé certains articles de SCIgen de son site Web, mais a laissé des avis de rétractation officiels pour d’autres. Cabanac note également que les documents de recherche - ou leurs versions antérieures - disparaissent parfois du serveur de pré-impression du SSRN , sans que de tels changements ne soient enregistrés.
Un porte-parole de l’IEEE a déclaré que sa politique de retrait d’un papier ou de retrait d’une étiquette de rétractation était « dépendante du résultat de notre évaluation » ; Le SSRN n’a pas répondu à une question sur ses politiques de rétractation ou de suppression.
Les papiers SCIgen sont extrêmement rares : Labbé et Cabanac estiment à partir de leur écran qu’ils ne représentent que 75 papiers par million dans la littérature informatique. Il s’agit d’un problème bien moindre que ne le sont, par exemple, les papeteries présumées - qui créent des documents de recherche apparemment réels à commander pour les universitaires - que Labbé et Cabanac ont également contribué à découvrir.
Mais, dit Labbé, l’existence de ces articles est une indication des effets néfastes d’une culture « publier ou périr », et un exemple de la façon dont un travail insensé peut encore en faire des actes de conférence ou des revues. « Vous ne devriez pas trouver ces choses dans la littérature », dit-il.