
Les images générées par IA sont de plus en plus jaunes, et avec la « consanguinité » ça va s’aggraver
Internet est inondé par un filtre jaunâtre aussi moche que drôle - mais ce n’est qu’un symptôme d’une crise de l’IA qui nous guette.
INTELLIGENCE ARTIFICIELLE - Pour reconnaître une image générée par IA, il suffirait de regarder si elle est jaune. Pour beaucoup d’internautes, la technique est infaillible depuis quelques mois, lorsqu’un déluge d’images jaunâtres semble s’être abattu en ligne. Memes en tous genres ou encore vidéos IA produites à la chaîne - même la photo de profil du PDG d’OpenAI Sam Altman a succombé à la teinte jaunâtre. Le problème est si répandu qu’il existe d’ailleurs des sites et des tutos pour « dé-jaunifier » les images générées par Sora ou ChatGPT.
Si l’on en croit tous les tweets sur le sujet, ce filtre jaune serait le résultat de modèles IA qui se recopient entre eux et recrachent de pâles copies. Certains pensent même que tout a commencé par la tendance des images style « Ghibli », qui cartonnait en mars. Mais comme vous pouvez le voir dans notre vidéo ci-dessus, c’est un peu plus compliqué que ça.
« Ça pourrait être parce que le modèle utilisé pour créer ces images est entraîné sur des données générées par IA », explique au HuffPost Jathan Sadowski, enseignant et chercheur à la Monash University et spécialiste du capitalisme numérique. « Et dans ces données générées par IA, il pourrait y avoir une surreprésentation de jaune, et donc le modèle IA recréé et recopie et fait une fixette sur le jaune ».
Mauvais prompts, bugs techniques ou biais exagérés d’un modèle IA, il est en effet difficile de connaître la cause exacte de ce jaunissement : mais ce qu’on sait, c’est qu’il risque d’être amplifié par ce que l’on appelle la « consanguinité » de l’IA, ou « l’effondrement » des modèles IA.
La menace de l’effondrement (...)
« Après juste quelques générations de modèles entraînés avec beaucoup de données générées par IA, le modèle peut s’écrouler. Et il peut commencer à générer des résultats étranges ».
Si un modèle consanguin s’effondre, il peut donc se mettre à « halluciner » (...)
« Beaucoup des modèles déjà existants, comme ChatGPT ou Claude d’Anthropic, ont été entraînés avec toutes les données produites par des humains qui existent actuellement », précise Jathan Sadowski. « Maintenant, les gens ne sont plus capables de produire assez de données pour satisfaire la faim de ces modèles IA. Et donc les entreprises IA se tournent vers les données synthétiques. Tu peux avoir beaucoup plus de données synthétiques plus vite, pour moins cher, et personne ne se plaint des droits d’auteur ».
La fin de l’âge d’or de l’IA ?
Mais le bidouillage des entreprises de la tech pour faire des économies va avoir, et a déjà, des conséquences importantes sur l’efficacité de l’IA. « Des études ont montré que très rapidement, lorsqu’une grosse quantité de données synthétiques sont utilisées à l’entraînement, le modèle devient juste inutile », affirme Jathan Sadowski.
Face à tout ça, le secteur de la tech est en quête de solutions, le but étant de trouver le bon équilibre entre données « réelles » et données synthétiques. (...)
« Beaucoup d’entreprises essaient de minimiser la menace de la consanguinité de l’IA, parce que s’ils commencent à en parler, le cours de leurs actions et leurs investissements vont se casser la gueule », abonde Jathan Sadowski. De son côté, le chercheur se dit « sceptique » quant aux futurs progrès des modèles IA.
« Je ne pense pas qu’on va continuer à voir une amélioration rapide de ces technologies, on voit d’ailleurs tout l’inverse. L’amélioration rapide de l’IA ralentit, mais personne n’est capable de l’admettre ». (...)
Lire aussi :
– (le journal du geek)
La “consanguinité numérique” menace-t-elle l’avenir de l’IA ?
De nombreux experts soulignent le fait que l’industrie de l’IA a presque épuisé les données à sa disposition, ouvrant la voie à un changement de paradigme important
Depuis quelques mois et encore davantage ces dernières semaines, on voit émerger un point récurrent dans les déclarations des spécialistes de l’IA : les cadors du secteur commencent à manquer cruellement de données réelles pour entraîner leurs produits, les forçant ainsi à se rabattre sur des données synthétiques créées… par d’autres modèles IA. Cette industrie aborde donc un virage important qu’il va falloir négocier avec beaucoup de précautions.
Pour resituer le contexte, les performances des modèles de machine learning qui fleurissent un peu partout depuis quelques années dépendent entièrement de la quantité et de la qualité des données que les développeurs leur font ingurgiter pendant le processus d’entraînement. Pour produire des modèles comme GPT, les entreprises comme OpenAI doivent donc collecter des quantités absolument énormes de données issues du monde réel.
Le souci, c’est qu’il ne s’agit pas d’une ressource infinie, et qu’il devient de plus en plus difficile de satisfaire l’appétit dévorant de cette industrie. En fait, cette démarche est même en train de se heurter à un mur. Il y a 8 mois déjà, une étude de l’institut Epoch avait prévenu que l’intégralité des textes produits par l’humanité aurait probablement été ingurgitée par des modèles IA entre 2026 et 2032. (...)
Connaissant les enjeux technologiques et économiques, cette tendance met toute l’industrie dans une position délicate. Il faut forcément trouver de nouvelles sources de données. Et puisque celles du monde réel commencent à manquer, il ne reste qu’une seule solution : créer de nouvelles données d’entraînement entièrement synthétiques grâce à d’autres modèles IA !
La plupart des grandes entreprises du secteur, comme OpenAI, Meta, Microsoft ou Anthropic ont déjà largement pivoté vers cette stratégie. (...)
Le souci, bien illustré par le célèbre adage « garbage in, garbage out » (des déchets à l’entrée, des déchets à la sortie), c’est qu’un modèle IA ne sera toujours que le reflet des données à sa disposition. S’il est construit sur la base d’informations erronées, trompeuses ou biaisées, il aura encore plus tendance à générer des données bancales. Or, les systèmes actuels sont loin d’être parfaits. Par définition, les données synthétiques qu’ils produisent sont moins représentatives du monde réel que celles générées par des humains. En poussant les modèles à digérer des données créées par leurs pairs, on ouvre la voie à un phénomène que l’on peut assimiler à une sorte de consanguinité numérique qui pourrait être assez problématique. (...)
Sur le long terme, cela pourrait déboucher sur un effet boule de neige susceptible d’empoisonner durablement de très nombreux modèles IA. Une perspective préoccupante, étant donné que cette technologie pèse de plus en plus lourd au niveau économique et que de nombreuses industries commencent à la placer au cœur de leur activité.
Cela signifie-t-il que toute cette industrie est sur le point d’atteindre un point de rupture et d’imploser du jour au lendemain ? Probablement pas. La plupart des experts, dont Sutskever, prêchent pour leur paroisse et semblent convaincus que cela ne réduit en rien le potentiel de l’IA en général. Selon eux, la pénurie de données réelles ne change pas le fait qu’il s’agit d’une technologie transformatrice qui va profondément changer la trajectoire de notre civilisation.
Mais tous s’accordent à dire que cette dynamique va aussi forcer l’industrie à évoluer (...)