Bandeau
mcInform@ctions
Travail de fourmi, effet papillon...
Descriptif du site
nextinpact
Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données
#IA
Article mis en ligne le 21 juillet 2023
dernière modification le 20 juillet 2023

Les modèles d’intelligence artificielle permettent de générer du texte, des images et des vidéos avec une incroyable facilité. Mais leur entrainement répétitif sur des données qu’ils ont eux-mêmes créées ferait apparaître des artefacts de plus en plus problématiques dans leurs résultats.

Mais nous avons encore du mal à comprendre quels impacts cette masse de contenus générés de façon automatique peut avoir sur notre utilisation d’internet ainsi que sur l’entrainement de ces IA elles-mêmes.

Une étude, mise en ligne [PDF] sur le site arXiv par des chercheurs des universités de Rice et de Stanford, montre qu’au bout de cinq itérations d’entrainement sur des données fabriquées par une de ces IA, celle-ci amplifie leurs biais et artéfacts de manière visible.

Exemple sur un modèle de génération d’images (...)

Autophagie et éloignement des données réelles

Cet exemple illustre ce qu’ils ont constaté aussi sur d’autres modèles et qu’ils théorisent dans leur article. Ce processus répété crée ce qu’ils appellent une boucle « autophage » (qui se consomme elle-même). « Sans suffisamment de données fraîches réelles à chaque génération d’une boucle autophage, les futurs modèles génératifs sont condamnés à voir leur qualité (précision) ou leur diversité (rappel) diminuer progressivement », expliquent-ils.

En comparant les données créées dans une « boucle totalement synthétique » avec de réelles données, ils observent, comme on peut le voir ci-dessous, que les données « synthétiques » s’éloignent petit à petit des données « réelles » et forment petit à petit un groupe de données bien distinct par rapport aux autres alors que ce n’était pas le cas dans les premières générations. (...)

Ce n’est qu’en ajoutant seulement des données réelles « fraiches » qu’ils arrivent à ce que les modèles ne tombent pas dans un « Model Autophagy Disorder » (MAD), en français, trouble de l’autophagie de modèle.
Des modèles « fous » ou juste « bugués » ? (...)

les auteurs de cette étude sont clairs : « selon un scénario catastrophe, si le MAD n’est pas contrôlé pendant plusieurs générations, il pourrait empoisonner la qualité et la diversité des données de l’ensemble de l’internet. En l’absence d’un tel scénario, il semble inévitable que l’autophagie de l’IA entraîne, même à court terme, des conséquences imprévues jusqu’à présent ». Ils demandent aux praticiens qui « utilisent délibérément des données synthétiques pour l’entrainement parce que c’est bon marché et facile » de prendre leurs conclusions comme un avertissement et d’envisager de tempérer leurs habitudes.

Les chercheurs proposent aussi, « étant donné que les modèles génératifs n’ajoutent pas nécessairement des métadonnées aux images générées », que les utilisateurs ajoutent des filigranes à leurs images ainsi générées, pour qu’elles soient rejetées lors de la création de base de données d’entrainement. Cette proposition ne vaut, en revanche, pas pour les textes.