
Le début du mois d’août a été marqué par l’affaire Disinfolab qui a mis un violent coup de projecteur sur la question de la réutilisation des données issues des réseaux sociaux à des fins de recherche. S’inscrivant dans le contexte explosif de l’affaire Benalla, elle a fait naître une bruyante polémique, pas forcément propice au développement d’une analyse juridique rigoureuse des différentes questions qu’elles soulèvent. Maintenant qu’un peu de temps est passé, il paraît intéressant de se replonger dans cette affaire qui constitue un véritable cas d’école pour l’application du nouveau cadre de la protection des données personnelles issu du RGPD. La CNIL ayant été saisie suite au dépôt de nombreuses plaintes, il sera extrêmement intéressant d’observer sa décision, qui va devoir trancher beaucoup de points épineux.
Pour mémoire, l’affaire éclate le 8 août dernier lorsque l’ONG belge EU Disinfolab publie les résultats d’une étude des tweets émis à propos de l’affaire Benalla. Elle entend démontrer qu’une forte proportion des messages (44%) a été publiée par une petite minorité hyperactive (1% des utilisateurs) dont 27% seraient liés à un « écosystème russophile ». Face aux protestations et à la remise en cause de ces résultats, l’ONG diffuse en ligne plusieurs fichiers dans un souci de transparence et à des fins de « vérification méthodologique » : un listant 55 000 comptes ayant tweeté sur l’affaire, un pointant 3890 utilisateurs jugés « hyperactifs » et un dernier – celui qui a fait le plus réagir – classant ces comptes par affiliation politique : LR/souverainistes, Rassemblement national, France insoumise, médias/LREM.
C’est à partir de là que les accusations de « fichage politique » et d’attribution de « matricules » ont commencé à fuser, ainsi que les soupçons de violation de la réglementation sur la protection des données personnelles, du fait notamment de l’absence de recueil du consentement des personnes concernées. Beaucoup de choses ont été dites et écrites à ce sujet, mais il me semble que la plupart des analyses que j’ai pu voir passer manquent l’essentiel. (...)
le RGPD contient un régime dérogatoire destiné à favoriser les activités de recherche basées sur des informations à caractère personnel. L’affaire Disinfolab va sans doute constituer le premier « crash test » pour ce corpus de règles, avec l’enjeu pour la CNIL de commencer à délimiter la portée exacte de ces dérogations.
Voilà la raison pour laquelle cette affaire va sans doute avoir des retombées qui dépasseront ce cas particulier pour affecter le secteur de la recherche tout entier. On a pu déjà voir le site « Les crises », en pointe sur le sujet, faire un parallèle entre les agissements de l’ONG EU Disinfolab et le projet « Politoscope » porté par l’Institut des Systèmes Complexes, une unité mixte de recherche du CNRS. (...)
Par ailleurs, l’affaire Disinfolab soulève aussi des questions vis-à-vis de la Science Ouverte. La personne à l’origine de l’étude – le doctorant Nicolas Vanderbiest – justifie le choix de publier les fichiers problématiques en ligne par un souci de transparence pour permettre à des tiers de vérifier les résultats par l’accès aux données source. C’est typiquement ce que prône l’idée d’ouverture des données de la recherche, promue notamment par le Plan national pour la Science Ouverte publié par le Ministère de l’Enseignement et de la Recherche en juillet dernier. Plus encore, l’ouverture des données de recherche est même une obligation légale à laquelle les équipes de recherche sont désormais soumises, comme l’a montré un rapport récent de la BSN. Mais l’exigence d’accès aux données est à concilier avec l’impératif de protection des données personnelles et l’obligation d’ouverture ne concerne pas ces informations. Il n’en reste pas moins que si les principes sont relativement clairs, les chercheurs vont se retrouver pris entre des injonctions contradictoires qui peuvent être assez redoutables à concilier, surtout dans le contexte tendu d’une affaire médiatisée comme celle-ci. (...)
Vous avez dit « recherche scientifique » ?
Comme on va le voir un peu plus loin, EU Disinfolab va avoir intérêt à revendiquer le bénéfice du régime dérogatoire prévu par le RGPD pour les activités de recherche scientifique, notamment pour le recueil et le traitement des données personnelles sans le consentement des personnes. Néanmoins pour cela, encore faut-il que l’activité de l’ONG puisse être juridiquement qualifiée de « recherche » ce qui va sans doute poser des questions. (...)
Si le RGPD n’a pas une vision « organique » des activités de recherche, il en a une vision « téléologique », c’est-à-dire (et c’est logique vu le fonctionnement du texte) qu’il envisage la recherche comme une finalité spécifique poursuivie. Or cette spécificité doit se manifester par la méthode employée pour le traitement des données, qui doit répondre aux critères de la démarche scientifique.
C’est là que l’affaire Disinfolab va mettre la CNIL dans une situation délicate, car il va lui falloir se prononcer sur « ce qu’est la science », ce qui n’est jamais confortable lorsqu’on est une institution publique. L’étude de Disinfolab a reçu de nombreuses critiques, y compris de la part d’autres chercheurs, pointant la méthodologie employée ou des « biais » introduits pour conduire au résultat recherché. D’autres ont aussi souligné l’origine des financements de la structure, la proximité dérangeante entre l’ONG et une agence de communication, ainsi que les liens entre certains des co-auteurs de l’étude et la République en Marche. (...)
Constituer la base de données sans le consentement des personnes
On a l’habitude de dire que le RGPD (et avant lui la loi Informatique et Libertés) impliquent que les personnes donnent leur consentement en amont du traitement des données les concernant, mais il s’agit d’une simplification abusive. Car en réalité, le consentement ne constitue qu’un des six fondements prévus par le texte pour un traitement licite de données.
Or beaucoup de protestations que l’on a pu voir sur Twitter mettaient en avant le fait qu’on n’avait pas demandé le consentement des personnes pour constituer la base à partir de données récupérées sur le réseau social. Cette base a ensuite été décrite comme une forme de « fichage politique » et l’attribution de numéros aux individus a été comparée à celle de « matricules ». (...)