L’Europe pourrait devenir la première économie du monde en matière de données de par son attractivité, sa solidité et sa diligence, d’après la Commission européenne. Cette dernière a annoncé sa stratégie en matière de données sur le marché unique et a dévoilé de nouvelles ouvertures pour l’Europe en matière d’IA (intelligence artificielle). Cependant, alors que le RGPD est présenté comme une avancée importante, il pourrait représenter dans le même temps un réel obstacle au développement de l’IA en Europe.
Par Mathilde Gérot, collaboratrice senior, Signature Litigation et Winston Maxwell, directeur d’études, droit et numérique, Télécom Paris – Institut polytechnique de Paris
Le développement de l’IA en Europe entravé par le RGPD ?
Dans une communication relative à sa stratégie en matière de données sur le marché du 19 février dernier, la Commission suggère la création d’espaces européens de données. L’objectif ? Permettre aux entreprises d’avoir «facilement accès à une quantité quasi infinie de données industrielles de haute qualité» dans des conditions fiables. Cependant, le RGPD pourrait freiner ces ambitions, ce qui transparaît, de manière très discrète, dans la communication de la Commission, lorsque celle-ci affirme que le «prochain réexamen du RGPD pourrait apporter des éléments utiles».
De nombreux fondamentaux du RGPD, considéré comme la référence en matière de protection des données à l’international, tels que la limitation des finalités et la minimisation des données, sont contraires à la création de données indispensables à «l’apprentissage» du machine learning. Des concepts relativement adaptables du RGPD qui devraient permettre l’innovation – intérêt légitime, exécution d’un contrat, intérêt public, garanties appropriées, recherches scientifiques – manquent de clarté créant ainsi de l’insécurité juridique, occasionnant des interprétations distinctes de la part des autorités de protection des données et donc une fragmentation des règles entre les Etats membres.
Avant toute chose, il serait nécessaire d’admettre l’existence de ces tensions. Actuellement, les décideurs politiques réitèrent que le RGPD soutient une innovation durable en matière d’IA sans admettre qu’il existe une quelconque friction. Le RGPD offre certes une flexibilité par nature, cependant cette dernière est entachée d’une insécurité juridique et s’avère complexe à mettre en œuvre. Une méthode plus pragmatique serait d’affirmer que le RGPD représente une contrainte à de multiples projets de machine learning en Europe et de travailler ensuite à minimiser ces contraintes sans remettre en question les protections de fond offertes par le RGPD.
Il serait par ailleurs utile que la Commission élabore des lignes directrices sur l’interprétation des dispositions du RGPD. La Commission a déjà fait paraître des recommandations concernant l’interprétation de lois européennes actuelles, afin de privilégier l’innovation et les services transfrontaliers. L’article 173(1) du Traité sur le fonctionnement de l’Union européenne (TFUE) impose de veiller à la compétitivité de l’industrie de l’Union, notamment par le biais de la promotion de l’innovation ainsi que la recherche et le progrès technologique. La législation européenne, telle que le RGPD, doit être interprétée à la lumière des objectifs du TFUE, et tout particulièrement de la compétitivité et de l’innovation. La question de l’innovation a précédemment été abordée dans le secteur des télécommunications. Elle a émergé dans le secteur de l’Internet des objets, au sujet de laquelle la Commission a émis une recommandation sur la mise en œuvre de la technologie RFID à la lumière de la Directive sur la protection des données de 1995. Une recommandation semblable pourrait être présentée au sujet de la recherche en matière de machine learning à la lumière du RGPD.
La Commission pourrait également fournir des précisions sur les deux zones d’incertitude suivantes contenues dans le RGPD.
Le concept de données à caractère personnel
À travers les cercles de machine learning, le concept des données à caractère personnel reste évasif. La question de savoir si des ensembles de données anonymisées le sont réellement peut être longuement débattue par les spécialistes en la matière et les explications sont susceptibles d’évoluer. Chaque jour, la création d’une corrélation entre une donnée anonymisée et un petit collectif de personnes, ou un seul individu, devient de plus en plus simple. Il serait irréaliste d’écarter les données à caractère personnel du champ du machine learning. Effectivement, la majorité des données qui sont issues des voitures, ou les données consacrées à l’entraînement des algorithmes adoptés par des dispositifs médicaux, ont un caractère personnel, étant liées à une seule personne, même si l’identité de l’individu reste inconnue. La directive «vie privée et communications électroniques» (ePrivacy Directive), qui comprend un ensemble d’exigences distinctes, peut également couvrir les données issues de voitures et d’objets connectés.
De vastes ensembles de données à caractère personnel sont indispensables pour lutter contre les biais et discriminations. De nos jours, la majorité des algorithmes de reconnaissance faciale sont entraînés sur des ensembles de données non européennes, et soumis à un test de discrimination raciale créé par le NIST, une agence gouvernementale des Etats-Unis. Les dispositions du RGPD en matière de données sensibles sont perçues comme une barrière aux essais de cette sorte en Europe. En conséquence, la Commission pourrait étudier des pistes permettant, en accord avec le RGPD, l’élaboration de bases de données représentatives de la population et de mécanismes de tests destinés à empêcher les pratiques discriminatoires des algorithmes.
Les traitements à des fins de recherche scientifique et à des fins statistiques
Le RGPD comporte des dispositions particulières concernant les recherches scientifiques et les traitements statistiques qui pourraient s’appliquer aux recherches en matière d’IA, mais leur définition demeure trouble. Le considérant 159 du RGPD dresse une liste des activités de recherche scientifique, cependant certains considèrent que ces dispositions ne devraient pas être ouvertes à la recherche à visée commerciale. Un éclaircissement de la Commission serait le bienvenu sur la façon dont les dispositions du RGPD en matière de recherches scientifiques et de traitements statistiques pourraient être utilisées pour faciliter l’innovation en matière de machine learning, et notamment sur les «garanties appropriées» à mettre en œuvre.
En ce qui concerne la recherche médicale, le législateur français et la CNIL ont déterminé les garanties et mesures appropriées devant être mises en œuvre. Néanmoins, cette démarche ne fonctionne que pour les projets de recherche menés en France. Quant aux autres types de recherche, les garanties adaptées à instaurer par les chercheurs ou les statisticiens ne sont pas définies.
Il serait bénéfique que la Commission identifie les points de friction entre le RGPD et l’innovation en matière d’IA, puis détermine les mesures à introduire. Une recommandation de la Commission pourrait suffire s’agissant des concepts élusifs du RGPD qui nécessitent seulement une interprétation favorable à l’innovation et l’établissement de garanties adaptées. D’autres zones de friction pourraient s’avérer infranchissables sans modification du RGPD lui-même, ou l’adoption de règlements particuliers concernant certains secteurs. Cependant, affirmer qu’il n’existe aucun point de friction entre le RGPD et l’apprentissage machine n’aide pas, et ne permettra pas de concrétiser les projets ambitieux de la Commission en matière d’IA.