RGPD : données personnelles et base d’entraînement d’IA

Le 8 avril 2024, la CNIL a publié des recommandations essentielles pour aider les acteurs de l'IA à se conformer aux exigences du RGPD concernant le contenu en données personnelles de la base d’entraînement de l'IA.

Cet article présente les grandes lignes de ce guide, offrant aux développeurs et concepteurs d'IA une vision claire des étapes nécessaires pour assurer la protection des données personnelles dans le développement de leurs systèmes.

1.      RGPD : la finalité des données personnelles de la base d'entraînement de l'IA

La première étape consiste à définir avec précision l'objectif du système d'IA. L'organisme doit déterminer celui-ci de manière explicite et légitime et l'aligner sur ses missions. Cette finalité guide non seulement la collecte et l'utilisation des données mais aussi les phases de développement, déploiement et utilisation du système. Dans le contexte de recherche ou pour les systèmes à usage général, une définition plus flexible mais précisée au fil du temps est nécessaire.

2.      RGPD : clarifier les responsabilités des données personnelles de la base d'entraînement de l'IA

Les concepteurs doivent identifier leur rôle exact – responsable de traitement ou sous-traitant – pour établir les obligations spécifiques selon le RGPD. Cette distinction influence la gestion des données et la répartition des responsabilités entre les différents acteurs impliqués dans le développement et l'utilisation des systèmes d'IA.

Par exemple :

  • le fournisseur d’un système d’IA qu’il développe à partir de données qu’il sélectionne pour son propre compte ; peut-être responsable de traitement.
  • s’il le fait pour le compte d’un client il peut-être sous-traitant

3.      Établir une base légale pour le traitement des données

Choisir une base légale appropriée est essentiel. Que ce soit le consentement, l'exécution d'un contrat, ou un intérêt légitime, chaque base légale a des implications directes sur les opérations permises et les droits des individus concernés. Il est vital de la choisir judicieusement pour éviter des complications réglementaires.

4.      Vérifier la légalité de la réutilisation des données

Avant de réutiliser des données existantes, il est impératif de vérifier leur provenance et la légalité de leur collecte initiale. Le responsable du traitement doit évaluer les conditions d'obtention des données. Et leur conformité aux critères de collecte légitime selon le RGPD.

Un test de compatibilité doit être effectué dans le cas où les données n’auraient pas initialement été collectées pour la finalité d’entrainement. Il prend en compte les éléments suivants :

  • lien entre la finalité initial et celui de constitution de base de données pour l’apprentissage d’un système d’IA ;
  • Contexte dans lequel les données personnelles ont été collectées ;
  • Type et nature des données ;
  • Eventuelles conséquences pour les personnes concernées ;
  • Existence de garanties appropriées (par exemple, la pseudonymisation des données).

En outre si les données proviennent d’un tiers, deux cas sont possibles :

  • soit le fournisseur réutilise les données publiquement accessibles (open source) : dans ce cas, il convient de vérifier si la base est licite.
  • soit le fournisseur, réutilise les données acquises auprès d’un tiers (courtier, data broker) :
    • soit le tiers a collecté les données pour entraîner un système ; il convient de vérifier le droit d’utiliser la base pour cette nouvelle finalité
    • soit il a collecté pour un autre objectif : il convient de vérifier si cette finalité d’entraînement est compatible avec la finalité initiale en usant du test de compatibilité.

5.      Minimiser les données utilisées

En accord avec le principe de minimisation des données, l'organisme doit utiliser uniquement les informations strictement nécessaires. Cela implique de choisir des techniques et des protocoles qui limitent l'accès aux données et de s'assurer que les données collectées sont pertinentes et limitées aux besoins du système.

6.      Définir une durée de conservation des données

Les données doivent être conservées pendant une durée déterminée. Le responsable du traitement doit déterminer la durée de conservation en fonction de l'objectif initial et des nécessités de maintenance ou d'amélioration du système. Des mesures de sécurité doivent accompagner toute conservation prolongée pour des audits ou l'évaluation des biais.

7.      Réaliser une analyse d'impact sur la protection des données (AIPD)

Une AIPD doit être réalisée pour évaluer les risques associés aux traitements de données. Elle doit déterminer les mesures de sécurité nécessaires pour atténuer ces risques. Elle doit être réalisée, surtout lorsque des données sensibles ou des technologies nouvelles sont impliquées.

Conclusion

Le guide de la CNIL fournit un cadre structuré pour assurer la conformité au RGPD dans le développement des systèmes d'IA. En suivant ces étapes, les concepteurs peuvent non seulement se conformer aux exigences réglementaires mais aussi renforcer la confiance des utilisateurs et des parties prenantes quant à la gestion éthique des données personnelles.

Le département Contrats informatiques, données & conformité peut vous accompagne dans la gestion des données personnelles recueillies dans le cadre de votre activité.

Pour toute question, n’hésitez pas à nous contacter.