Par un jour de grande fatigue, vous tapez sur ChatGPT une question un peu sensible. Par réflexe ou naïveté, vous y glissez une info confidentielle. À quel moment cette donnée devient-elle le carburant d’un modèle d’IA ?
Dans l’univers en perpétuelle effervescence de la tech, les IAs sont devenus des copilotes du quotidien. Rédiger un pitch, revoir une ligne de code, brainstormer un nom de boîte… Mais derrière la magie du langage généré, une question s’impose : qu’advient-il des données que nous partageons ?
IA Générative et Données
Un LLM (IA Générative) est une bête de calcul, mais aussi une éponge.
Chaque prompt (requête que vous entrez) peut contenir des données : noms de clients, emails internes, projets confidentiels.
Ces données, si elles ne sont pas filtrées ou protégées, peuvent être utilisées pour affiner les modèles.
« Mais OpenAI dit ne pas entraîner ses modèles sur nos conversations »
Alors … Tout dépend de votre compte. Par défaut, ChatGPT (grand public) peut utiliser vos données à des fins d’entraînement. Cependant, cette collecte peut être désactivée (via les paramètres ou l’API). Et chez les versions « Enterprise », la promesse est claire : vos données ne servent pas à entraîner les modèles.
Encore faut-il penser à ce paramètre, et cela n’est peut être pas configurable avec d’autres IAs…
Utilisez absolument un compte entreprise si vous devez envoyer des données confidentielles ou personnelles.
Entre efficacité et éthique: un équilibre fragile
La tentation est forte, car l’utilisation d’une IA peut accélérer grandement un certain nombre de tâches. Entre la reformulation d’emails, la traduction ou transcription d’échanges, le résumé de réunions, … Les usages sont multiples et l’IA est un accélérateur incroyable.
Oui, tout est possible, et ça marche souvent très bien. Mais…
L’efficacité n’est pas une excuse pour l’irresponsabilité
Risques et conséquences
Parlons juste un peu des risques, que ce soit pour vous ou pour votre entreprise.
Avec accord de confidentialité
Première chose très importante: même si vous avez un contrat garantissant la confidentialité de vos conversations, vous garantissant qu’aucune donnée ne sera utilisée, faites quand même attention. Cela ne vous protège pas des fuites de données chez ce fournisseur d’IA.
Par exemple, en 2023, OpenAI a annoncé qu’un bug avait potentiellement permis à certains utilisateurs d’avoir accès aux conversations d’autres personnes (https://openai.com/index/march-20-chatgpt-outage/). Mieux vaut donc faire attention.
Entraînement avec vos conversations
Si vos données sont utilisées pour entraîner un modèle d’IA, quels risques ?
Un modèle d’IA permet de générer du texte, il « apprend » en fait à écrire des mots à la suite de manière cohérente. Il peut donc arriver, si jamais vos tournures de phrases sont un peu trop spécifique que le modèle retienne tout ou une partie de ce que vous avez dis. Dans ce cas là, il vous suffit de commencer la phrase pour que le modèle se mette à ré-écrire tout ce que vous aviez écris. Il arrive donc que l’on apprenne ainsi des informations confidentielles en commençant par écrire le nom ou prénom d’une personne.
Solutions pour protéger vos données
Pas de panique néanmoins, il existe des solutions généralement simples à mettre en place.
- Utiliser un outil validé par votre équipe DSI (cadre professionnel)
Dans ce cas là, pas de soucis, l’usage de l’IA est encadré par votre entreprise, c’est la chose à faire
- Ne jamais écrire de données personnelles ou confidentielles
Je vous conseille vivement de remplacer à minima toutes les données à caractère personnel par autre chose. Par exemple, avec la phrase suivante:
« Je viens de contacter Martin Deschamps, qui a 34 ans et qui habite à Paris »
- Supprimer les données confidentielles
« Je viens de contacter XXX XXX, qui a XX ans et qui habite à XXX »
Note: La phrase perd une bonne partie de son sens et est moins facile à comprendre - Remplacer les données confidentielles par des données factices
« Je viens de contacter Jean Dupond, qui a 50 ans et qui habite à Lyon »
Vous pourrez toujours remplacer les informations dans la réponse de l’IA, afin d’obtenir le résultat attendu
Note: Les données sont fausses, donc moins de problèmes, et cela permet de mieux comprendre le contexte, mais plus long à mettre en place.
En résumé
Attention aux données confidentielles ou personnelles que vous transmettez aux IA Génératives ou applications en ligne, qui consomment et stockent de très nombreuses informations par la suite.
La Checklist pour les CTO / DPO :
✅ Encadrez la pratique et les usages avec les outils adaptés
✅ Cartographier tous les usages de LLM dans l’entreprise
✅ Former les équipes à la sécurité des prompts
✅ Choisir des outils avec des garanties contractuelles sur les données