Des millions de conversations privées avec ChatGPT pourraient bientôt être dévoilées

Des juges, des journalistes, des juristes… et au milieu, des millions de conversations ChatGPT qui n’avaient rien demandé à personne. OpenAI tente de repousser une décision de justice américaine qui l’oblige à remettre ou conserver un volume colossal de logs de discussions, au cœur d’un procès emblématique sur le droit d’auteur. Au menu : 20 millions de chats, une pincée d’anonymisation, beaucoup d’arguments, et un débat fondamental : jusqu’où peut-on aller pour faire la lumière sur d’éventuelles atteintes au copyright sans transformer la vie privée des utilisateurs en passoire ?

En 1 minute : l’essentiel à retenir

  • Un juge américain a ordonné à OpenAI de produire un échantillon massif (jusqu’à 20 millions) de conversations ChatGPT dans le cadre du procès intenté notamment par le New York Times.
  • OpenAI affirme que 99,99 % des échanges requis n’ont aucun lien avec les allégations d’infraction au droit d’auteur et que la remise de ces données met en danger la vie privée des utilisateurs.
  • Les plaignants rétorquent que les données seraient anonymisées et protégées par une ordonnance de confidentialité et sont nécessaires pour vérifier si ChatGPT a reproduit des contenus protégés.
  • Au-delà de ce dossier, l’affaire s’inscrit dans une série de procès structurants sur l’entraînement des IA à partir d’œuvres protégées.
  • En toile de fond : une tension durable entre exigences de preuve (préservation/production de logs) et obligations de protection des données.

Conseil : Ne partagez jamais de données sensibles avec ChatGPT.

Pourquoi cette affaire fait autant de bruit ?

Parce qu’elle condense les grands dilemmes de l’IA moderne. Les médias plaignants veulent vérifier si, dans la vraie vie des utilisateurs, l’outil a pu recracher des passages protégés ou s’il faut des manœuvres « spéciales » pour y parvenir. Pour cela, ils demandent des conversations réelles—dépersonnalisées et sous haute protection—afin de tester, mesurer, et, éventuellement, démontrer des reproductions fautives. OpenAI, de son côté, y voit un risque disproportionné pour la vie privée, au regard d’une pertinence jugée marginale pour l’immense majorité des échanges.

Le bras de fer juridique, en chiffres et en dates

ÉlémentDétailEnjeu
Volume demandéJusqu’à 20 millions de conversations (anonymisées)Équilibre entre ampleur de la preuve et minimisation des données
Ordonnance du jugeProduction d’un large échantillon + garanties de confidentialitéAssurer la vérifiabilité sans exposer des données sensibles
Position d’OpenAIAtteinte à la vie privée, « 99,99 % » des chats non pertinentsLimiter une collecte jugée excessive et le risque de ré-identification
Position des plaignantsDonnées anonymisées, sous protection judiciaireAccéder à des preuves concrètes de reproduction de contenu
ContexteMultiplication des procès copyright vs. IAFixer des lignes rouges pour tout l’écosystème

Vie privée : la ligne de crête

OpenAI soutient que livrer des logs à si grande échelle pourrait exposer des conversations hautement personnelles, même après anonymisation. Dans la vraie vie, nous confions à un chatbot des choses que nous ne dirions pas à notre chat (le félin, pas le log). On y colle des morceaux de vie, des molécules d’identité, des bouts de projets sensibles… L’entreprise argue qu’il s’agit d’un filet bien trop large pour pêcher quelques cas potentiels de reproduction de contenus protégés.

Les contre-arguments : « anonymisé » ne veut pas dire « sans filet »

En face, les plaignants insistent : l’ordonnance prévoit une dé-identification « exhaustive », des accès strictement encadrés et un usage limité aux besoins du procès. Autrement dit : pas de grand déballage public, mais un processus judiciaire où les données sont sous scellés, manipulées par des parties habilitées et auditées. Le but ? Tester de façon crédible si oui ou non, à l’usage, l’outil régurgite des textes protégés—et à quelle fréquence.

Tech, droit et… pédagogie

Ce litige est aussi un cours magistral accéléré sur la façon dont on « fait parler » une IA au tribunal. Les juges n’achètent pas des promesses, ils demandent des preuves observables. D’où la tentation (compréhensible) de récolter beaucoup de données, au risque d’aspirer des conversations sans rapport avec l’affaire. La juste maille du filet probatoire est donc la question centrale : assez large pour déceler un problème, assez fin pour ne pas piétiner la vie privée.

Ce que cela peut changer pour vous (même si vous ne lisez pas les ordonnances au petit-déj’)

À court terme, attendez-vous à ce que certaines plateformes d’IA communiquent plus clairement sur ce qu’elles conservent, pour combien de temps, et qui peut consulter quoi en cas de procédure. À moyen terme, on pourrait voir apparaître des standards judiciaires (échantillonnage, masquage, procédures d’accès) qui deviendront de facto des bonnes pratiques de l’industrie. À long terme ? Ce genre de contentieux fixera les garde-fous qui baliseront l’IA générative pendant des années.

Petit interlude d’auto-dérision

Oui, l’ironie est totale : on demande à une IA (accusée d’avoir trop bien « appris ») de fournir encore plus de données pour vérifier si, parfois, elle répète ses leçons un peu trop mot pour mot. Moralité : à l’ère des modèles géants, la preuve devient géante elle aussi. Et la confidentialité doit muscler son jeu.

FAQ

Qu’est-ce que l’ordonnance exige exactement ?

La remise (ou la conservation préalable) d’un très large échantillon de conversations ChatGPT, anonymisées et placées sous ordonnance de confidentialité, pour les besoins de la preuve.

Est-ce que mes chats privés vont se retrouver en public ?

Non, l’ordonnance prévoit des accès restreints et un usage strictement judiciaire. Le débat porte sur le risque résiduel (ré-identification, ampleur de la collecte), pas sur une publication à ciel ouvert.

Pourquoi « 20 millions » ? C’est énorme !

Parce que les plaignants veulent un échantillon statistiquement significatif pour mesurer d’éventuelles reproductions. OpenAI estime que c’est massivement disproportionné au regard de la pertinence des données.

Quid de l’anonymisation : est-ce infaillible ?

Aucune anonymisation n’est magique. Mais des garde-fous procéduraux (dé-identification poussée, accès limités, traçabilité) réduisent considérablement les risques, tout en permettant l’instruction.

Que va-t-il se passer ensuite ?

Attendez-vous à des reconsidérations, appels et — possiblement — des compromis procéduraux : par exemple des volumes ajustés, des méthodes d’échantillonnage plus fines, ou une production progressive sous supervision.