Des employés de Samsung diffusent des documents internes via ChatGPT

Des employés de Samsung diffusent des documents internes via ChatGPT

Des employés de Samsung diffusent des documents internes via ChatGPT

Des employés de Samsung Semiconductor ont partagé des informations confidentielles par erreur en s’aidant de ChatGPT.

L’entreprise avait permis à ses ingénieurs d’utiliser le modèle d’intelligence artificielle générative pour s’aider dans certaines tâches de code, mais certains des employés ont partagé avec la machine des éléments de code source confidentiel d’un programme en cours de fabrication et des notes de réunions concernant du matériel construit par l’entreprise.

En un mois, l’entreprise a recensé au moins trois cas de partage intempestif de ce type, selon TechRadar : l’un d’eux avait demandé à la machine de vérifier des erreurs dans son code, un autre l’avait utilisé pour transformer des notes de réunion en une présentation.

Or le modèle retient les données qui lui sont envoyées pour continuer son entraînement.

De fait, les documents confidentiels qui ont été soumis à ChatGPT sont désormais partagées avec OpenAI. Pour éviter que le problème ne se répète, Samsung Semiconductor construit son propre modèle d’IA générative, qui n’accepte que des requêtes limitées à 1024 octets pour le moment.

Commentaires (10)


Quand on est con, on est con.



Rien d’autre à dire, c’est du même acabit que de poster le code sur un forum ou tout autre information confidentielle.



Tout ce qu’on poste sur Internet doit être considéré comme :




  • Public

  • Accessible par n’importe qui et/ou n’importe quoi

  • Dupliqué, traité, examiné par n’importe qui et/ou n’importe quoi

  • Diffusé sans aucun contrôle



Quand on a ces critères en tête, on s’adapte à l’utilisation des outils.



Exemples de cas vécu : des devs qui ont push du code d’entreprise dans un repo sur leur profil GitHub à eux, en public, et pas dans l’orga “pour faire des tests”. :kill:


Chez nous, poster quelque information interne dans un espace public revient à s’acheter un aller simple pour la porte, avec en prime un coup de pied au fondement.


anagrys

Chez nous, poster quelque information interne dans un espace public revient à s’acheter un aller simple pour la porte, avec en prime un coup de pied au fondement.


Je suis pas manager, donc les conséquences RH ne me regardent pas. Mais quand tu te fais alerter par un chercheur en cybersécurité d’Europe de l’Est que tu as des credentials qui ont fuité à cause de cas similaires, ça fait chier. Et quand tu dis à la hiérarchie que le gars demande une récompense, ça la fout mal.



Et ça c’est le cas positif où le chercheur alerte et demande une récompense, soit une situation “heureuse”. Le type aurait très bien pu revendre ça sur une plateforme, et on aura jamais la garantie que ça n’ait pas été fait (évidemment tout a été révoqué dès découverte de la fuite).


J’attends les procès genre :
Société A contre Société B “Votre produit logiciel utilise notre code propriétaire ! Le code source est quasi identique ! ”
Avec un verdict au final “Ah non, c’est juste que nos dev comme vos dev ont tout demandé à ChatGPT…”
:bravo:


Vous pensez que ChatGPT aurait des infos sur le problème de #GSOD ?
Désolé, mais mon acharnement est à la hauteur du mépris de cette marque pour ses clients, ooops, pardon, pour ses vaches à lait. À chaque occasion, j’ai remis, je remets, et je remettrai ça sur le tapis.



typhoe a dit:


J’attends les procès genre : Société A contre Société B “Votre produit logiciel utilise notre code propriétaire ! Le code source est quasi identique ! ” Avec un verdict au final “Ah non, c’est juste que nos dev comme vos dev ont tout demandé à ChatGPT…” :bravo:




Ça s’applique aussi au code “libre” avec la fondation qui attaque au final B, A et OpenAI…



Il y a d’ailleurs déjà des procès lancés pour ce type de problème.



SebGF a dit:


Tout ce qu’on poste sur Internet doit être considéré comme :




  • Public

  • Accessible par n’importe qui et/ou n’importe quoi

  • Dupliqué, traité, examiné par n’importe qui et/ou n’importe quoi

  • Diffusé sans aucun contrôle
    (…)



Exemples de cas vécu : des devs qui ont push du code d’entreprise dans un repo sur leur profil GitHub à eux, en public, et pas dans l’orga “pour faire des tests”. :kill:




D’après tes propres critères concernant le postage de données sur Internet, quelle différence entre push sur GitHub (perso) et push sur GitHub (orga) ?


Bonne remarque et justement GitHub est un bon exemple.



GitHub est une plateforme SaaS fonctionnant avec des profils publics. Si j’ai un utilisateur qui push du contenu confidentiel de l’entreprise sur son profil personnel en public, je n’ai aucune maîtrise de sa diffusion et là dessus GitHub ne m’apportera aucune garantie.



Par contre, l’entreprise utilisant le plan GitHub Enterprise pour ses besoins de développements internes a une bien meilleure maîtrise du contenu car :




  • L’orga est privée, son contenu n’est pas publiquement disponible

  • Les utilisateurs et leur cycle de vie sont managés par un IDP (ils n’existent pas dans l’annuaire public de GitHub)

  • Les policies d’entreprise empêchent la création de repositories publics

  • Accessoirement, l’entreprise a une relation contractuelle avec la plateforme qui défini des modalités d’usage et de confidentialité



Néanmoins, j’apporterai une précision à ma remarque que tu as cité : “Tout ce qu’on poste sur Internet doit être par défaut considéré comme…”.



SebGF a dit:




  • L’orga est privée, son contenu n’est pas publiquement disponible

  • Les utilisateurs et leur cycle de vie sont managés par un IDP (ils n’existent pas dans l’annuaire public de GitHub)

  • Les policies d’entreprise empêchent la création de repositories publics

  • Accessoirement, l’entreprise a une relation contractuelle avec la plateforme qui défini des modalités d’usage et de confidentialité




Ah ok. Je pensais que ton orga avait mis au point un mécanisme de chiffrement quand les employés poussaient les données dans ce dépôt.



Du coup la différence c’est la confiance que tu accordes à GitHub pour “mieux” protéger les données du dépôt de ton organisation. C’est vrai qu’il est dans l’intérêt business de GitHub que cette confiance avec ses clients perdure.


D’où le troisième point qui est l’aspect contractuel. Aspect qui n’est pas avoir cliqué “oui j’accepte sans avoir lu les conditions d’utilisation” mais qui a été traité par un service juridique + Microsoft et va au delà de mon périmètre de compétence dans le cas présent. Y’a pas que de la technique dans ce genre de sujet.



A ma connaissance, GitHub ne supporte de mécanisme de BYOK pour le chiffrement des données (peut être sur la version Enterprise Server, mais je n’ai pas vu de client l’utiliser dans mon expérience).



Ce qui rejoint le fait que sans avoir vérifié un minimum le service, il convient de considérer qu’il est “non sûr” par défaut et éviter de lui bazarder des données confidentielles sans réfléchir plus de 4 secondes. Et ça c’est valable pour tout service en ligne à mes yeux.



Pour reprendre l’exemple de ChatGPT pour cet article, et ça va être purement spéculatif vu qu’on a pas le contexte interne, si l’usage a été autorisé, j’ai l’impression qu’il n’y a pas eu de contrôle de la confidentialité (ils n’ont pas lu les 3 lignes de la FAQ qui en parlent pour caricaturer) de celui-ci ou alors un manque de sensibilisation du personnel.


Fermer