Google attaquée en justice pour l’entraînement de Bard

Google attaquée en justice pour l’entraînement de Bard

Google attaquée en justice pour l’entraînement de Bard

Une plainte a été déposée le 12 juillet contre Google, sa maison mère Alphabet et contre leur filiale dédiée à l’intelligence artificielle DeepMind, rapporte CNN.

L’entreprise y est accusée d’avoir utilisé des millions de données utilisateurs récupérées sans leur consentement et d’avoir enfreint des droits de propriété intellectuelle sur des milliers d’autres éléments pour l’entraînement de ses modèles algorithmiques, parmi lesquels Bard, dont la version française vient d’être rendue accessible.

La plainte, une class action, est déposée par l’entreprise californienne Clarkson Law Firm. Cette dernière a déposé une plainte similaire contre le développeur de ChatGPT, OpenAI.

Auprès de CNN, une représentante de Google a déclaré la plainte « sans fondement ».

Le document pointe notamment l’évolution des politiques de confidentialité de début juillet, qui vient seulement d’informer explicitement les utilisateurs que leurs données pourraient être utilisées pour entraîner des modèles algorithmiques.

Commentaires (20)



l’évolution des politiques de confidentialité de début juillet, qui vient seulement d’informer explicitement les utilisateurs que leurs données pourraient être utilisées pour entraîner des modèles algorithmiques.




Pas d’inquiétude: en tant qu’européens nous sommes protégés par Fiona Scott Morton.


Quelle que soit l’issue tu procès, s’il a lieu, et dans combien de temps… le mal est fait. L’IA est entraîné et donne un avantage décisif pour le futur. Pire, les sociétés qui se lanceraient maintenant, du fait de la régulation qui va en découler, vont devoir dépenser plus pour arriver au même résultat.



Une solution, à mon avis, serait que la source et le résultat du travail que Google a fait doit être rendu publique et utilisable librement.


Si ce qu’ont fait Google et OpenAI pour entraîner leurs AI est illégal, la justice pourrait leur ordonner de détruire le résultat de ces actions illégales. Tout le monde partirait donc à égalité. Se serait le mieux à faire.



Mais, j’ai de gros doutes sur l’illégalité avancée. Leurs arguments semblent assez faibles. On verra bien ce que dira la justice.



En particulier, ici, les plaignants mélangent data et informations personnelles alors qu’il s’agit de droits différents, même aux USA.
Pour les données, s’il n’y a pas de restriction explicites lors de la publication de ces données sur le WEB, il n’y a rien à dire. Pour les informations personnelles, la législation de l’État s’applique (pour les USA, puisque la plainte est déposée là-bas).



(quote:2143083:127.0.0.1)
Pas d’inquiétude: en tant qu’européens nous sommes protégés par Fiona Scott Morton.




Tout cela ne servira à rien tant que la plus part des gens dans le monde se comporteront comme des mouton en mettant un max de données personnelles chez meta ou google ou autre sans se poser des questions et en évoquant l’excuse magique “c’est compliqué, je n’y comprends rien à ces trucs”. Être un citoyen, c’est fatiguant, il faut s’intéresser a plein de trucs , prendre des décisions et assumer ses choix.



C’est l’éternel problème de la facilité privative vs la difficile liberté. Il semble qu’une majorité de gens préfèrent la dictature des géants dont ils on permis l’émergence.



Quel poids a la commission quand si peu de citoyens s’insurgent face à cela? On ne peut pas aider les gens contre le gré.


Bon, je suis curieux, j’ai testé Bard, il est pas encore au niveau de ChatGPT quand même…
Après, j’ai plus l’impression que c’est le moteur de recherche Google qui clique sur un lien à ta place (il cite ses sources d’ailleurs à la fin de chaque message).



Et il est plutôt nul en dev celui là :D



J’ai demandé un pti prog en python, il l’a fait plus ou moins en donnant comme source stackoverflow avec le lien…


J’avoue qu’il n’est pas au niveau de chatGPT dans mon usage “dev”.
J’ai donné un petit script python à bard, je lui demande de m’ajouter la doc au style numpydoc, les type hint et de m’écrire la fonction “parseArgs” (ce genre de truc chiant, mais très utiles) :




  • chatGPT me fait ça nickel, il faut parfois lui rappeler que le style, c’est du numpydoc, mais la doc est claire et correspond à ce que je fais. Il a bien compris le code et les termes utilisés, la doc générée décrit avec un certain niveau d’abstraction ce que le code fait. De temps en temps, la génération atteint sa limite, mais il suffit de cliquer sur le bouton pour continuer à générer la réponse.

  • bard : il s’arrête de générer la réponse en plein milieu dès qu’il a atteint sa limite et impossible de lui demander de continuer. Sa documentation est assez basique, et très “premier degré”. Comme chatGPT, il a du mal avec le style numpydoc. Il fait les tâches une à une, il ne combine pas tout dans une seule réponse.


Bard a été sorti “en urgence” pour endiguer le fait que Chat-GPT, dans les mains de Bing, puisse supplanter Google dans le domaine de la recherche en ligne. Pas très étonnant qu’ils se soient focus sur la recherche plutôt que la génération de réponse.



ForceRouge a dit:


Quelle que soit l’issue tu procès, s’il a lieu, et dans combien de temps… le mal est fait. L’IA est entraîné et donne un avantage décisif pour le futur.




+1



La France et l’Europe ont fait des choix: ne pas investir dans Internet, ne pas investir dans le dev logiciel, préférer des solutions développées hors France/UE. Des choix économiques à court terme face à des enjeux stratégiques de long terme.



L’ambition de la France/UE c’est de garantir sa souveraineté par la mise en place d’un cadre légal/réglementaire.
J’ai du mal a croire que cela suffira.




eglyn a dit:


Bon, je suis curieux, j’ai testé Bard, il est pas encore au niveau de ChatGPT quand même…




Posté il y a 4 jours sur numérama: Google Bard vs. ChatGPT : qui fait mieux ?



Conclusion:




À date du 13 juillet, le constat est sans appel : Google Bard est à la traine sur quasiment tous les sujets. Est-ce à cause d’un excès de prudence de la part de Google ? Qu’il s’agisse de la compréhension des consignes ou des informations partagées, ChatGPT l’a clairement emporté.




Le document pointe notamment l’évolution des politiques de confidentialité de début juillet, qui vient seulement d’informer explicitement les utilisateurs que leurs données pourraient être utilisées pour entraîner des modèles algorithmiques.




Je n’ai pas reçu d’alerte de cette mise à jour.
Est-ce que continuer à utiliser les services vaut acceptation des nouvelles CGU ?


Tu confonds politique de confidentialité et GCU, même si les CGU peuvent contenir la première.



Pour la première, le RGPD s’applique : tu dois donc être informé d’une évolution sur le traitement de tes données personnelles.



Par contre, la phrase que tu as citée n’est pas claire sur ce qui a été modifié. En suivant les liens jusqu’à The Verge (non, ce n’est pas sale !), on voit que les données personnelles concernées sont celles qui peuvent être données lors de l’utilisation des services de Google utilisant l’IA, par exemple Bard ou CloudAI. Si tu n’es pas utilisateur enregistré de ces services (Google le sait), ils n’ont pas à te prévenir.



Je me suis inscrit sur Bard pour voir. Et j’ai dû accepter les CGU et leur politique de confidentialité. Ceci est conforme au RGPD.
La lecture de The Verge confirme ce que j’avais compris quand je me suis inscrit pour utiliser Bard.
Ils insistent lourdement pour ne pas donner d’informations personnelles de toi (ou d’autres personnes) dans les demandes que tu fais à Bard.



Jarodd a dit:


Je n’ai pas reçu d’alerte de cette mise à jour. Est-ce que continuer à utiliser les services vaut acceptation des nouvelles CGU ?




Le texte de la news est trompeur.



Quand NXI dit que Google va collecter les données des utilisateurs, il faut comprendre que c’est les utilisateurs d’internet (“internet users” dans la news CNN) et pas les utilisateurs des services google (sous-entendu collecter des données privées des comptes Google).



La source de tout ce tintamarre c’est ce changement dans les règles de confidentialité de Google:





source: https://policies.google.com/privacy/archive/20221215-20230701


Il y a système à 2 vitesses je trouve.



Pourquoi une IA devrait avoir moins de droits qu’autre chose ?



Du genre répondre à la question “quel est le compte Instagram de xxx” ?



IA : interdit sauf personnes très connues
Moteur de recherche de la même société Google : certaines limites (liens vers seulement certaines photos).
Moteur de recherche Instagram : aucune limite



Les 3 méthodes ne font qu’accéder qu’aux mêmes données publiques.



Ça va barder !



:pastaper:



fred42 a dit:


Pour les données, s’il n’y a pas de restriction explicites lors de la publication de ces données sur le WEB, il n’y a rien à dire.




Ça dépend de ce que tu appelles « données », je suppose.



Les connaissances ne sont pas soumises au droit d’auteur, par exemple (Bard et ChatGPT ont tout à fait le droit d’apprendre que pi = 3.14159…).



Mais pour tous les contenus soumis au droit d’auteur, c’est l’inverse : s’il n’y a pas d’autorisation explicite, leur utilisation est interdite.



https://www.economie.gouv.fr/apie/propriete-intellectuelle-publications/contenus-concernes-par-droit-auteur




Le droit d’auteur impose à tout utilisateur d’une œuvre d’obtenir l’autorisation de l’auteur (ou de celui qui détient les droits) pour l’utiliser.



La notion d’œuvre est extrêmement large : il s’agit de toute réalisation intellectuelle originale, peu importe son genre, sa forme d’expression, son mérite ou sa destination. Le droit s’applique dès la création, sans nécessité de procéder à un dépôt.



La loi en cite des exemples mais la liste n’est pas limitative (écrits littéraires, artistiques et scientifiques, allocutions, œuvres dramatiques, œuvres audiovisuelles, œuvres gra­phiques, compositions musicales, dessins, œuvres d’architecture, œuvres d’arts appliqués, logiciels, etc.).



Cela signifie qu’il faut tenir compte du droit d’auteur :




  • quel que soit le sujet du contenu (même un contenu technique, scientifique, une monographie, une infographie, une prestation orale, un site web, une illustration etc. peuvent être soumis au droit d’auteur) ;

  • quels que soient la qualité ou le mérite du contenu ;

  • même si l’auteur n’indique pas avoir « déposé » le contenu ;

  • même en l’absence de toute mention de type « copyright » ou « tous droits réservés ».



Par prudence, l’utilisateur doit considérer que tout contenu est potentiellement soumis au droit d’auteur et donc que son utilisation doit être autorisée.



On parle ici du droit des USA, donc évitons de trop se focaliser sur un texte français.



Ce pendant, le droit d’auteur protège à peu près la même chose un peu partout (pas forcément le droit moral qui n’est pas reconnu aux USA par exemple).



Le terme utiliser n’est pas à prendre dans son sens courant, mais par rapport au droit d’auteur. Et le droit d’auteur protège la reproduction, la diffusion ou la représentation.



L’utilisation pour l’apprentissage des IA ne rentre pas plus dans ce cadre (ce n’est pas une reproduction) que quand un humain apprend quelque chose d’une œuvre sous droit d’auteur (je ne parle pas d’apprendre une œuvre par cœur et de la restituer mot pour mot, mais de ressortir les idées, les connaissances qui sont dans l’œuvre.



On peut voir fans le PDF dont le lien est sur la page que tu as citée que j’ai une lecture correcte du droit :




Vrai / FaUx



Un contenu en libre accès peut être utilisé sans autorisation
Faux
Le fait qu’un contenu soit accessible (sur internet, notamment) ne donne pas le droit de le reproduire ou de le diffuser sans autorisation. Par exemple, une photographie « trouvée » sur un site web ou sur un réseau social ne peut pas être reprise pour illustrer une brochure sans autorisation (même si on prend soin de mentionner le nom de l’auteur et la source).
L’autorisation peut être donnée directement par l’auteur ou par un intermédiaire qui
aura obtenu les droits pour ce faire (par exemple, une banque d’images).




J’ai déjà fait un commentaire plus complet de ce type sur le sujet sous une autre brève qui parlait de l’apprentissage des IA. Là, il est tard et je fais court.



dolphin42 a dit:


Mais pour tous les contenus soumis au droit d’auteur, c’est l’inverse : s’il n’y a pas d’autorisation explicite, leur utilisation est interdite.




Comme dit @fred42, c’est la contrefaçon qui pose problème. Donc la reproduction sans autorisation de l’auteur (hors exceptions prévues par la loi: copie privée…).




Article L335-2
Toute édition d’écrits, de composition musicale, de dessin, de peinture ou de toute autre production, imprimée ou gravée en entier ou en partie, au mépris des lois et règlements relatifs à la propriété des auteurs, est une contrefaçon et toute contrefaçon est un délit.




Ce qu’on peut simplifier en :




Toute impression entière/partielle effectuée au mépris de la propriété des auteurs est un délit.




Ce qui nous amène à la question: Est-ce que tous les textes générés par Bard/ChatGPT sont forcément des contrefaçons des sources d’apprentissage ?



Si c’est oui alors ca pose aussi la question à tous les textes générés par un être humain à partir de ces mêmes sources.



Si c’est non, alors il faut traiter chaque texte généré par une IA au cas par cas.


J’ai cru que c’était Twitter qui les attaquaient, vu qu’Elon Musk lors du week-end ou il était inutilisable il avait prétendu que c’était les IA qui aspirait les données de Twitter



Attaquer sa propre filiale, c’est la meilleure



xillibit a dit:


Attaquer sa propre filiale, c’est la meilleure




Je pense que tu as raté quelque chose. Relis le début de la brève : ce sont Google, Alphabet et DeepMind qui sont attaqués.



Bon, la phrase est un peu bancale avec 2 “contre” pour 3 sociétés attaquées.


Fermer