votre avatar Abonné

SebGF

est avec nous depuis le 16 septembre 2009 ❤️

Bio

Blogger, writer, amateur photograph, tinkerer, solutions architect, problem solver, coffee addict.

Site personnel

https://zedas.fr

14059 commentaires

Le 06/09/2024 à 17h 08

Intéressant point de vue.

Du coup si Internet Archive ne permettait pas l'accès aux oeuvres (mais éventuellement juste à un "extrait") ça serait acceptable de ton point de vu d'auteur ?

À titre perso, en dehors de ceux en accès libre, je publie déjà des extraits assez complets, parfois un premier chapitre. Donc oui, ça rentrerait dans le respect de la volonté de l'auteur.

Pour moi, la condition principale est de demander l'accord de l'auteur ou de ses ayants-droits pour l'aspect diffusion de l'oeuvre.

Le 06/09/2024 à 10h 46

Je dois reconnaître que je trouve la réaction logique, mais cet avis est aussi biaisé par ma propre vision et celle du droit d'auteur français.

La mission d'Internet Archive est formidable et à aucun moment je ne la remettrai en cause. Néanmoins, en tant qu'auteur au regard du droit français, c'est moi et moi seul qui défini comment je veux divulguer mon ouvrage. Si je veux le faire librement, c'est mon droit (je l'ai fait pour certain qui sont sous CC, d'autres ne le sont plus), si je veux le faire commercialement, c'est mon droit aussi.

Si demain je devais trouver gratuitement et librement des ouvrages sur Internet Archive que j'ai choisi de vendre, sans qu'on m'ait demandé mon avis, je sentirais aussi mes droits bafoués. Et ça, c'est un problème.

Là dessus, j'ai l'impression que Internet Archive prend de très gros risques et je n'arrive pas à comprendre sur quelle base ils jouent. Perso je vois leur mission d'archivage comme celle de la BnF. Cette dernière donne l'accès aux documents comme n'importe quel bibliothèque et elle a une politique de reproduction des documents. Mais elle a un cadre légal bien défini (le dépôt légal est obligatoire, même si ça pèche encore pour les livres numériques... le ministère de la Culture ne s'est toujours pas sorti les doigts pour définir les modalités).

Sur Internet Archive, j'ai eu l'occasion de tomber sur des OST de films ou jeux, des vidéos ou encore des contenus sous droit d'auteur en libre accès. En gros, c'est une plateforme de piratage du point de vue du droit d'auteur. J'ai surtout l'impression qu'il lui manque un cadre juridique pour l'aider dans sa mission, mais aussi du contrôle sur comment elle diffuse ou compense les ayants droits. Ou alors elle a une vision beaucoup trop naïve face à l'océan de requins dans lequel elle navigue, ce qui est regrettable.

Le 06/09/2024 à 10h 25

C'est pour ça que les entreprises de l'IA passent des deals avec des éditeurs de contenus, parce qu'ils ont aussi des procès au cul pour violation de copyright.

Le 06/09/2024 à 10h 51

"Il oublie juste une chose : le problème n'est pas sur la présence d'un moyen de contact, mais sur l'obligation de réponse lors d'une réquisition judiciaire (c'est très différent)."

C'est assez classique chez les coupables de se défendre en répondant à une autre accusation que celle qui leur est portée (aka sophisme de l'homme de paille). Il en a conscience, à n'en pas douter.

Il a été condamné ? L'article dit qu'il fait l'objet d'une mise en examen, donc ce sont des accusions qui sont portées contre lui.

Le 06/09/2024 à 09h 55

Il y a une différence je trouve entre faire tomber un JV et faire tomber des sites/infra qui gèrent par exemple le placement d'enfant en danger, coordonne des travaux routiers, gèrent les transports publics, ou permettent l'accès à des soins ...
Si FF XIV ne fonctionne plus, il y a toujours moyen de jouer avec un jeu de cartes.

À quel moment ai-je mis une quelconque échelle d'importance par rapport à l'exemple que je cite ?

Le 05/09/2024 à 17h 09

Ça deviendrait presque une routine. Durant le mois de mai, si je me rappelle bien, c'était Final Fantasy XIV qui se prenait des DDoS tous les soirs. Gel et déco en plein raid alliance, c'était sportif quand ça arrivait trois fois d'affilé. Surtout quand le combat redémarrait subitement que les 3/4 du raid étaient offline.

Le 06/09/2024 à 09h 53

Ou même pas. Franchement les LLM sont fondamentalement une telle boîte noire y compris pour les gens qui les entraînent que c’est juste quasi impossible de prouver depuis quoi cela a été entraîné. Au début des LLM on a eu quelques hallucinations où le truc pouvait ressortir des chapitres entiers de bouquins mais il me semble que ça s’est perfectionné et que ça n’arrive quasi plus. Alors pour des tweets …

À partir de là c’est juste open bar, tu scrapes tout ce que tu peux et tu peux jurer que tu fais attention. C’est pas comme si le LLM stockait quelque part ce qu’il a lu.

(C’est basiquement le même problème que pour les contenus soumis au droits d’auteur)

Le phénomène que tu cites n'est pas l'hallucination mais la mémorisation. Là où halluciner est considéré (même si y'a des opinions divergentes) comme une force des LLM, la mémorisation est un problème car il n'est pas censé pouvoir recracher des données d'entraînement.

Cf mon résumé du principe de fonctionnement dans mon message.

Le 05/09/2024 à 13h 07

Non ce n'est pas ce que j'avais en tête. Ce procédé a effectivement démontré son inefficacité, comme la photocopie d'une photocopie avec une dégradation continue à chaque itération.

Je parlais plutôt du contenu qu'on pourrait estimer faiblement qualitatif (même si ça reste très subjectif) comme des posts de médias sociaux. Quels seraient l'impact sur le modèle ?

En principe, celui-ci ne fait "que" d'associer des poids à des bouts de mots selon des contextes donnés. Il apprend à lire, pour résumer simplement. Mais quel serait l'impact d'apprendre à lire sur des contenus provenant de médias sociaux versus les corpus de texte plus habituels comme Wikipedia, les oeuvres littéraires du domaine public, toussa.

Le 05/09/2024 à 10h 19

Bah, c'est pas grâve. X a déjà récupéré suffisamment de déjections tweets pour ne pas avoir besoin d'en récolter de nouveaux avant longtemps :D

Remarque, je suis quand même curieux de savoir si un process d'entraînement d'IA est aussi sujet au shit in, shit out.

Le 05/09/2024 à 09h 24

Bon, y'a plus qu'à attendre l'actu qui dira qu'en réalité l'opt-out devenu opt-in est resté de l'opt-out avec une case inutilisée par le serveur.

Le 05/09/2024 à 20h 47

Les alternatives n’étant pas vraiment équivalentes, c’est plus facile à dire qu’à faire…

J'ai fait ce choix, personnellement ;)

Pas de twitter, pas de facebook, pas de toktruc, ni machin, ni bidule.

J'ai qu'un compte Mastodon (et Discord pour le jeu en ligne avec les mais, si ça compte dans le lot). J'ai récemment eu la curiosité de tester Bluesky pour voir, mais je ne sais pas si ça va durer.

Je ne dis pas que tout le monde doit le faire, mon ego n'est pas assez dimensionné pour imposer mes propres choix. Mais perso, je le vis bien :)
J'ai même l'impression que les accrocs aux médias sociaux sont des stressés de la vie qui ne peuvent pas passer une minute sans leur fil anxiogène.

Le 05/09/2024 à 20h 17

J'ai une méthode plus simple : ignorer l'existence de ce service, ne jamais ouvrir les liens qui y pointent. J'aimerais tellement que les journalistes mettent des captures d'écran et non des intégrations dans les articles, ça me rassurerait de me sentir moins traqué par ce service irrespectueux.

Le 05/09/2024 à 16h 44

Je n'ai pas vu l'info dans le rapport, mais d'expérience un LLM met une minute à tout casser pour générer un résumé sur ce genre de documents. Et vu que c'était hébergé par l'offre managée d'AWS, en terme de performances ça doit pas forcément être mauvais.

En tous cas, ça l'est certainement plus que ma 1080 GTX qui donne l'impression que LLaMA 1, quand je l'avais testé dessus avant d'abandonner, tape comme le cliché du policier avec un doigt sur le clavier.

De mon expérience avec le GPT-4 hébergé par Azure OpenAI Services, un prompt durait généralement moins de deux minutes. Les plus longs étaient quand GPT faisait ce qu'il sait faire de mieux : étaler sa science et causer pour rien dire. Mais avec quelques optims de system prompt, on arrive à le rendre plus concis.

Le 05/09/2024 à 13h 36

Petit complément à la lecture de la synthèse du rapport. Les points clés sont très intéressants et bien plus nuancés.

Key observations and lessons learnt from the PoC included:

• To a human, the request to summarise a document appears straightforward. However, the
task could consist of several different actions depending on the specifics of the summarisation request. For example: answer questions, find references, impose a word limit. In the PoC the summarisation task was achieved by a series of discreet tasks. The selected LLM was found to perform strongly with some actions and less capably with others.
• Prompting (prompt engineering) was key. ‘Generic’ prompting without specific directions or considerations resulted in lower quality output compared to specific or targeted prompting.
• An environment for rapid experimentation and iteration is necessary, as well as monitoring
outcomes.
• Collaboration and active feedback loops between data scientists and subject matter experts was essential.
• The duration of the PoC was relatively short and allowed limited time for optimisation of the LLM.
• Technology is advancing rapidly in this area. More powerful and accurate models and GenAI solutions are being continually released, with several promising models released during the period of the PoC. It is highly likely that future models will improve performance and accuracy of the results.

The PoC provided valuable learnings, demonstrating the current capabilities of Llama2-70B as well as the potential for growth. Although there are opportunities for Gen AI particularly as the technology continue to advance, this PoC also found limitations and challenges for adopting Gen AI for this specific use case

Et un dernier élément intéressant de l'étude, l'attendu :

Please create a summary for each of the below submissions. Doing the following:
• Focus on the main issues of interest to ASIC, being:
o References to ASIC – include a brief indication of the context and page reference.
o Recommendations on how conflicts of interest should be regulated (note: conflicts of interest where the entity has an audit business) – include a brief indication of the context and page reference.
o References to more regulation of auditors/consultants – include a brief indication of
the context and page reference.

La demande est très spécifique et un modèle générique ne me semble vraiment pas adapté pour ça sans fine-tuning. Du côté de la temporalité, le PoC a duré un mois avec seulement une semaine pour optimiser les paramètres du modèle retenu (LLaMA2-70B).

Tout ce contexte remis en lumière, on peut comprendre les difficultés pour obtenir un résultat probant. Au final, ça ne démontre pas grand chose à part que ce genre de PoC doit être mené sur une plus longue période et potentiellement inclure du fine-tuning pour que le modèle sache mieux "lire" les documents sources.

Parce que sur de la doc technique ou de la procédure de N1, pour l'avoir mis en production, GPT-4 n'a aucun souci à trouver une info et la renvoyer à l'opérateur.

Dans tous les cas, même si j'ai lu en diagonale certains points, l'étude reste intéressante quant à la méthodologie.

Le 05/09/2024 à 13h 18

Que la chronologie de l'étude n'ait pas permis d'évaluer des modèles plus récents n'est pas un choquant en soit. Mais préciser cette information aurait eu le mérite de la positionner dans le contexte de son époque.

Le domaine de l'IA générative avance très vite, il est en plein essor. La contextualisation temporelle est essentielle pour ne pas induire en erreur. Le rapport de cette étude a été fait en mars 2024 et celle-ci aurait été déroulée entre janvier et février si j'en crois les premières pages du rapport. Le sujet ayant été lancé en fin 2023, il est donc évident qu'ils ne pouvaient utiliser des modèles de 2024 plus performants.

Le document donne des infos sur le prompt, le dataset utilisé, la méthode, la configuration du modèle, etc. Je pense que l'étude en question est intéressante à lire pour comprendre là où les modèles ont péché. J'essayerai de faire ça à tête reposée. Et voir l'évolution sur d'autres études avec des modèles plus récents.

Mais dans tous les cas, je maintiens mon opinion : ce titre généralisant à toute la discipline est horriblement trompeur et biaisé. C'est d'ailleurs une reprise du titre de l'article source.

Petit complément à la lecture de la synthèse du rapport. Les points clés sont très intéressants et bien plus nuancés.

Key observations and lessons learnt from the PoC included:

• To a human, the request to summarise a document appears straightforward. However, the
task could consist of several different actions depending on the specifics of the summarisation request. For example: answer questions, find references, impose a word limit. In the PoC the summarisation task was achieved by a series of discreet tasks. The selected LLM was found to perform strongly with some actions and less capably with others.
• Prompting (prompt engineering) was key. ‘Generic’ prompting without specific directions or considerations resulted in lower quality output compared to specific or targeted prompting.
• An environment for rapid experimentation and iteration is necessary, as well as monitoring
outcomes.
• Collaboration and active feedback loops between data scientists and subject matter experts was essential.
• The duration of the PoC was relatively short and allowed limited time for optimisation of the LLM.
• Technology is advancing rapidly in this area. More powerful and accurate models and GenAI solutions are being continually released, with several promising models released during the period of the PoC. It is highly likely that future models will improve performance and accuracy of the results.

The PoC provided valuable learnings, demonstrating the current capabilities of Llama2-70B as well as the potential for growth. Although there are opportunities for Gen AI particularly as the technology continue to advance, this PoC also found limitations and challenges for adopting Gen AI for this specific use case

Le 05/09/2024 à 12h 45

Je comprends tes interrogations.

Maintenant, est-ce que la taille du contexte joue un grand rôle et sur la qualité intrinsèque du modèle ? Pas certain.

De plus, l'évaluation consistait à faire évaluer des résumés (sans dire s'il provenait d'une IA ou d'un humain) à des expérimentateurs. Il fallait donc que les expérimentateurs aient lu le texte d'origine. Je doute qu'on fournisse, dans ces cas là, des textes de 300 pages, mais plutôt de 1 ou 2 pages max (ce qui rentre largement dans un contexte de 4000 tokens).

De plus, le modèle LLaMA 2 a été largement comparé à d'autres modèles sur la pertinence de ses réponses. Donc, sauf à ce que les comparaisons aient été mal faite, les modèles "moins bien" auront très certainement des résultats encore pire que ceux de LLaMA 2. La généralisation peut paraitre hasardeuse, elle ne m'en semble pas moins pertinente dans le cas présent.

Mais on peut effectivement regretter l'absence de LLaMA3. Maintenant, une étude entre le moment où elle commence et le moment où elle se termine / est rédigée / publiée, oui, il peut y avoir quelques mois. Surtout que dans le domaine de l'IA, où les choses bougent vite, un modèle peut très bien être dépassé en moins d'un an.

Il serait donc intéressant d'avoir la chronologie exacte de l'étude, pour se rendre compte des différents aspects.

Que la chronologie de l'étude n'ait pas permis d'évaluer des modèles plus récents n'est pas un choquant en soit. Mais préciser cette information aurait eu le mérite de la positionner dans le contexte de son époque.

Le domaine de l'IA générative avance très vite, il est en plein essor. La contextualisation temporelle est essentielle pour ne pas induire en erreur. Le rapport de cette étude a été fait en mars 2024 et celle-ci aurait été déroulée entre janvier et février si j'en crois les premières pages du rapport. Le sujet ayant été lancé en fin 2023, il est donc évident qu'ils ne pouvaient utiliser des modèles de 2024 plus performants.

Le document donne des infos sur le prompt, le dataset utilisé, la méthode, la configuration du modèle, etc. Je pense que l'étude en question est intéressante à lire pour comprendre là où les modèles ont péché. J'essayerai de faire ça à tête reposée. Et voir l'évolution sur d'autres études avec des modèles plus récents.

Mais dans tous les cas, je maintiens mon opinion : ce titre généralisant à toute la discipline est horriblement trompeur et biaisé. C'est d'ailleurs une reprise du titre de l'article source.

Le 05/09/2024 à 10h 31

Titre de l'article trompeur. Il généralise à toute la discipline de l'IA générative le fait qu'UN modèle a donné de mauvais résultats en matière de synthèse.

Il manque la procédure pour savoir comment les résumés ont été générés. LLaMA 2 (sorti en juillet 2023) sait manipuler des contextes de 4069 tokens, quelle était la taille des documents d'entrée ? C'est bien loin des 128k de LLaMA 3 et je ne parle pas du million de Gemini 2 !

Bref, on a le résultat "c'est nul" mais pas la démarche. Je ne vois donc pas en quoi on peut dire que l'IA générative ferait pire sur la seule base d'un modèle qui s'est chié dessus.

Le 05/09/2024 à 09h 33

C'est le comportement d'à peu près tous les éditeurs logiciel avec des fonctionnalités en bêta/preview. Habituellement, ils indiquent bien que ce genre de fonction peut changer voire disparaître du jour au lendemain. Le but est de récupérer suffisamment de retours pour savoir s'ils la maintiennent et la passent en GA ou bien la suppriment.

Mozilla ne joue pas le jeu en matière de comm' là dessus ?

Le 05/09/2024 à 09h 30

Avec une conviction qui semble unanimement partagée : il faut aller vite, et profiter de la démocratisation des usages en entreprise pour gagner un maximum de parts de marché.
C'est exactement ça, et la pression des éditeurs sur les entreprises le confirme. Les quelques projets que j'ai suivi dans ce domaine avaient tous le même ressenti en ce qui me concerne : l'éditeur sur le siège arrière comme le gamin pendant la route des vacances : on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ? on est bientôt arrivés ?

Et pas que dans le domaine de l'IA d'ailleurs.

Le 05/09/2024 à 09h 20

[à dire à voix haute]
il y a une coouille dans le potage.
Pardon, il manque la queue du q au milieu de la coouille pour faire la coquille.
Il y a une coquille dans le potage.

Expression dont l'origine, vendéenne il me semble, est : "Y a une touille dans le potage", touille étant le nom de la cuillère, mais dont la version familière est restée.

Le 04/09/2024 à 17h 57

Dans le lot il y a les papiers d'identité qui contiennent des données biométrique (la photo).

Le 04/09/2024 à 17h 40

Je sais pas si t'as bon ou pas, mais ce qui est sure, c'est que la CNIL ne fait pas grand chose.

Après, quels sont les moyens de la CNIL face à des multinationales qui lâchent 100 fois le budget annuel de la CNIL pour se payer une armée d'avocat?

Si la CNIL attaque, il faut qu'elle ai les moyens financiers pour aller en appel, en cassation, bis repetita au niveau de l'Europe, ... face à des service juridique bien armée dans la perte de temps et l'instrumentalisation de la justice (qui ne fait presque rien contre au passage) qui font que la justice n'est jamais rendu.

La CNIL n'est pas un particulier mais une autorité administrative indépendante. Son volet sanction fait donc partie de son fonctionnement et de son financement. Elle ne peut pas dire "j'ai pas les moyens de me payer un avocat", elle n'en a pas besoin.

Elle peut exiger différentes actions lors du constat d'un manquement, et ses décisions ne font pas l'objet de recours en appel, cassation et compagnie. Les suspensions des décisions administratives se font devant le Conseil d'Etat en France.

Le 04/09/2024 à 17h 20

En tout cas, ils le disent en (mauvaise) justification que le RGPD ne leur est pas applicable :

"Clearview AI n'a pas de siège social aux Pays-Bas ou dans l'UE, elle n'a pas de clients aux Pays-Bas ou dans l'UE, et n'entreprend aucune activité qui signifierait autrement qu'elle est soumise au RGPD"
Je dis "mauvaise" parce que traiter des données personnelles comme des photos de ressortissants de l'UE sans consentement est interdit même si ce traitement est fait aux USA.

Je dis "mauvaise" parce que traiter des données personnelles comme des photos de ressortissants de l'UE sans consentement est interdit même si ce traitement est fait aux USA.
Tout à fait.

Cette affaire permet d'éprouver l'extraterritorialité du RGPD pour le coup. Mais je pense que ça ne peut se jouer qu'à l'échelle politico-économique, donc commission européenne avec les USA. Ou via la possibilité d'un mandat d'arrêt à l'échelle de l'UE comme vous l'avez évoqué.

Le 04/09/2024 à 14h 43

Je ne vois pas en quoi une interdiction d'exercer dans l'UE changerait les choses. Si, peut être en "criminalisant" leur clientèle européenne.

Mais à part ça... Clearview n'a rien en Europe. Donc difficile de faire pression.

Il faudrait plutôt un accord de collaboration entre l'Europe et d'autres pays pour tout ce qui concerne la protection des données personnelles. Certains sont justement en train de se doter d'une législation plus ou moins équivalente au RGPD.

S'ils interdisent de commercer avec l'entreprise, ses clients dans l'EEA pourraient encourir des sanctions économiques. Comme avec la Russie aujourd'hui.

C'est dans ce sens là que j'entendais une interdiction d'exercer. Bannir cet acteur du marché unique en gros.

Sauf s'il ne commerce absolument pas avec l'espace économique européen, je sais pas, mais j'en doute quand même.

Le 04/09/2024 à 13h 22

Problème : dans le cas français, Clearview refuse de payer. Le futur dira si et comment son homologue néerlandaise obtient de meilleurs résultats.
Les autorités de protection des données ne peuvent pas escalader l'affaire à la commission européenne ?

Car à part une interdiction d'exercer dans l'UE, je ne vois pas comment débloquer la situation perso.

Le 04/09/2024 à 15h 28

Promis, c'est pas ma faute. Mon stage là-bas s'est achevé il y a dix-sept ans.

Le 04/09/2024 à 15h 27

C'est "Équivalent Temps Plein". 0.5 c'est qu'il est à mi-temps !

Ah pardon, je pensais qu'on devait tous répéter indéfiniment la même chose :troll:

Dans le cas présent, 0.5 c'est Equivalent Temps Partiel :langue:

Le 04/09/2024 à 15h 24

Comme quoi, entre la taille de la gueule, de la stouquette, et du compte en banque, on sait qui gagne à la fin.

Ou alors c'est aussi une manoeuvre de SpaceX pour montrer qu'elle est bien indépendante de X malgré le même homme d'affaire à leur tête, et donc démontrer que l'attaquer directement n'était pas un bon choix. Vu qu'ils disent aussi avoir initié une procédure à la cour suprême brésilienne à ce sujet.

Le 04/09/2024 à 14h 47

C'est ce que j'indiquais en #7 justement, mais tu apportes de la matière derrière.

Le 04/09/2024 à 13h 16

J'aime assez ton analogie, mais ce qu'il faudrait pouvoir comprendre, c'est comment une minorité qui s'écrase devient peu à peu une majorité qui écrase. Comment ces jeunes cons en sont arrivés à commettre leur crime ?
(On est d'accord, en France, c'est bien du pénal ce genre de chose, pas du civil pour un simple problème de droit à l'image n'est-ce pas ? )

Le "revenge porn" en droit français est un délit, non un crime. (petit rappel sur la distinction)
Article L226-1 du code pénal

Le 04/09/2024 à 13h 13

Il y a néanmoins eu des voix dissidentes dans le groupe qui ont déclaré à posteriori avoir été mal à l'aise. Mais elles se sont écrasées durant l'instant présent et n'ont manifestement rien dit ou pas de manière suffisamment visible.
de ce que je comprends, la personne en question n'était pas là au moment des faits. C'est sur le groupe whatsapp, dont elles faisaient partie, qu'elles ont fait part de leur gêne.

Je résume :
* 12 personnes sur le groupe whatsapp
* 4 connards qui méritent la prison pour avoir diffusé la vidéo et tout le reste
* 3 personnes (1H et 2F) qui méritent de la bienveillance (je n'irai pas jusqu'à dire des félicitations) pour avoir réagi sur whatsapp
* 5 qui sont restées silencieuses sur whatsapp, méritent des claques (s'ils ont lu les messages)
* hors du groupe whatsapp, d'autres ont eu la vidéo de la part des 4 connards, on ne sait pas comment ils ont réagi

Je pense que l'auto écrasement que j'ai cité dans mon message s'applique aussi pour une discussion en ligne. Ici, un groupe très restreint duquel on peut se faire exclure.

Une forme d'auto censure je dirais.

Le 04/09/2024 à 12h 23

De fait, les échanges illustrent autant la banalité de la misogynie que la difficile considération accordée aux victimes de diffusion non consentie d’images à caractère sexuel, quand bien même l’effet de ces diffusions est largement documenté.
Le premier point sur la violence, oui je vois la banalisation dans ces échanges rapportés. Pas forcément de la misogynie, mais de la violence en général. Pour le second point, je ne vois pas en quoi ils confirment l'absence de considération accordée aux victimes dans ce cas précis.

Dans la mise en situation de l'article, le groupe partage à peu de choses près le même référentiel moral. Il y a néanmoins eu des voix dissidentes dans le groupe qui ont déclaré à posteriori avoir été mal à l'aise. Mais elles se sont écrasées durant l'instant présent et n'ont manifestement rien dit ou pas de manière suffisamment visible.

En fait, c'est une réaction courante, des études comportementales l'ont déjà souligné aussi : le groupe a plus de poids que son propre référentiel. Je me rappelle d'un des sujets traités par Hacking Social qui relatait d'une expérience de ce genre. Une personne "innocente" entourée de plusieurs "complices" à l'expérience. Chacun devait apporter une réponse sur une question, je crois de mémoire qu'il fallait dire quelle est était la plus longue ligne dans une série affichée. Au début, les complices répondaient plus ou moins correctement. Puis à un moment, la réponse était évidente, mais les complices choisirent tous une parfaitement fausse (genre 5cm versus 20cm, ils répondirent la plus courte). Dans la plupart des cas, la personne innocente s'est écrasée et a répondu la même chose.

Il n'est donc pas impossible que les personnes en question aient été bloquées par pression indirecte du groupe. Passer pour le relou de service, se faire exclure, etc., c'est autant de risques à jauger en très peu de temps. Un peu comme ne pas intervenir quand quelqu'un se fait agresser dans la rue, rares seront ceux à jouer aux héros (et risquer sa peau) tandis que la majorité regardera ses pieds.

Bref, c'est hélas pas si simple.

Le 03/09/2024 à 22h 57

La démocratie doit-elle laisser aux gens la liberté de faire des "mauvais" choix ?

vous avez deux heures.

Il n'y a pas de bon ou de mauvais choix, juste des conséquences qui diffèrent.

Et de toute façon, une caractéristique essentielle de l'humain restera de rejeter la faute sur autrui par autopréservation. Le choix personnel reste dans tous les cas meilleur que celui du voisin.

Le 03/09/2024 à 13h 21

Si encore cibler Starlink en considérant le lien avec Musk me semblait plutôt injustifié (SpaceX reste une entreprise différente de X et ne font pas partie d'une holding à ma connaissance), là ils s'exposent à des sanctions qui sont vraiment en rapport avec l'affaire ce coup-ci.

Le 03/09/2024 à 15h 18

RAS d'après la NASA.

Le 02/09/2024 à 16h 57

Sans attendre, deux fusées ont déjà décollé le 31 août pour des missions Starlink.
Rahlalala, quelques jours d’abstention et bam, les fusées jaillissent déjà dans tous les sens.

(si @Flock le veut, c'est cadeau :p)

Le 03/09/2024 à 13h 18

LAION s'est "contenté" de purger son dataset, mais l'identification des contenus suspects a été fait avec l'aide des différents organismes cités. Donc il est fort possible que ce soient ces derniers qui se chargent de qualifier et signaler aux autorités vu qu'ils sont spécialisés dans ces domaines.

Le 03/09/2024 à 10h 47

Fournir un lien vers du contenu illégal n'est pas fournir du contenu illégal.

Sur le second point, je pensais aussi à tous les systèmes d'IA génératifs grand public à qui on pourrait ainsi apprendre le contenu à ne pas générer. Pour cela, il faut que ces infos soient disponibles.
Sinon, oui, des base de données de contenus pédo existent, c'est même grâce à elles que ce contenu a été détecté ici. certains de ceux qui gèrent ce genre de base sont cités dans l'article (IWF et CCPE).

En fait, j'y vois un souci pour les modèles ouverts comme Stable Diffusion : personne ne peut contrôler ce que quelqu'un fera d'un modèle dérivé. Les générateurs de deepnude et compagnie sont en partie basé dessus avec des modèles entraînés à cet effet.

Ça dépasse un peu mes capacités cognitives dans le domaine, mais je crains que le résultat ne soit pas très bon si on parvient, par je ne sais quelle magie, à produire un base model entraîné sur du contenu pédoporno mais avec en builtin des directives lui disant "t'as pas le droit d'en générer", puis qu'il soit utilisé pour créer un modèle dérivé qui outrepasserait ces blocages. Est-ce que les directives contradictoires vont le faire sombrer dans la névrose comme HAL-9000 ? Vu que ce sont des modèles statistiques avec des poids, j'aurais tendance à dire que c'est celui qui gueulera le plus fort qui aura raison, et donc j'ai un doute de l'efficacité d'un blocage "intégré".
Mais, à nouveau, ça va au-delà de mes capacités dans le domaine. Je me suis arrêté au CE1 niveau maths.

Là où des modèles maîtrisés (car produits et exploités par la même entité) comme le sont DALL-E, Midjourney, etc., - eux aussi capables de générer du contenu problématique - seraient plus faciles à borner pour bloquer les usages répréhensibles.

Le 03/09/2024 à 10h 22

LAION fourni des dataset ouverts pour la recherche, je pense que leur nature même fait qu'ils ne peuvent fournir ce genre de contenu (ce serait mettre à dispo publiquement de la pédopornographie, je pense que ça les mettrai en risque du point de vue juridique).

Après, rien n'empêche un modèle d'être entraîné par un dataset public expurgé de ce type, puis fine-tuned avec un dataset privé prévu à cet effet. J'imagine que les autorités sont aujourd'hui déjà dans la nécessité de manipuler ces contenus illégaux, donc la matière première existe pour produire ce genre de modèle.

C'est un peu le fonctionnement de Stable Diffusion où le modèle de base, proposé par StabilityAI, est étendu ou spécialisé par de nombreuses personnes à différentes fins. Typiquement, les modèles créés pour générer du contenu NSFW le sont à partir du base model et entraînés sur des contenus pornographiques disponibles en ligne.

Le 03/09/2024 à 09h 48

Oui, j'ai ajouté le lien qui aurait dû être dans l'article dès la publication (oubli avant de publier ;) )

Merci :)

Le 03/09/2024 à 09h 36

Sachant que ce ne sont "que" des liens et des métadonnées. Le dataset ne contient pas les images à proprement parler.

D'ailleurs, je pense que ça répond à la question du copyright.

Le 03/09/2024 à 09h 29

Dans son communiqué, l'association regrette de ne pas avoir été directement informée par l'Observatoire de l'Internet de Stanford de la publication de son rapport et d'avoir découvert ce dernier par voie de presse
Quelle stupidité !

Edit : le lien vers l'article du blog de LAION qui détaille leur procédé. On se plaint souvent de la transparence des données utilisées dans l'IA générative. Là, on a un acteur qui semble l'être, faut le mettre en avant ;)

Le 03/09/2024 à 12h 04

C'est tout à fait ça cher confrère :) (je me fais souvent l'avocat du diable aussi).

Certains voudraient le beurre et l'argent du beurre : faire un produit libre (parce que le libre a bonne presse) ET obliger ceux qui l'utilisent à contribuer (directement ou financièrement).

Ben non, c'est pas comme ça que le libre fonctionne.

Le but de mon commentaire c'était de signaler que bien que le produit n'était plus sous licence libre, il n'était pas à source fermée pour autant. Le libre est très manichéen dans sa vision : on est libre ou on ne l'est pas. Il n'y a pas de "on est presque libre" (ce qui était le cas ici).

Yep, c'est l'étroite frontière entre "libre" et "open source" :)

Pour appréhender plus facilement cette idée, il suffit de regarder du côté de Creative Commons. Dès qu'on applique des restrictions (NC / ND), la licence n'est plus considérée comme libre. Par contre l'oeuvre reste "ouverte".

Le 03/09/2024 à 10h 31

Dudiable, avocat, enchanté.

À aucun moment une licence libre n'oblige à contribuer au projet. Je sais que moralement ça fait toujours grincer des dents, mais c'est, à mon sens, une vision qu'il faut toujours avoir quand on travaille un produit sous licence libre. Les gens sont libre de l'utiliser et de se faire du blé avec sans rien leur reverser.

J'avoue que ça m'étonne toujours ces cris de vierges effarouchées dans ce genre de situation. Le choix d'une licence n'est pas sans conséquence et ne doit jamais être fait à la légère !
Surtout de la part d'un éditeur de logiciel.

Le 03/09/2024 à 10h 35

L'article parle de contenus problématiques générés par IA qui transitent sur une plateforme, et la bataille de chiffonnier sur "crypter" / "chiffrer" gagne en priorité. On se croirait à une convention d'UFOlogues dans laquelle on présente de magnifiques photos de paysage, montagne, arcs-en-ciel, la merveille de la nature, mais l'auditoire se concentrera sur la tache noire de 4x4px au fond à droite :transpi:


Blague à part, une question au sujet des embrouilles de Telegram : effet de loupe causé par son actualité récente ou bien une bombe à retardement qui est en train d'exploser ?

Le 02/09/2024 à 22h 53

Disons que Microsoft considère que respecter ses clients est un bug...
No (more) comment.

L'irrespect des clients est une brique essentielle du comportement des entreprises de la tech.

Ce ne sont que des matières premières bonnes à être transformées et vendues. Le pire, c'est qu'elles en redemandent et paient même pour ça. Ça me rappelle le magazine "Fesse moi avec du pelle" à l'époque des Guignols.

Le 02/09/2024 à 22h 51

C'est sûr que le racisme, le machisme, l'homophobie et toutes les autres formes d'intolérances qui remplissent X c'est vachement mieux 😂

Opposer les extrêmes en mode binaire n'apporte rien.

De mon expérience, le Mastodon francophone est trop politisé à mon goût (je m'en fous du bord). Raison pour laquelle je reste sur une instance principalement anglophone. J'ai l'impression que le mélange des cultures réduit ce sentiment.

La fixation politique est une des raisons qui me font fuir les communautés françaises, c'est juste lassant.

Le 02/09/2024 à 17h 26

Et quand on explique ça dans leur app de feedback, ils accusent les applications tiers !
Preuve qu'Apple a changé. À une époque ils auraient accusé tes oreilles d'être incompatibles avec leur matériel dépourvu de défaut.

Le 02/09/2024 à 16h 51

J'admire toujours à quel point les entreprises de la tech ont réussi à merdifier des choses aussi basiques et élémentaires que la gestion du volume.

Bravo, à ce niveau là, c'est de l'Art.

Le 02/09/2024 à 16h 58

Dur, duuurrr... :craint:

D'être bébé ?