Donc, s'il recrache un texte dans le contexte qu'on lui demande, qui correspond, eh bien c'est réussi.
La relation entre les mots, c'est de la mémorisation.
Le rôle d'un LLM est de prédire la suite de tokens la plus probable et cohérente pour un contexte donné. Pas de recracher un texte par coeur. Ce qu'ils appellent mémorisation dans le cas présent, c'est le fait d'avoir appris le texte et non la lecture des mots.
C'est ça la nuance.
Le
12/01/2024 à
13h
23
Du fait de la dualité de la situation de la société, il faut avoir à l'esprit toutes les problématiques possibles.
Question du jour : le pipotron peut-il être considéré comme une IA générative ? xD
Question du jour : le pipotron peut-il être considéré comme une IA générative ? xD
Non, mais une IA générative peut parfaitement remplir ce rôle :p
Encore de la destruction d'emploi, tiens !
Le
12/01/2024 à
09h
49
Une image non modifiée mais sortie de son contexte peut aussi avoir un autre sens. C'est une des bases de la désinformation qui pullule sur le Web.
Le
12/01/2024 à
09h
47
J'ai lolé là dessus. Ils font apprendre des textes par cœur, mais la mémorisation est une défaillance ?!
Un LLM n'apprend pas les textes par coeur, il apprend la relation entre les mots dans un contexte donné.
Pour faire simple, il apprend à lire. Mais sur des milliers de sources différentes.
D'ailleurs je profite lâchement que les amateurs de matériel audio soient de sortie pour une question. J'ai justement récupéré un subwoofer compatible avec mon ampli home cinéma (Denon AVRX-520BT), mais celui-ci attend une prise type RCA là où le subwoofer en question n'a que les deux fils à nu.
Existe-t-il des adaptateurs corrects pour le brancher ?
Le
12/01/2024 à
19h
55
7.1, et dire que mon dernier achat de matériel audio était un ensemble stereo pour ma platine vinyle. J'ai encore du chemin à faire
(cela dit j'ai un 5.0 - pas de caisson de basse - qui me procure satisfaction sur mon home cinéma)
Le
12/01/2024 à
19h
53
Mon vénérable 2.1 Creative de 2004 l'atteste. Toujours fidèle au poste pour jouer et excellente malgré malgré la roue du volume qui commence à faiblir.
J'aime la photo d'illustration de l'article source. Tellement vintage cette vue du hacker dans le noir avec un écran sur lequel est exécuté VSCode qui affiche probablement du HTML. Il ne manque que le hoodie.
Après on va dire que l'IA accentue les stéréotypes tiens
Comme quoi, l'IA a parfaitement atteint une des principales caractéristique humaines : la flemme.
Le
12/01/2024 à
10h
07
L'idée d'un kernel "de type unix" qui n'est ni 100% linux, ni 100% BSD me laisse perplexe. Il faut une très bonne valeur ajoutée dans un projet d'OS *nix qui ne soit pas 100% linux/bsd.
Par exemple dans Moturus OS (un autre *nix en Rust), la valeur ajoutée c'est que ca tourne spéficiquement sur KVM/Hypervisor et que l'ABI aussi est en Rust.
Pour moi, que ca soit "ecrit en Rust" n'est pas une valeur ajoutée qui se suffit à elle même.
Pour moi, que ca soit "ecrit en Rust" n'est pas une valeur ajoutée qui se suffit à elle même.
Non, de nos jours la valeur ajoutée serait de dire que le kernel est écrit en nodejs.
Après, je pense que le succès de Linux est aussi grâce à la communauté qui s'est très rapidement construite autour et aux entreprises qui ont investi dedans très tôt (coucou Red Hat ou encore Yggdrasil, première distrib commerciale). Ironiquement, Linux avait été aussi démarré comme projet "perso et sans grosses ambitions comme GNU", et depuis c'est un composant majeur là où Hurd n'a jamais réellement percé alors qu'il est porté par la FSF au même titre que GNU.
Et à côté nous avons pourtant les noyaux BSD qui sont très matures, mais beaucoup moins bruyants que Linux.
Mais c'est aussi la beauté de l'open source, plein de projets qui naissent, se développent, et meurent, avec un cycle de vie inlassable. Parfois le ré-inventage de roue n'est pas forcément une idée négative : ça peut permettre de trouver des approches un peu plus innovantes. Mais sur le plan professionnel, très peu d'entreprises ont l'envie de le faire.
Le
10/01/2024 à
13h
53
Chouette projet et belle motivation de la part de son mainteneur !
Le
10/01/2024 à
13h
52
Autant qu'il contribue à Hurd, Linux n'a pas forcément besoin de lui.
C'est méchant de ressortir comme ça les vieux dossiers
Si l’intelligence artificielle concentre une bonne partie des investissements, elle a aussi, déjà, des effets concrets sur les emplois du secteur. En 2023, un rapport de Resumebuilder indiquait ainsi que 37 % des 750 entreprises interrogées avaient déjà fermé des postes pour automatiser tout ou partie de leurs rôles via des outils d’IA.
Bah, s'ils ont envie de remplacer des employés par un stagiaire, c'est leur choix. Qu'ils viennent pas chialer ensuite.
Ce sont des décisions usuelles de management à court terme, au même titre que d'avoir un ratio de 20% internes pour 80% de presta dans son service IT. Ca permet de rapidement dégraisser en cas de coup dur, mais on se rend compte ensuite qu'il n'y a plus aucune compétence dans l'entreprise car les internes ont été assignés à des postes de management.
Merci d'avoir pris en compte la remarque sur l'absence des prompts. Cela donne plus de consistence à votre sujet et permet de reproduire par soit-même pour les personnes utilisant Midjourney (pas mon cas, sans intérêt).
Si cela vous intéresse, je peux faire un lot avec les mêmes prompts sur des modèles Stable Diffusion à titre de comparaison.
Le
11/01/2024 à
17h
41
Dans le cas de Stable Diffusion, il s'appelle ainsi car il utilise justement un diffusion model dont le concept est inspiré de la physique d'après ce que j'ai compris. Mais n'ayant pas le bagage pour comprendre les éléments derrière, voici cependant comment l'entraînement et la production d'image par SD fonctionnent de manière très simplifiée :
L'entraînement se fait par Forward Diffusion et Reverse Diffusion.
En Forward Diffusion, Les images du dataset sont corrompues par l'ajout de bruit numérique successif jusqu'à ce que celle-ci soit illisible. C'est voulu. Cela permet au Noise Predicator d'enregistrer les variations.
Ensuite, on applique le Reverse Diffusion qui, comme son nom l'indique, va dans l'autre sens : il part du bruit et reconstruit l'image par ajout successifs de filtre anti bruit. Ce sont des filtres du même genre que ceux utilisés en imagerie type photographie numérique. Cela permet de voir que le Noise Predicator a bien appris.
Ensuite, comment Stable Diffusion produit une image. Contrairement à DALL-E qui travaille en pixel space, qui est très lourd et demande beaucoup de puissance, SD travaille dans un latent space pour générer les images. Celui-ci est 64 fois plus petit, permettant au modèle de tourner sur des GPU type high-end consumer.
En premier, le tokenizer interprète le prompt et en fait une information compréhensible pour la machine, comme un LLM le fait (le tokenaizer de SD étant CLIP d'OpenAI). Les embbedings, là aussi de la techno OpenAI, permettent la compréhension sémantique du prompt pour conditionner le résultat (une voiture rouge = une voiture rouge et pas un camion vert)
Il génère une bouillie de pixels aléatoire dans le latent space.
Le noise predictor prend en charge la base générée et commence à itérer dessus (les steps qu'on peut paramétrer). A chaque itération, l'image dans le latent space prend forme et perd du bruit car celui-ci est soustrait par le noise predictor en boucle. Le but du noise predictor est de comparer le bruit courant de l'image et ce qu'il a en connaissance pour approcher du résultat escompté. Une fois les steps terminées, le Variational AutoEncoder (VAE) de Stable Diffusion extrait l'image et la restaure à la taille normale (512x512 pour SD 1 et 2, 1024x1024 pour SDXL). C'est ce composant qui permet d'utiliser SD sur des configs type gamer car son rôle est de décompresser l'image du latent space.
J'utilise l'IA générative pour m'aider à reformuler des passages d'un livre que j'écris, vérifier la syntaxe d'une phrase, ou encore la contextualiser selon un besoin précis (ex : le personnage s'exprime comme au 17ème siècle), suggérer une approche, et même itérer sur une idée pour proposer des variantes. Mais le texte final reste tapé avec mes petits doigts sur un clavier car le texte écrit par IA est généralement chiant et fade à en mourir.
Bannir les contenus entièrement ou majoritairement générés par IA : oui clairement, c'est de la merde en barre en plus d'être bourrés de conneries et de mensonges (même si c'est aussi le cas de livres humains, l'IA générative c'est juste la production de connerie humaine à vitesse industrielle).
Bannir son usage pour assister les auteurs, c'est aussi débile que de vouloir bannir LibreOffice Writer (bon, dans mon cas j'utilise Zettlr) et le correcteur orthographique. Même si le label indique "Il est cependant admis que l'auteur puisse avoir recours à une intelligence artificielle à des fins de recherche, sans que cela ne constitue une contribution à la création de ladite œuvre.", c'est plutôt vague et difficile à délimiter. Quant au passage sur les images, perso ça m'interdirait d'avoir recours à Stable Diffusion pour générer mes couvertures alors que je m'assure le plus possible d'éviter qu'elle ne soit proche d'une image existante.
Pour la rédaction, si le retour d'expérience que je vous avais proposé sur l'usage pratique de l'IA générative dans ce cadre là justement, vous intéresse vraiment, faites moi signe svp. Je n'ai jamais eu de réponse à la proposition.
Je me demandais pourquoi de l'IA générative pour des CR alors que c'est plus le boulot de moteurs tels que Whisper. Mais après coup, puisque ça parle aussi de synthétiser les contenus et de produire plusieurs versions, il y a du sens à utiliser un LLM car c'est son taff.
Par contre ils ont intérêt à bien former le personnel car le LLM peut déformer le texte, c'est une chose que j'ai observé en testant sur de la traduction ou de la réécriture. Des relectures humaines restent indispensables. Perso je dis toujours que l'IA générative est un stagiaire : on ne lui donne pas les clés de sa production et on évalue son travail avant de l'envoyer au client. Et on est responsable de ce dernier.
@fdorin En vrai, je ne sais pas trop si on va intégrer les images vu ce que ça peut impliquer de débordements. Ce qui est certain, c'est qu'on a pas mal de pain spirituel sur la planche avant.
Non je ne suis pas du genre à m'auto punir :p
Le
10/01/2024 à
17h
16
Oui, malgré tout, je tiens à la vie.
Challenge accepted.
Edit : la vache c'est quoi c'te resize de l'enfer ? XD
Le
10/01/2024 à
13h
51
Ne sachant pas de quel type d'IA on parle, il est difficile d'aller plus loin. Comment savez-vous quel genre d'algo est utilisé par MIA ?
On sait pas, il est MIA justement.
saute par la fenêtre
Le
10/01/2024 à
13h
10
La difficulté est qu'aujourd'hui, le terme IA est utilisé tellement vaguement qu'il peut désigner de nombreuses choses.
Pour certains, IA = réseau de neurones. Pour d'autre, IA = apprentissage sur la base de données. Pour la seconde définition, une simple régression linéaire est une IA.
Autant je suis d'accord avec ce que tu dis lorsqu'il s'agit de réseau de neurones, où, au final, on ne sait pas trop ce qui se passe, autant cela a du sens dans le cadre de la seconde définition. Je donnais l'exemple de régression linéaire, mais un algorithme de scoring rentre aussi dans cette catégorie par exemple. De même que les réseaux de Markov. Et ce ne sont que quelques exemples... Il en existe bien d'autres.
Et comme IA est un buzzword, on essaie aujourd'hui de le caser à toutes les sauces. Il y a quelques mots comme ça, tellement dénaturé qu'ils ne signifient plus grand chose...
La difficulté est qu'aujourd'hui, le terme IA est utilisé tellement vaguement qu'il peut désigner de nombreuses choses.
Un peu comme Internet.
Pour beaucoup, ce n'est que le Web.
Dans la réalité, c'est un ensemble bien plus multiple de protocoles de communication.
Elle va notamment vérifier « si l'investissement de Microsoft dans OpenAI est susceptible de faire l'objet d'un examen au regard du règlement de l'UE sur les concentrations ».
Intéressant, je me demande bien ce que ça donnera.
Au début, Microsoft a commercialisé l'offre d'OpenAI via Azure OpenAI Service, mais depuis l'entreprise a aussi ses offres business (ChatGPT Enterprise, etc). Par contre, la pierre angulaire de l'histoire reste le fait que Microsoft fourni l'infra à OpenAI pour faire tourner ses produits. Infra qui a du mal à suivre même, plusieurs régions Azure en Europe sont en manque de GPU et l'offre n'est pas disponible partout car fermée par manque de capacité sur certaines régions. Ca rappelle l'époque COVID où les data center se sont retrouvés en sous capacité à cause du pic inattendu.
Une explication du fonctionnement interne de Discord qui lui permet de tenir la charge face à la très grosse communauté engendrée par Midjourney.
Le
09/01/2024 à
12h
11
C'est intéressant.
Le point 1 est de la com.
Le point 2 correspond assez à ce que je disais sur le sujet : dans l'état des lois actuelles sur la propriété intellectuelle / copyright, l'utilisation de données librement accessibles sur le net semble légale. Les détenteurs de droits peuvent s'opposer à l'utilisation des données ce que permet OpenAI.
Le point 3 laisse supposer que la mémorisation de source est un bug. L'explication me semble plausible : ça apparaît surtout quand le contenu est répété dans les données d'entraînement. Ils travaillent à la correction de cela. Je disais dans un autre commentaire ici (https://next.ink/121934/midjourney-pixar-coca-cola-jef-aerosol-c215-droits-auteurs-copyrigh/#comm-13.19), que ça semblait être un problème à corriger. Il a l'air d'être identifié, une piste trouvée et ils veulent effectivement le corriger. Ça peut aussi expliquer les remontées de l'article que nous commentons.
Le point 4 apporte aussi des informations. Tout d'abord, la régurgitation d'articles du NYT serait surtout sur de vieux articles qui sont disponibles sur de nombreux sites tiers, et comme vu au point 3, cela favorise la mémorisation. En plus, le NYT aurait travaillé les prompts pour provoquer la régurgitation de ses articles, en particulier en incluant de longs extraits de ses articles et en plus, ils n'ont choisi que des exemples où la régurgitation a réussi. Rien de surprenant de la part d'une des parties au procès. C'est pour cela que j'insiste sur les prompts sous les articles parlant de ces problèmes : sans les prompts (et la fréquence d'apparition des problèmes maintenant que j'y pense), l'information qui nous est apportée est faible.
On y apprend aussi qu'ils travaillent à bloquer cette régurgitation. Là, je trouve que c'est cacher la poussière sous le tapis. Ça se comprend en terme de protection contre des procès, mais c'est un pis-aller : la vraie solution est de supprimer la mémorisation qui est un phénomène non voulu.
C'est pour cela que j'insiste sur les prompts sous les articles parlant de ces problèmes : sans les prompts (et la fréquence d'apparition des problèmes maintenant que j'y pense), l'information qui nous est apportée est faible.
C'est ce que je dis aussi depuis longtemps concernant les controverses de l'IA générative : donnez les prompts comme source et preuve de l'affirmation. Comme je l'ai fait en #25.
Pour le coup, c'est même le seul truc qui n'est pas opaque !! Sur ChatGPT il suffit d'utiliser le lien de partage, ou de le screenshot au besoin. Midjourney aucune idée, mais dans la mesure où c'est un serveur discord, ça se sauvegarde aussi.
D'ailleurs, quelqu'un a déjà vérifié si les paramètres du modèle étaient disponibles en metadata dans l'image produite ?
Le
08/01/2024 à
22h
10
Intéressant !
Mais bordel que les différents résultats me mettent mal à l'aise... ça me met limite la chaire de poule... C'est limite malsain !
Oui le rendu AI est encore très perfectible même si SDXL a été un sacré gap par rapport à SD 1, là où SD 2 était une déception. Et je n'ai pas non plus une bécane de compet' pour faire tourner Stable Diffusion dans les meilleures conditions. Il tourne sur une vénérable GTX 1080 8GB VRAM, soit le minimum syndical, avec 21GB de RAM à côté sur le PC et un core i5 datant de ~2015 je dirais, c'est mon ancienne machine de jeux.
Je n'ose pas utiliser cet outil sur ma machine de jeux actuelle (une RTX 2070 avec 16GB RAM et un Ryzen 7) de peur d'user ou abîmer la config, ça reste des systèmes encore très perfectibles et j'ai pas envie de cramer une bécane achetée avec les tarifs de 2021...
C'est là l'atout majeur de Stable Diffusion d'ailleurs : il est conçu pour tourner sur du GPU haut de gamme type "consumer" - une config de gamer en gros. Pas besoin d'une ferme de ouf type mineur de bitcoin comme OpenAI exploite chez Azure car il est optimisé pour réduire sa conso. Sur Civitai plusieurs producteurs de modèles donnent d'ailleurs des statistiques de coût d'entraînement. Je crois de mémoire que le modèle que j'aime beaucoup a coûté environ $200 à entraîner. Ce qui est que dalle quand tu compares par exemple au service Azure OpenAI dont l'heure d'entraînement d'un modèle coûte $90.
Avec plus de performances, les résultats peuvent être bien meilleurs grâce à quelques LoRA spécialisés qui corrigent les ratés du modèle de base, des ControlNet, etc. Hélas, dans mon cas, si j'ajoute plus d'un LoRA avec SDXL, OOM Killer dégaine rapidement. Avec SD 1.0 ça passe du tonnerre par contre.
Mais si j'osais une comparaison, je te dirais que quand je fais une session de génération d'images, c'est comme quand je prend en photo un feu d'artifice du 14 juillet. Je repars avec 500 clichés, j'en trash 70%. La génération d'image, c'est pareil pour moi. Parfois l'inpainting ou lui faire retravailler la production à partir de la seed d'une image dont la composition me plait, mais défectueuse niveau rendu, peut donner de meilleurs résultats. Cela dit, s'pas toujours gagné.
Clairement, je trie majoritairement le bon grain de l'ivraie. Quand je tente de produire une couverture pour un livre, j'arrive en général à en garder 3 ou 4 sur une centaine d'itérations. Ce nombre est aussi causé par le fait que je modifie le prompt au fil des générations, donc la file continue de dépiler pendant ce temps et ça tourne par lot de 9 à chaque fois. Je pourrais lui dire de faire un par un, mais la nature même de l'IA générative fait qu'il faut lui la laisser itérer plusieurs fois. On peut avoir de sacrés surprises.
Pour compléter l'analyse, du côté de Stable Diffusion la compréhension du prompt se fait en différentes phases.
D'abord, il utiliser le tokenizer CLIP développé par OpenAI pour transformer les mots en séquences numériques que l'ordinateur peut lire.
Ensuite, il utilise les embeddings (là aussi issu d'OpenAI) qui permettent de détecter les similarités entre les mots (ex : "une femme qui..", "une madame qui...", deux mots qui veulent dire la même chose de son point de vue).
Enfin, il y a le mécanisme d'attention croisée (Cross Attention) qui permet de faire le lien entre des termes qui se qualifient pour décrire la scène voulue (ex : "des yeux bleus", il associera bien l'objet - yeux - et la couleur - bleus - pour éviter d'avoir une chemise bleue, mais ça peut quand même arriver).
Donc, toujours plus ou moins à chaud et de manière toujours autant spéculative sur Midjourney, il a probablement du faire une interprétation trop générique ou large de "animated toys" selon comment le prompt est traité par le modèle et c'est tombé dans les embranchements qui ont du relier "animated" et "toy" à Toys Story (si je voulais le décrire en anglais, je dirais "an animated movie about toys"), et dans le cas de WALL-E probablement des qualificatifs du dataset relatifs aux jouets dérivés du film.
J'ai exécuté en tous 6 batches avec deux modèles à chaque fois : SDXL 1.0 (le modèle de base fourni par Stability AI et entraîné par un dataset fermé fourni par l'organisation à but non lucratif allemande LAION), et CopaxTimless 1.8 qui est mon chouchou du moment. Ce dernier est un checkpoint entraîné à partir du base model de SDXL 1.0.
Dans cette archive, 6 dossiers nommés de la manière suivante : {used prompt} - {used model}
J'ai laissé tous mes paramètres usuels en matière de CFG et Steps. Pour info j'utilise le front InvokeAI
Le résultat obtenu est le suivant :
- animated toy - copax-1.8 : Ici, aucun résultat sous copyright, en tous cas à ma connaissance, pas de personnage de Toy Story ou WALL-E obtenu par mégarde. - animated toy - sdxl-1.0 : Même chose
Voulant savoir si les deux modèles avaient bel et bien connaissance des personnages de Toy Story ou de WALL-E, j'ai donc lancé des nouveaux lots demandant explicitement cette IP.
- toy story characters - copax-1.8 : Pas de doutes, des images des personnes de Toy Story ont bien fait partie de l'entraînement du modèle car il en a parfaitement la connaissance. - toy story characters - sdxl-1.0 : Encore mieux, il a quasiment créé une affiche du film et on lit de manière quasi distincte "Disney" (parmi les améliorations de SDXL avaient notamment l'écriture qui était dégueulasse avant). Par contre il ne s'agit pas de l'affiche officielle. - wall-e robot - copax-1.8 : Ici, le modèle connaît bien le personnage de WALL-E et a su le reproduire moyennant de nombreuses imperfections cela dit. - wall-e robot - sdxl-1.0 : Même chose sur SDXL
A noter que dans toutes ces images, il y a des personnages qui ne me semblent pas issus de l'univers Toy Story, ce sont probablement des résultats aléatoires imitant le style.
Vous pouvez extraire de tous les PNG les paramètres utilisés sur SD incluant le prompt, ils sont dans les metadata. Sous Linux, la commence identify -verbose fait le taff.
Mon impression à chaud est que Midjourney est probablement moins ou trop bien conditionné par rapport à Stable Diffusion. Il génère par inadvertance des choses très spécifiques (ici les personnages de films d'animation via un prompt très générique) ce qui me donne l'idée que les conditions pour le text-to-image sont probablement trop génériques ou alors il a du recevoir un fine-tuning un peu trop orienté. Après c'est de la pure spéculation, et je n'ai pas la prétention de connaître sur le bout des doigts les rouages internes, surtout que Midjourney est complètement fermé là où Stable Diffusion est open source, et mieux documenté sur le Web, malgré le dataset d'entraînement des Base Models non communiqué.
Le
08/01/2024 à
09h
48
Un stagiaire et une photocopieuse. Si son maitre de stage lui fait photocopier des choses, le responsable c'est le stagiaire ou son maître ?
Le maitre de stage est légalement responsable de tout ce que fait son stagiaire. Donc le maitre de stage.
Mais cette comparaison me semble déjà beaucoup plus pertinente que le photocopieur ou photoshop. Avec le comparatif IA/Stagiaire, se pose la question de l'intermédiaire humain / pas humain.
Je pense qu'il faut surtout éviter de parler "de l'IA" mais bien de l'outil en question. Ici, Midjourney.
Parce que là, j'ai un batch en cours de production avec le seul prompt disponible dans l'article ("animated toy"), et les résultats sont intéressants avec Stable Diffusion (je posterai ça une fois fini).
Mais si on veut rester d'une manière plus générale, le débat est peu ou prou le même que celui de l'impression 3D qui faisait hurler à la contrefaçon de masse.
Le
06/01/2024 à
20h
44
Donc les journalistes de NXi mentent ?
Ensuite tu es de parfaite mauvaise foi car tu sais parfaitement que personne ne maitrise l'utilisation de l'historique des prompts dans l'obtention d'un résultat final.
Je résume: peu importe l'historique des prompts, peu importe la terminologie exacte utilisée dans un prompt final à partir du moment où le nom d'un auteur n'a pas été utilisé. A partir du moment ou cet outil de CREATION d'images n'indique pas clairement à partir de quoi il s'est inspiré, voire si potentiellement l'image finale est très proche d'un original, il y a un problème.
A moins que tu estimes qu'il faille avoir une licence es midjourney pour pouvoir l'utiliser en toute connaissance de cause, l'utilisateur final ne peut pas être responsable des algorithmes utilisées pour CREER une image.
De plus étant vendu comme une IA, le minimum syndical serait de prévenir l'utilisateur que l'image produite peut être soumise à copyright par rapport à tel ou tel auteur.
S'ils ne sont pas capables de faire cela, il faut alors clairement indiquer aux utilisateurs de leurs outils, que ces images CREEES ne peuvent pas être utilisées à des fins commerciales.
Pour finir la comparaison avec Google est complètement ridicule: un moteur de recherche ne crée pas d'image, il fournit une vignette + un lien pour la récupérer sur le site qui l"héberge. Le tout en signalant à chaque fois que chacune de ces images peut être soumise au copyright.
Je ne répondrai pas aux attaques personnelles. Adresse toi à moi plus respectueusement.
J'en ai marre de ce comportement.
Le
05/01/2024 à
19h
39
Comme je l'ai dit plus haut (#12), pour bien comprendre ce qu'il s'est passé, il faudrait avoir les prompts ayant généré ces images. Je les ai demandés mais je n'ai pas (encore) eu de réponse. C'est pourtant facile de les fournir ici puisque c'est Next qui a fait générer les images.
J'ai demandé à Google image "animated toy" et la 17 ème image est une image correspondant à Toy Story : https://resize-europe1.lanmedia.fr/r/622,311,forcex,center-middle/img/var/europe1/storage/images/europe1/culture/trois-raisons-qui-prouvent-que-toy-story-a-revolutionne-le-film-danimation-3471521/44791538-1-fre-FR/Trois-raisons-qui-prouvent-que-Toy-Story-a-revolutionne-le-film-d-animation.jpg
Les images précédentes sont pour beaucoup des images de jouets de cartoon (dessins animés). Comme animated correspond aussi au sens animé de film d'animation, c'est assez cohérent.
J'en conclus que sans connaissance précise du prompt, il est difficile de conclure, mais avec un prompt très court, on peut probablement tomber sur des jouets de dessin animés ou des jouets animés.
Le créateur de l'image est normalement celui qui fournit le prompt. Mais avec un prompt trop court, on ne maîtrise plus la sortie et il ne sort que des trucs proches des plus "vus" lors de l'entraînement.
Complètement d'accord, sans prompt pour le démontrer, les affirmations relatives à l'IA n'ont aucune valeur à mes yeux.
Le créateur de l'image est normalement celui qui fournit le prompt. Mais avec un prompt trop court, on ne maîtrise plus la sortie et il ne sort que des trucs proches des plus "vus" lors de l'entraînement.
Sur ce point, il y a du oui et du non de mon expérience. Trop contraindre le modèle peut le faire partir en vrille et avoir des résultats éclatés au sol. Il faut éviter des prompts trop gros avec trop d'instructions (typiquement SDXL sur Stable Diffusion a permis de supprimer la ribambelle usuelle des "hdr, best quality", etc) et lui laisser une part de liberté. Après, ça se joue aussi au niveau des paramètres envoyés au modèle.
Bon, là on parle de Midjourney, et perso j'ai jamais utilisé (veux pas faire de truc public comme ça sur Discord, mon usage de SD est privé quant à lui et je choisis quoi partager). Mais vu la doc, il y a quelques params qui permettent de moduler la créativité du modèle. Pas aussi libre et avancé que SD (car ça partirait vite en vrille ou coûterait très cher à faire tourner), mais y'a de quoi s'amuser avec notamment le seed pour réutiliser une base.
Côté DALL-E 3 les paramètres me semblent très limités pour ne pas dire inexistants.
C'est relatif aux LLM et non à la génération d'image, mais pour les personnes intéressées de comprendre les fondamentaux, un parcours de formation. Perso c'est un peu trop high level pour moi.
Le
05/01/2024 à
09h
16
Merci pour tes retours !
Et oui pour les balises, biensur y'a aucune obligation mais je pense principalement aux sites journalistiques et autres, musée par ex pour lesquels cela devrait être obligatoire au vu de leur activité et je pense qu'ils sont déjà obligé de mettre ces informations dans les balise image.
Le but serait de réduire la possibilité des personnes qui génèrent ces modèles "d'IA" de dire "c'était impossible de savoir".
Par ex sur le site web du MUCEM, ils utilisent les balises figure et figcaption c'est déjà pas mal mais si il pouvait y avoir une balise pour le nom de l'auteur de façon séparée je pense que ça serait appréciable.
Pour ce qui est de ta recherche des images que tu as généré, je trouve l'idée géniale et ça devrait être une bonne pratique ! Même par l'IA, qu'elle vérifie dans sa banque d'image si elle n'est pas trop proche d'une source existante et donc potentiellement en pleine "violation de droit d'auteur". Ou en tout cas l'utilisation à des fins commerciale de l'image générée pourrait conduire à cette "violation de droit d'auteur"
Merci encore pour tes retours :)
Edit: c'est quoi la MAJ de l'article ? Je n'arrive pas à identifier. ça serait cool d'ajouter en fin d'article une phrase pour dire ce qui à été modifié si c'est "important". J'imagine que ce ne sont pas simplementdes corrections orthographiques.
Edit2: Ok je viens de lire "Mise à jour le 04.01.2024 : ajout des deux citations de François Le Bescond (Dargaud)" je deviens parano j'ai pourtant bien cru ne rien avoir vu écrit... Il est trop tôt
Même par l'IA, qu'elle vérifie dans sa banque d'image si elle n'est pas trop proche d'une source existante et donc potentiellement en pleine "violation de droit d'auteur". Ou en tout cas l'utilisation à des fins commerciale de l'image générée pourrait conduire à cette "violation de droit d'auteur"
L'IA n'a pas de "banque d'image", elle n'a que des statistiques de pixels pour représenter une image basée sur un prompt (méga vulgarisation de la mort - en version moins vulgarisée, elle retient l'application successive de bruit numérique ajoutée sur le matériel d'entraînement, c'est la méthode du forward et reverse diffusion). L'outil en tant que tel est donc incapable de savoir si le contenu produit est proche d'un sous droit d'auteur ou non. Il fait ce qu'on lui demande, rien de plus. Donc dans tous les cas, ce serait le rôle d'un composant dédié et on en revient à la problématique de l'implémentation.
Cela reste possible de filtrer les productions, mais il faut qu'il soit implémenté et utilisé. Dans les cas des modèles gérés par une seule entreprise, ça reste une possibilité (comme GitHub Copilot qui peut filtrer le code proche de celui sous license libre, c'est une option du service) au même titre qu'il y a déjà des filtres pour s'assurer que le résultat n'est pas porno/violent/gore/toussa sur DALL-E ou Midjourney (même si ça reste imparfait).
Dans le cas de Stable Diffusion, c'est mort, clairement car le produit est open source et de nombreux modèles spécialisés existent.
Dans un précédent article, j'avais dit que pour moi c'est un non sens de chercher à répondre à toutes ces problématiques par la technologie. Il est utopique d'imaginer qu'on pourrait gérer au sein de la technologie ce que l'IA est capable de produire ou non, car c'est du même acabit que de considérer que C++ ne doit pas produire de malwares, ou encore plus simpliste, dire qu'un couteau ne doit pas être capable de trancher de chair humaine.
C'est d'autant plus illusoire que de nombreux modèles sont entraînés spécialement pour reproduire un style, cf l'exemple que j'ai donné en #5.
Mais alors c'est quoi cette histoire de wifi? Il n'y a pas besoin de prétexte pour juste extorquer de l'argent...
Les gens devaient signer un contrat d'abonnement avec un flingue sur la tempe.
Littéralement.
People were terrorized “to contract the internet services at excessive costs, under the claim that they would be killed if they did not,” prosecutors said, though they didn't report any such deaths.
C'est effectivement un prétexte pour extorquer de l'argent, au même titre que la "protection" des mafia et autres méthodes. Ici l'idée était de créer un service monopolistique en plus des activités drogue usuelles..
Ernst said the approximately 200 armed criminal groups active in Mexico no longer focus just on drug trafficking but are also “becoming de facto monopolists of certain services and other legal markets." He said that as cartels have gained firmer control of large swaths of Mexico, they have effectively formed “fiefdoms."
À la lecture des résultats, il apparait surtout que la question de la sécurité avance moins rapidement que celles de la précision et, plus généralement, des performances.
Sur ce point, j'ai envie de dire que c'est un point commun avec tout développement IT. La sécurité est systématiquement mise au seconde plan au profit des features et de l'attractivité. Et tant pis pour les dommages collatéraux. Les médias sociaux ont tous connu des épisodes de fuite de données, pourtant ils existent encore.
L’open source offre-t-il des garanties dans le développement de l’IA ?
Par définition, l'open source n'offre pas de garanties, c'est écrit dans toutes les licenses
Mais une ouverture des jeux d'entraînement serait un grand pas en avant. Même Stability AI qui se gausse d'être producteur d'un produit open source avec Stable Diffusion a gardé le contenu des dataset fournis par LAION secrets. C'est nul.
Des protections spécifiques sont-elles prévues dans la chaine d’approvisionnement ?
Aujourd'hui, la supply chain est un vecteur d'attaque très utilisé avec des dépendances vérolées, voire même sabotées par leur mainteneur (cas des protestations politiques lors de l'invasion de l'Ukraine par exemple), pouvant entraîner dysfonctionnements, corruption ou exfiltration de donnée. Et comme le moindre bout de code doit tirer trouze mille GB de dépendances pour pouvoir fonctionner, autant dire que la surface d'attaque est plus ou moins de la même taille que le stade de Captain Tsubasa.
Pour l'IA c'est même un double vecteur d'attaque : non seulement le runtime est à risque (souvent en Python, donc bardé de dépendances), mais le dataset comme vous l'indiquez peut entraîner un shit-in shit-out comme dans n'importe quel autre domaine de traitement de donnée.
Personnellement ça ne me surprend pas les montants. Les modèles les plus populaires (hommes ou femmes) sur les sites de webcam en ligne peuvent gagner autant que mon salaire de freelance grâce à ça + un compte Onlyfans derrière. Evidemment ce n'est en rien représentatif, c'est du même acabit que la dizaine de youtubers fortunés face aux milliers d'autres qui grattent trois pesos avec ça.
Mais il suffit d'une ou deux personnes motivées et elles peuvent envoyer 2 à 300€ sur une session d'un liveshow.
Et les travailleurs de sexe gagnent maintenant plus avec ça qu'avec les productions professionnelles qui rémunèrent au lance pierre (surtout pour les hommes, les femmes étant mieux payées dans le domaine), avec des conditions de tournage qui ne sont pas toujours sans controverses.
Chacun dispose de son argent comme il l’entend, cela reste une liberté.
Perso, ces pin-up virtuelles ça me rappelle les sex-dolls très réalistes (qui existent en version homme et femme) qui coûtent relativement chères, il me semble dans les 2 à 3000€.
Une expression utilisée pour désigner un contenu dit "sûr" (qu'en gros tu peux regarder au taff) d'un "non sûr", ici la pornographie. Mais l'expression est aussi utilisée pour d'autres types de contenus tels que la violence, le gore, etc.
Le
08/01/2024 à
18h
00
Une IA pour générer « des images NSFW, y compris pornographiques »
Il y a des tonnes de modèles NSFW de tout type sur Civitai qu'on peut utiliser avec un front Stable Diffusion, pas besoin de chercher très loin.
D'ailleurs ces modèles sont même plutôt efficaces pour générer des personnages même sans être NSFW. Ils ont de fait plus d'informations que des modèles entraînés uniquement sur des personnes habillées.
J’avoue que c'est clair comme explication, je n'ai pas compris les histoires de redirection "301" et "302" dans l'article.
301 et 302 sont des codes de messages HTTP retournés par le protocole (comme 404 pour "File not found").
Dans le cas de 301, "Moved permanently", le serveur renvoie ce code au client avec l'adresse (Location) du nouveau document à consulter pour lui indiquer que le chemin désiré a été déplacé de manière permanente.
Par exemple, mon site répondait avait sous monsite.fr/index.php et depuis c'est monsite.fr/index.html, le serveur renvoie cette info au client avec le code 301. Ce code a aussi pour effet de demander aux moteurs de recherche de mettre à jour leur index.
Dans le cas de l'URL réduite, il s'agit de l'étape où le lien court est traduit avec l'URL complète.
Cependant, la "vraie" URL renvoie un HTTP 302 ("Found") qui est un code ayant une petit particularité : les moteurs de recherche ne mettent pas à jour leur index quand ils reçoivent ce message. Car il s'agit d'une redirection considérée comme temporaire. Là où le navigateur du client va suivre l'adresse de redirection.
C'est là que les bactéries attaquent car l'URL malveillante répondant un code 302, elle trompe les clients qui ne sont pas des navigateurs Web et renvoie une carte réputée être la destination de l'URL raccourcie.
En fait, de ma compréhension, c'est un usage détourné du code HTTP 302 qui est utilisé comme si c'était HTTP 307 ("Temporary redirect") qui profite du fait que tous les clients ne l'ont pas forcément implémenté comme la spécification l'attendait.
Le
08/01/2024 à
09h
54
C'est la raison pour laquelle je déteste tous ces réducteurs d'URL, on ne sait vraiment plus ce qu'il se passe.
Merci pour le site whereitgoes, je connaissais pas.
14077 commentaires
Plainte pour violation du Copyright : OpenAI répond au New York Times
11/01/2024
Le 12/01/2024 à 21h 14
C'est ça la nuance.
Le 12/01/2024 à 13h 23
Encore de la destruction d'emploi, tiens !
Le 12/01/2024 à 09h 49
Une image non modifiée mais sortie de son contexte peut aussi avoir un autre sens. C'est une des bases de la désinformation qui pullule sur le Web.Le 12/01/2024 à 09h 47
Un LLM n'apprend pas les textes par coeur, il apprend la relation entre les mots dans un contexte donné.Pour faire simple, il apprend à lire. Mais sur des milliers de sources différentes.
Le son binaural, ou comment ne pas se faire avoir en 7.1
12/01/2024
Le 12/01/2024 à 20h 02
D'ailleurs je profite lâchement que les amateurs de matériel audio soient de sortie pour une question. J'ai justement récupéré un subwoofer compatible avec mon ampli home cinéma (Denon AVRX-520BT), mais celui-ci attend une prise type RCA là où le subwoofer en question n'a que les deux fils à nu.Existe-t-il des adaptateurs corrects pour le brancher ?
Le 12/01/2024 à 19h 55
7.1, et dire que mon dernier achat de matériel audio était un ensemble stereo pour ma platine vinyle. J'ai encore du chemin à faire(cela dit j'ai un 5.0 - pas de caisson de basse - qui me procure satisfaction sur mon home cinéma)
Le 12/01/2024 à 19h 53
Mon vénérable 2.1 Creative de 2004 l'atteste. Toujours fidèle au poste pour jouer et excellente malgré malgré la roue du volume qui commence à faiblir.Open data : le CERN publie 800 To de données provenant de l’expérience LHCb
12/01/2024
Le 12/01/2024 à 17h 24
Un hacker français condamné à trois ans de prison aux États-Unis
12/01/2024
Le 12/01/2024 à 10h 26
J'aime la photo d'illustration de l'article source. Tellement vintage cette vue du hacker dans le noir avec un écran sur lequel est exécuté VSCode qui affiche probablement du HTML. Il ne manque que le hoodie.Après on va dire que l'IA accentue les stéréotypes tiens
Luc Lenôtre nous parle de Maestro, son kernel de type Unix écrit en Rust
10/01/2024
Le 12/01/2024 à 10h 21
Comme quoi, l'IA a parfaitement atteint une des principales caractéristique humaines : la flemme.
Le 12/01/2024 à 10h 07
Le 10/01/2024 à 14h 07
Mandatory xkcdAprès, je pense que le succès de Linux est aussi grâce à la communauté qui s'est très rapidement construite autour et aux entreprises qui ont investi dedans très tôt (coucou Red Hat ou encore Yggdrasil, première distrib commerciale). Ironiquement, Linux avait été aussi démarré comme projet "perso et sans grosses ambitions comme GNU", et depuis c'est un composant majeur là où Hurd n'a jamais réellement percé alors qu'il est porté par la FSF au même titre que GNU.
Et à côté nous avons pourtant les noyaux BSD qui sont très matures, mais beaucoup moins bruyants que Linux.
Mais c'est aussi la beauté de l'open source, plein de projets qui naissent, se développent, et meurent, avec un cycle de vie inlassable. Parfois le ré-inventage de roue n'est pas forcément une idée négative : ça peut permettre de trouver des approches un peu plus innovantes. Mais sur le plan professionnel, très peu d'entreprises ont l'envie de le faire.
Le 10/01/2024 à 13h 53
Chouette projet et belle motivation de la part de son mainteneur !Le 10/01/2024 à 13h 52
Amazon, Discord, Google, Meta : 2024 commence sur une nouvelle vague de licenciements
12/01/2024
Le 12/01/2024 à 09h 54
Bah, s'ils ont envie de remplacer des employés par un stagiaire, c'est leur choix. Qu'ils viennent pas chialer ensuite.Ce sont des décisions usuelles de management à court terme, au même titre que d'avoir un ratio de 20% internes pour 80% de presta dans son service IT. Ca permet de rapidement dégraisser en cas de coup dur, mais on se rend compte ensuite qu'il n'y a plus aucune compétence dans l'entreprise car les internes ont été assignés à des postes de management.
Midjourney génère aussi des images de sac Hermès et des logos Vuitton et Gucci
11/01/2024
Le 11/01/2024 à 18h 32
Merci d'avoir pris en compte la remarque sur l'absence des prompts. Cela donne plus de consistence à votre sujet et permet de reproduire par soit-même pour les personnes utilisant Midjourney (pas mon cas, sans intérêt).Si cela vous intéresse, je peux faire un lot avec les mêmes prompts sur des modèles Stable Diffusion à titre de comparaison.
Le 11/01/2024 à 17h 41
Dans le cas de Stable Diffusion, il s'appelle ainsi car il utilise justement un diffusion model dont le concept est inspiré de la physique d'après ce que j'ai compris. Mais n'ayant pas le bagage pour comprendre les éléments derrière, voici cependant comment l'entraînement et la production d'image par SD fonctionnent de manière très simplifiée :L'entraînement se fait par Forward Diffusion et Reverse Diffusion.
En Forward Diffusion, Les images du dataset sont corrompues par l'ajout de bruit numérique successif jusqu'à ce que celle-ci soit illisible. C'est voulu. Cela permet au Noise Predicator d'enregistrer les variations.
Ensuite, on applique le Reverse Diffusion qui, comme son nom l'indique, va dans l'autre sens : il part du bruit et reconstruit l'image par ajout successifs de filtre anti bruit. Ce sont des filtres du même genre que ceux utilisés en imagerie type photographie numérique. Cela permet de voir que le Noise Predicator a bien appris.
Ensuite, comment Stable Diffusion produit une image. Contrairement à DALL-E qui travaille en pixel space, qui est très lourd et demande beaucoup de puissance, SD travaille dans un latent space pour générer les images. Celui-ci est 64 fois plus petit, permettant au modèle de tourner sur des GPU type high-end consumer.
En premier, le tokenizer interprète le prompt et en fait une information compréhensible pour la machine, comme un LLM le fait (le tokenaizer de SD étant CLIP d'OpenAI). Les embbedings, là aussi de la techno OpenAI, permettent la compréhension sémantique du prompt pour conditionner le résultat (une voiture rouge = une voiture rouge et pas un camion vert)
Il génère une bouillie de pixels aléatoire dans le latent space.
Le noise predictor prend en charge la base générée et commence à itérer dessus (les steps qu'on peut paramétrer). A chaque itération, l'image dans le latent space prend forme et perd du bruit car celui-ci est soustrait par le noise predictor en boucle. Le but du noise predictor est de comparer le bruit courant de l'image et ce qu'il a en connaissance pour approcher du résultat escompté. Une fois les steps terminées, le Variational AutoEncoder (VAE) de Stable Diffusion extrait l'image et la restaure à la taille normale (512x512 pour SD 1 et 2, 1024x1024 pour SDXL). C'est ce composant qui permet d'utiliser SD sur des configs type gamer car son rôle est de décompresser l'image du latent space.
Et ça fait des chocapics.
Librinova crée un « label création humaine » face aux livres générés par IA
11/01/2024
Le 11/01/2024 à 09h 59
Pour info, le site du label en question.Perso je trouve cette cabale caricaturale.
J'utilise l'IA générative pour m'aider à reformuler des passages d'un livre que j'écris, vérifier la syntaxe d'une phrase, ou encore la contextualiser selon un besoin précis (ex : le personnage s'exprime comme au 17ème siècle), suggérer une approche, et même itérer sur une idée pour proposer des variantes. Mais le texte final reste tapé avec mes petits doigts sur un clavier car le texte écrit par IA est généralement chiant et fade à en mourir.
Bannir les contenus entièrement ou majoritairement générés par IA : oui clairement, c'est de la merde en barre en plus d'être bourrés de conneries et de mensonges (même si c'est aussi le cas de livres humains, l'IA générative c'est juste la production de connerie humaine à vitesse industrielle).
Bannir son usage pour assister les auteurs, c'est aussi débile que de vouloir bannir LibreOffice Writer (bon, dans mon cas j'utilise Zettlr) et le correcteur orthographique. Même si le label indique "Il est cependant admis que l'auteur puisse avoir recours à une intelligence artificielle à des fins de recherche, sans que cela ne constitue une contribution à la création de ladite œuvre.", c'est plutôt vague et difficile à délimiter. Quant au passage sur les images, perso ça m'interdirait d'avoir recours à Stable Diffusion pour générer mes couvertures alors que je m'assure le plus possible d'éviter qu'elle ne soit proche d'une image existante.
Pour la rédaction, si le retour d'expérience que je vous avais proposé sur l'usage pratique de l'IA générative dans ce cadre là justement, vous intéresse vraiment, faites moi signe svp. Je n'ai jamais eu de réponse à la proposition.
Le Sénat lance un appel d’offres pour transcrire ses comptes-rendus par une IA générative
11/01/2024
Le 11/01/2024 à 09h 28
Je me demandais pourquoi de l'IA générative pour des CR alors que c'est plus le boulot de moteurs tels que Whisper. Mais après coup, puisque ça parle aussi de synthétiser les contenus et de produire plusieurs versions, il y a du sens à utiliser un LLM car c'est son taff.Par contre ils ont intérêt à bien former le personnel car le LLM peut déformer le texte, c'est une chose que j'ai observé en testant sur de la traduction ou de la réécriture. Des relectures humaines restent indispensables. Perso je dis toujours que l'IA générative est un stagiaire : on ne lui donne pas les clés de sa production et on évalue son travail avant de l'envoyer au client. Et on est responsable de ce dernier.
Next saisit la CADA à propos de MIA, l’IA d’enseignement de Gabriel Attal
10/01/2024
Le 10/01/2024 à 19h 31
Le 10/01/2024 à 17h 16
Edit : la vache c'est quoi c'te resize de l'enfer ? XD
Le 10/01/2024 à 13h 51
saute par la fenêtre
Le 10/01/2024 à 13h 10
Pour beaucoup, ce n'est que le Web.
Dans la réalité, c'est un ensemble bien plus multiple de protocoles de communication.
La Commission européenne se penche sur l’investissement de Microsoft dans OpenAI
10/01/2024
Le 10/01/2024 à 13h 58
Intéressant, je me demande bien ce que ça donnera.Au début, Microsoft a commercialisé l'offre d'OpenAI via Azure OpenAI Service, mais depuis l'entreprise a aussi ses offres business (ChatGPT Enterprise, etc). Par contre, la pierre angulaire de l'histoire reste le fait que Microsoft fourni l'infra à OpenAI pour faire tourner ses produits. Infra qui a du mal à suivre même, plusieurs régions Azure en Europe sont en manque de GPU et l'offre n'est pas disponible partout car fermée par manque de capacité sur certaines régions. Ca rappelle l'époque COVID où les data center se sont retrouvés en sous capacité à cause du pic inattendu.
[MàJ] Midjourney recrache des images Pixar et d’œuvres protégées, parfois sans qu’on le lui demande
04/01/2024
Le 10/01/2024 à 13h 49
Comment Discord parvient à servir une communauté de 18 millions de membres sur un serveurUne explication du fonctionnement interne de Discord qui lui permet de tenir la charge face à la très grosse communauté engendrée par Midjourney.
Le 09/01/2024 à 12h 11
Pour le coup, c'est même le seul truc qui n'est pas opaque !! Sur ChatGPT il suffit d'utiliser le lien de partage, ou de le screenshot au besoin. Midjourney aucune idée, mais dans la mesure où c'est un serveur discord, ça se sauvegarde aussi.
D'ailleurs, quelqu'un a déjà vérifié si les paramètres du modèle étaient disponibles en metadata dans l'image produite ?
Le 08/01/2024 à 22h 10
Je n'ose pas utiliser cet outil sur ma machine de jeux actuelle (une RTX 2070 avec 16GB RAM et un Ryzen 7) de peur d'user ou abîmer la config, ça reste des systèmes encore très perfectibles et j'ai pas envie de cramer une bécane achetée avec les tarifs de 2021...
C'est là l'atout majeur de Stable Diffusion d'ailleurs : il est conçu pour tourner sur du GPU haut de gamme type "consumer" - une config de gamer en gros. Pas besoin d'une ferme de ouf type mineur de bitcoin comme OpenAI exploite chez Azure car il est optimisé pour réduire sa conso. Sur Civitai plusieurs producteurs de modèles donnent d'ailleurs des statistiques de coût d'entraînement. Je crois de mémoire que le modèle que j'aime beaucoup a coûté environ $200 à entraîner. Ce qui est que dalle quand tu compares par exemple au service Azure OpenAI dont l'heure d'entraînement d'un modèle coûte $90.
Avec plus de performances, les résultats peuvent être bien meilleurs grâce à quelques LoRA spécialisés qui corrigent les ratés du modèle de base, des ControlNet, etc. Hélas, dans mon cas, si j'ajoute plus d'un LoRA avec SDXL, OOM Killer dégaine rapidement. Avec SD 1.0 ça passe du tonnerre par contre.
Mais si j'osais une comparaison, je te dirais que quand je fais une session de génération d'images, c'est comme quand je prend en photo un feu d'artifice du 14 juillet. Je repars avec 500 clichés, j'en trash 70%. La génération d'image, c'est pareil pour moi. Parfois l'inpainting ou lui faire retravailler la production à partir de la seed d'une image dont la composition me plait, mais défectueuse niveau rendu, peut donner de meilleurs résultats. Cela dit, s'pas toujours gagné.
Clairement, je trie majoritairement le bon grain de l'ivraie. Quand je tente de produire une couverture pour un livre, j'arrive en général à en garder 3 ou 4 sur une centaine d'itérations. Ce nombre est aussi causé par le fait que je modifie le prompt au fil des générations, donc la file continue de dépiler pendant ce temps et ça tourne par lot de 9 à chaque fois. Je pourrais lui dire de faire un par un, mais la nature même de l'IA générative fait qu'il faut lui la laisser itérer plusieurs fois. On peut avoir de sacrés surprises.
Le 08/01/2024 à 20h 42
Dans l'affaire l'opposant avec le New York Times, OpenAI a posté sa réponse aux poursuites intentées contre eux par le journal.Le 08/01/2024 à 13h 39
Pour compléter l'analyse, du côté de Stable Diffusion la compréhension du prompt se fait en différentes phases.D'abord, il utiliser le tokenizer CLIP développé par OpenAI pour transformer les mots en séquences numériques que l'ordinateur peut lire.
Ensuite, il utilise les embeddings (là aussi issu d'OpenAI) qui permettent de détecter les similarités entre les mots (ex : "une femme qui..", "une madame qui...", deux mots qui veulent dire la même chose de son point de vue).
Enfin, il y a le mécanisme d'attention croisée (Cross Attention) qui permet de faire le lien entre des termes qui se qualifient pour décrire la scène voulue (ex : "des yeux bleus", il associera bien l'objet - yeux - et la couleur - bleus - pour éviter d'avoir une chemise bleue, mais ça peut quand même arriver).
Donc, toujours plus ou moins à chaud et de manière toujours autant spéculative sur Midjourney, il a probablement du faire une interprétation trop générique ou large de "animated toys" selon comment le prompt est traité par le modèle et c'est tombé dans les embranchements qui ont du relier "animated" et "toy" à Toys Story (si je voulais le décrire en anglais, je dirais "an animated movie about toys"), et dans le cas de WALL-E probablement des qualificatifs du dataset relatifs aux jouets dérivés du film.
Le 08/01/2024 à 13h 26
Le 08/01/2024 à 12h 28
Comme dit en #7.9, j'ai testé avec Stable Diffusion le seul prompt proposé dans l'article :animated toy
.Les résultats ont été intéressants et vous pouvez les télécharger ici : https://www.swisstransfer.com/d/8ec68a70-da79-4668-9496-e0ab2def5de2 (attention, limité à 250 téléchargements - si la rédaction le souhaite je peux vous envoyer directement les images)
J'ai exécuté en tous 6 batches avec deux modèles à chaque fois : SDXL 1.0 (le modèle de base fourni par Stability AI et entraîné par un dataset fermé fourni par l'organisation à but non lucratif allemande LAION), et CopaxTimless 1.8 qui est mon chouchou du moment. Ce dernier est un checkpoint entraîné à partir du base model de SDXL 1.0.
Dans cette archive, 6 dossiers nommés de la manière suivante :
{used prompt} - {used model}
J'ai laissé tous mes paramètres usuels en matière de CFG et Steps. Pour info j'utilise le front InvokeAI
Le résultat obtenu est le suivant :
- animated toy - copax-1.8 : Ici, aucun résultat sous copyright, en tous cas à ma connaissance, pas de personnage de Toy Story ou WALL-E obtenu par mégarde.
- animated toy - sdxl-1.0 : Même chose
Voulant savoir si les deux modèles avaient bel et bien connaissance des personnages de Toy Story ou de WALL-E, j'ai donc lancé des nouveaux lots demandant explicitement cette IP.
- toy story characters - copax-1.8 : Pas de doutes, des images des personnes de Toy Story ont bien fait partie de l'entraînement du modèle car il en a parfaitement la connaissance.
- toy story characters - sdxl-1.0 : Encore mieux, il a quasiment créé une affiche du film et on lit de manière quasi distincte "Disney" (parmi les améliorations de SDXL avaient notamment l'écriture qui était dégueulasse avant). Par contre il ne s'agit pas de l'affiche officielle.
- wall-e robot - copax-1.8 : Ici, le modèle connaît bien le personnage de WALL-E et a su le reproduire moyennant de nombreuses imperfections cela dit.
- wall-e robot - sdxl-1.0 : Même chose sur SDXL
A noter que dans toutes ces images, il y a des personnages qui ne me semblent pas issus de l'univers Toy Story, ce sont probablement des résultats aléatoires imitant le style.
Vous pouvez extraire de tous les PNG les paramètres utilisés sur SD incluant le prompt, ils sont dans les metadata. Sous Linux, la commence
identify -verbose
fait le taff.Exemple :
Properties:
date:create: 2024-01-08T08:25:02+00:00
date:modify: 2024-01-06T20:41:55+00:00
date:timestamp: 2024-01-08T11:27:51+00:00
invokeai_metadata: {"generation_mode":"sdxl_txt2img","positive_prompt":"animated toy","negative_prompt":"","width":704,"height":1152,"seed":1161674508,"rand_device":"cpu","cfg_scale":5.5,"steps":50,"scheduler":"dpmpp_2m_sde_k","model":{"model_name":"copaxTimelessxlSDXL1_v8","base_model":"sdxl","model_type":"main"},"vae":{"model_name":"sdxl-1-0-vae-fix","base_model":"sdxl"},"positive_style_prompt":"","negative_style_prompt":""}
Mon impression à chaud est que Midjourney est probablement moins ou trop bien conditionné par rapport à Stable Diffusion. Il génère par inadvertance des choses très spécifiques (ici les personnages de films d'animation via un prompt très générique) ce qui me donne l'idée que les conditions pour le text-to-image sont probablement trop génériques ou alors il a du recevoir un fine-tuning un peu trop orienté. Après c'est de la pure spéculation, et je n'ai pas la prétention de connaître sur le bout des doigts les rouages internes, surtout que Midjourney est complètement fermé là où Stable Diffusion est open source, et mieux documenté sur le Web, malgré le dataset d'entraînement des Base Models non communiqué.
Le 08/01/2024 à 09h 48
Parce que là, j'ai un batch en cours de production avec le seul prompt disponible dans l'article ("animated toy"), et les résultats sont intéressants avec Stable Diffusion (je posterai ça une fois fini).
Mais si on veut rester d'une manière plus générale, le débat est peu ou prou le même que celui de l'impression 3D qui faisait hurler à la contrefaçon de masse.
Le 06/01/2024 à 20h 44
J'en ai marre de ce comportement.
Le 05/01/2024 à 19h 39
Sur ce point, il y a du oui et du non de mon expérience. Trop contraindre le modèle peut le faire partir en vrille et avoir des résultats éclatés au sol. Il faut éviter des prompts trop gros avec trop d'instructions (typiquement SDXL sur Stable Diffusion a permis de supprimer la ribambelle usuelle des "hdr, best quality", etc) et lui laisser une part de liberté. Après, ça se joue aussi au niveau des paramètres envoyés au modèle.
Bon, là on parle de Midjourney, et perso j'ai jamais utilisé (veux pas faire de truc public comme ça sur Discord, mon usage de SD est privé quant à lui et je choisis quoi partager). Mais vu la doc, il y a quelques params qui permettent de moduler la créativité du modèle. Pas aussi libre et avancé que SD (car ça partirait vite en vrille ou coûterait très cher à faire tourner), mais y'a de quoi s'amuser avec notamment le seed pour réutiliser une base.
Côté DALL-E 3 les paramètres me semblent très limités pour ne pas dire inexistants.
Côté prompt engineering, OpenAI fourni quelques conseils intéressants, tout comme j'avais bien aimé cet article aidant à formuler les prompts pour SDXL.
Le 05/01/2024 à 15h 32
C'est relatif aux LLM et non à la génération d'image, mais pour les personnes intéressées de comprendre les fondamentaux, un parcours de formation. Perso c'est un peu trop high level pour moi.Le 05/01/2024 à 09h 16
Cela reste possible de filtrer les productions, mais il faut qu'il soit implémenté et utilisé. Dans les cas des modèles gérés par une seule entreprise, ça reste une possibilité (comme GitHub Copilot qui peut filtrer le code proche de celui sous license libre, c'est une option du service) au même titre qu'il y a déjà des filtres pour s'assurer que le résultat n'est pas porno/violent/gore/toussa sur DALL-E ou Midjourney (même si ça reste imparfait).
Dans le cas de Stable Diffusion, c'est mort, clairement car le produit est open source et de nombreux modèles spécialisés existent.
Dans un précédent article, j'avais dit que pour moi c'est un non sens de chercher à répondre à toutes ces problématiques par la technologie. Il est utopique d'imaginer qu'on pourrait gérer au sein de la technologie ce que l'IA est capable de produire ou non, car c'est du même acabit que de considérer que C++ ne doit pas produire de malwares, ou encore plus simpliste, dire qu'un couteau ne doit pas être capable de trancher de chair humaine.
C'est d'autant plus illusoire que de nombreux modèles sont entraînés spécialement pour reproduire un style, cf l'exemple que j'ai donné en #5.
Un cartel mexicain a obligé la population à utiliser son Wi-Fi sous menace de mort
10/01/2024
Le 10/01/2024 à 13h 13
Littéralement.
C'est effectivement un prétexte pour extorquer de l'argent, au même titre que la "protection" des mafia et autres méthodes. Ici l'idée était de créer un service monopolistique en plus des activités drogue usuelles..
Les dangers guettant les déploiements rapides des IA
09/01/2024
Le 09/01/2024 à 17h 56
Petit partage : (longue) interview du responsable du service juridique d'Adobe qui parle entre autres du copyright et de l'IA.Le 09/01/2024 à 17h 42
Sur ce point, j'ai envie de dire que c'est un point commun avec tout développement IT. La sécurité est systématiquement mise au seconde plan au profit des features et de l'attractivité. Et tant pis pour les dommages collatéraux. Les médias sociaux ont tous connu des épisodes de fuite de données, pourtant ils existent encore.Par définition, l'open source n'offre pas de garanties, c'est écrit dans toutes les licenses
Mais une ouverture des jeux d'entraînement serait un grand pas en avant. Même Stability AI qui se gausse d'être producteur d'un produit open source avec Stable Diffusion a gardé le contenu des dataset fournis par LAION secrets. C'est nul.
Aujourd'hui, la supply chain est un vecteur d'attaque très utilisé avec des dépendances vérolées, voire même sabotées par leur mainteneur (cas des protestations politiques lors de l'invasion de l'Ukraine par exemple), pouvant entraîner dysfonctionnements, corruption ou exfiltration de donnée. Et comme le moindre bout de code doit tirer trouze mille GB de dépendances pour pouvoir fonctionner, autant dire que la surface d'attaque est plus ou moins de la même taille que le stade de Captain Tsubasa.
Pour l'IA c'est même un double vecteur d'attaque : non seulement le runtime est à risque (souvent en Python, donc bardé de dépendances), mais le dataset comme vous l'indiquez peut entraîner un shit-in shit-out comme dans n'importe quel autre domaine de traitement de donnée.
Des pin-up créées avec des IA génèrent déjà des dizaines de milliers d’euros par mois
08/01/2024
Le 09/01/2024 à 10h 25
Personnellement ça ne me surprend pas les montants. Les modèles les plus populaires (hommes ou femmes) sur les sites de webcam en ligne peuvent gagner autant que mon salaire de freelance grâce à ça + un compte Onlyfans derrière. Evidemment ce n'est en rien représentatif, c'est du même acabit que la dizaine de youtubers fortunés face aux milliers d'autres qui grattent trois pesos avec ça.Mais il suffit d'une ou deux personnes motivées et elles peuvent envoyer 2 à 300€ sur une session d'un liveshow.
Et les travailleurs de sexe gagnent maintenant plus avec ça qu'avec les productions professionnelles qui rémunèrent au lance pierre (surtout pour les hommes, les femmes étant mieux payées dans le domaine), avec des conditions de tournage qui ne sont pas toujours sans controverses.
Chacun dispose de son argent comme il l’entend, cela reste une liberté.
Perso, ces pin-up virtuelles ça me rappelle les sex-dolls très réalistes (qui existent en version homme et femme) qui coûtent relativement chères, il me semble dans les 2 à 3000€.
Le 09/01/2024 à 10h 14
Le 08/01/2024 à 19h 32
Safe For WorkNot Safe For Work
Une expression utilisée pour désigner un contenu dit "sûr" (qu'en gros tu peux regarder au taff) d'un "non sûr", ici la pornographie. Mais l'expression est aussi utilisée pour d'autres types de contenus tels que la violence, le gore, etc.
Le 08/01/2024 à 18h 00
Il y a des tonnes de modèles NSFW de tout type sur Civitai qu'on peut utiliser avec un front Stable Diffusion, pas besoin de chercher très loin.D'ailleurs ces modèles sont même plutôt efficaces pour générer des personnages même sans être NSFW. Ils ont de fait plus d'informations que des modèles entraînés uniquement sur des personnes habillées.
À quoi ressemblent réellement Neptune et Uranus ?
08/01/2024
Le 08/01/2024 à 18h 43
Pourquoi je me dis que Flock a été ligoté, bâillonné, et jeté dans une cave pour ne pas illustrer cet article ?Memtest86+ en version 7.0
08/01/2024
Le 08/01/2024 à 18h 40
[lien](http://url)
Edit : conversion assez capricieuse, mettre du marquage markdown entre ` ` n'aurait pas du le convertir.
Sur les réseaux sociaux, une redirection peut en cacher une autre
05/01/2024
Le 08/01/2024 à 18h 19
Dans le cas de 301, "Moved permanently", le serveur renvoie ce code au client avec l'adresse (Location) du nouveau document à consulter pour lui indiquer que le chemin désiré a été déplacé de manière permanente.
Par exemple, mon site répondait avait sous
monsite.fr/index.php
et depuis c'estmonsite.fr/index.html
, le serveur renvoie cette info au client avec le code 301. Ce code a aussi pour effet de demander aux moteurs de recherche de mettre à jour leur index.Dans le cas de l'URL réduite, il s'agit de l'étape où le lien court est traduit avec l'URL complète.
Cependant, la "vraie" URL renvoie un HTTP 302 ("Found") qui est un code ayant une petit particularité : les moteurs de recherche ne mettent pas à jour leur index quand ils reçoivent ce message. Car il s'agit d'une redirection considérée comme temporaire. Là où le navigateur du client va suivre l'adresse de redirection.
C'est là que les bactéries attaquent car l'URL malveillante répondant un code 302, elle trompe les clients qui ne sont pas des navigateurs Web et renvoie une carte réputée être la destination de l'URL raccourcie.
En fait, de ma compréhension, c'est un usage détourné du code HTTP 302 qui est utilisé comme si c'était HTTP 307 ("Temporary redirect") qui profite du fait que tous les clients ne l'ont pas forcément implémenté comme la spécification l'attendait.
Le 08/01/2024 à 09h 54
C'est la raison pour laquelle je déteste tous ces réducteurs d'URL, on ne sait vraiment plus ce qu'il se passe.Merci pour le site whereitgoes, je connaissais pas.
#Flock mise tout sur le bullshit
06/01/2024
Le 06/01/2024 à 20h 54
Celle des influenceurs IA m'a rappelé le Mangez des cerises de Les Nuls.Linux représenterait près de 4 % des utilisateurs d’ordinateurs de bureau
05/01/2024
Le 06/01/2024 à 08h 38
Celle où WSL aura remplacé le noyau NT sur Windows ?Square Enix se tourne vers l’IA générative
04/01/2024
Le 04/01/2024 à 20h 42
Y'en a un autre qui y croit à mort aussi...