Avec mon f/3.5 estimé à l'œil, je n'étais vraiment pas loin !
Pas forcément trop pro : si c'est f/4 à 159mm, mon bon vieux Sigma 70-300 acheté 110€ il y a 20 ans en est capable.
Sérieux ? Parce que quand je regarde de nos jours, difficile de trouver un télé avec cette focale et une ouverture similaire sans taper dans les 4 chiffres. J'ai regardé chez Sigma et pas trouvé non plus.
J'ai un télé Nikkor 70-300mm en APS-C qui ouvre à f/4.5-5.6 et il était déjà à 600€. La version non stabilisée était moins chère, mais ça aurait été inutilisable (depuis je suis sur un Z5, le capteur est stabilisé contrairement au D5600 que j'utilisais). Mon objectif le plus lumineux est le 35mm à focale fixe de Nikkor (pas cher, choppé à 135€ pendant le COVID, il a bien grimpé, et excellent) qui ouvre à f/1.8.
Vient juste après le 24-70, celui du kit du Z5, en full frame donc, qui ouvre en f/4 constant. C'est mon chouchou en voyage, je l'adore.
Le
04/11/2024 à
08h
22
Je dirais que tu n'as jamais fait de photo avec un vrai appareil. À vue de pif, on doit être à une ouverture autour de f/3.5 pour ce résultat.
Presque ! f/4 avec un téléobjectif bien lumineux à priori (159mm pour cette photo). Du matos de pro quoi.
Ce qui est certain, c'est qu'il ne s'agit pas d'un smartphone affichant le site Next. Le thème biafine par défaut aurait purifié les deux morts vivants par son éclat
Je ne monte pas dans les tours, je dis juste que je m'en fous et ne comprenais pas pourquoi tu me faisais la remarque.
Le
02/11/2024 à
13h
29
Je réagissais sur cette phrase et désolé si pas clair car multiples commentaires ici sur le même commentaire initial. On peut en perdre le fil
"Apple ne le proclame pas, tous les MacBook Air (actuellement équipés d’une puce M3) viennent de voir leur mémoire doubler et passer à 16 Go, sans modification du tarif."
16Go@2024... 8Go@2024 ça aurait fait quand même très très radin... vu le prix de vente de la bête..., non ?
Même optimisé à mort, 8Go pour OS + Logiciel de montage vidéo par exemple= Out Of Memory
16Go@2024... 8Go@2024 ça aurait fait quand même très très radin... vu le prix de vente de la bête..., non ?
Honnêtement, j'en ai rien à cirer. À 8GB, le MacBook Air était disqualifié pour mes usages et l'upgrade l'excluait de ma fourchette de prix. Les jérémiades sur les tarifs Apple ne m'importent pas, je lis les mêmes discours éculés depuis 15 ans.
Désormais, il rentre dans mes critères de poids, performance, mobilité et prix. Raison pour laquelle je l'envisage comme potentiel remplaçant d'une machine qui a coûté le même prix en son temps.
Et encore, le Asus que j'utilise en laptop était à 1800€ en 2017 à sa sortie. Je l'ai acheté 1500 en 2018 et il a fini par descendre vers 1200 vers sa fin de commercialisation de ce que j'ai vu.
Le seul critère qui lui retire des points dans mon estimation, c'est le SSD 256GB qui fait léger. Cependant, dans la mesure où la machine actuelle ne stocke presque rien en dehors d'une synchro locale des dossiers kDrive adéquat (9GB de données, mais il y a du superflu), c'est une limitation qui ne devrait pas être handicapante.
Le SSD de mon actuel est un 512GB et mon /home en utilise 122. Sachant que j'avais testé d'installer Final Fantasy XIV pour le tester sous Linux, le dossier fait 77GB. L'autre gros cul, c'est le dossier de données de Whisper quand je l'avais testé lui aussi. Je ne pense donc pas avoir besoin de plus pour une machine à écrire.
Le
02/11/2024 à
08h
41
2 x 8Go @ Gskill (16Go) @ 3200Mhz base @ overclockés facilement @ 4000Mhz @ 16-15-15-38-50, pour 200€ le tout et ça en... 2019... soit il y a plus de 5 ans déjà...
Donc on doit applaudir Apple pour passer "gratuitement" à 16Go en 2024 pour un appareil qu'ils vendent largement au-dessus du millier d'€...
Mouais, je vais m'abstenir d'applaudir ici encore une fois sur un produit Apple...
Après, tant qu'il y aura des acheteurs...
Et oui c'est aussi plus facile quand on vend 3-4 produits seulement de faire le soft optimisé avec.
Par contre, sur PC & Android, quand on doit écrire du code pour des centaines de configurations différentes, configurations qu'on ne contrôle PAS vraiment, juste des recommandations... ha ouais, là d'un coup, un peu plus pointu là... Mais c'est le prix de la liberté aussi...
Et ?
Je n'ai pas trop compris le sens de ta réponse à mon message.
Le
01/11/2024 à
10h
39
Pour ce que j’en sais, beaucoup de « cracheurs de texte » parmi lesquels les journalistes sont équipés de Macs et les claviers des Macbooks sont généralement appréciés pour leur frappe courte mais agréable. C’est à essayer en fonction de chacun en effet.
Pour le reste peu de chance que tu fasses une erreur avec un MBA des temps nouveaux : c’est presque trop pour l’usage que tu décris. J’ai vécu longtemps avec un MBA intel pour m’accompagner en déplacement, vider mes cartes SD et commencer la retouche, c’était déjà plus que praticable. Alors avec les M3 d’aujourd’hui autant te dire que c’est du gâteau, même sur les raw dodus du Leica Q2.
Ça ne fait pas de bruit, ça chauffe très peu sans besoin de ventilo, autonomie dont on n’aurait pas osé rêver il n’y a pas si longtemps, ça traite sans broncher les activités de retouche photo (je n’utilise pas DT mais Lightroom qui n’est pas spécialement reconnu pour être super léger).
Les écrans sont réputés pour leur fidélité en terme de colorimétrie (important quand on s’en sert pour de la photo).
Au delà, ce sont des machines ultra portables agréables, bien finies sous tous les angles. Ah un conseil cependant : mieux vaut éviter les coloris sombres notamment le beau bleu profond, qui malgré le nouveau traitement, marque pas mal les traces de doigts. Ça gâche un peu le plaisir surtout si on est un peu maniaque.
Merci pour ce retour. Les critères de légèreté et portabilité étaient justement ceux pour le choix du Asus à l'époque. Il fait 1.8kg, j'en avais eu marre du tank de dev 17" Dell de mon ancienne boîte et ses 4kg dans mon sac.
Le Tuxedo est pareil, très léger et comme c'est un matériel opti pour du Linux, il tient ses 6, voire 8 heures sans sourciller. Sauf quand les 16 threads du Ryzen 7 carburent, évidemment
J'essayerai le clavier un de ces quatre sur un modèle d'expo. Dans tous les cas, c'est pas pour demain. Tant que le Asus tient la route (j'ai remplacé sa batterie et son SSD l'année dernière - première fois que je voyais une erreur SMART au démarrage d'un PC !), aucune raison de le décom.
(au pire du pire ça reste une machine performante, il rejoindra l'EPHAD informatique qui me sert à faire tourner des modèles d'IA pour mes geekage sur le sujet, même si sa 1050GTX est légère le i7 est très bon)
Le
01/11/2024 à
09h
38
Point 1 & 2 : Roger ;)
Point 3 : quand je suis passé sur macbook pro, j'ai été perturbé par 2 choses avec le clavier : son silence, et le manque de retour "tactile". D'où ma suggestion : test (et pas seulement visuellement ;) )
Ça marche ;)
Le
31/10/2024 à
18h
34
Quelques précautions à prendre malgré tout : - tu tournes sous Linux. Je ne sais pas si tu peux faire tourner Linux nativement sous les derniers Mac (je sais qu'on peut avec Parallel, mais aucune idée en tant qu'OS principal) - vérifie si tu as un réparateur agréé à proximité (je parle bien de réparateur, pas de vendeur). En cas de souci, c'est un gros plus (je me suis fais avoir, la machine achetée avait une carte graphique défaillante. 2 aller/retour à 1h de chez moi. Et je n'ai jamais fais réparé le clavier papillon pour ça, j'ai préférer prendre un clavier externe). - pour le clavier, si tu n'as pas testé, je t'invite à faire un essai. J'ai trouvé ça très perturbant au début
Je ne compte pas mettre cette machine sous Linux. J'ai beaucoup de collègues techos qui sont sur Mac et travaillent sans aucun souci en système vu qu'on y retrouve des outils similaires à du Linux. Là où Winwin, sans WSL c'est la dèche. Et ça reste un Unix, donc plus compatible avec ma mentalité et j'ai toujours été curieux de découvrir ce système (ma seule expérience Apple, c'est l'iPhone 3GS, ça remonte un peu). Et clairement, cette machine aujourd'hui ne sert pas à geeker mais uniquement à créer. Que ce soit en écriture, mais aussi pour utiliser Darktable pour traiter des photos quand je suis en voyage. J'ai donc une préférence pour un truc qui juste marche dans le cas présent. Ma dernière mésaventure avec Antidote et sa dernière mise à jour a été assez relou sous Linux, obligé de faire appel au support pour leur pointer qu'ils avaient oublié un élément !
Deuxième point, y'a un Apple Store pas loin donc pas d'inquiétude là-dessus :)
Troisième point, oui faudrait que je trouve une excuse pour ninja celui d'un collègue et tester. Ou alors en magasin, un jour. Mais en photo, le clavier ressemble à celui de mon laptop Asus même si je sais que le layout Apple diffère un peu. La frappe est très agréable sur le Asus, là où sur mon Tuxedo le clavier est pas top, c'est le seul point qui m'a déçu sur cette machine.
Le
31/10/2024 à
16h
03
À noter que même si Apple ne le proclame pas, tous les MacBook Air (actuellement équipés d’une puce M3) viennent de voir leur mémoire doubler et passer à 16 Go, sans modification du tarif.
Je me tâte de plus en plus pour le jour où je devrais changer le portable Asus de 2018 qui me sert aujourd'hui de machine à écrire. Le clavier des MacBook semble pas mal (celui de l'Asus et très bien. J'ai beau adorer Tuxedo Computers, le clavier n'est pas top), les perfs ont l'air très bonnes sur le papier, et ils sont au même prix que ce vénérable laptop qui a pas mal de kilométrage (usage et géographique, c'est mon PC de voyage et ex PC pro).
Le Asus tourne bien sous Linux, même si l'autonomie reste amputée (3/4 heures, là où sur son Windows 10 d'origine il tenait 8), mais il y a toujours quelques petits couacs qui parfois peuvent irriter.
En résumé de ma compréhension, Gitea a monté une entreprise pour piloter le projet. Perte de confiance de la communauté, fork.
Au début Forgejo était un soft-fork (un rebrand avec quelques features en plus), mais ils sont depuis devenu un hard-fork.
Codeberg est depuis passé sur Forgejo aussi :)
Le
31/10/2024 à
15h
47
sur les milliers de projets, c'est le seul que vous citez ( plus haut aussi ), donc une exception à la règle ? après c'est le plus gros et flagrant je conçois .
De tête je penserais à Rocky Linux > CentOS , mais je n'ai aucun chiffre
Rocky Linux n'est pas vraiment un fork, ça voudrait dire qu'il vit sa vie. C'est un rebuild des sources de RHEL.
Par contre, MATE Desktop est un fork de GNOME 2 par exemple.
Le
31/10/2024 à
15h
47
En effet, mais là je suis pas sur que ça puisse être reproductible pour Flutter.
Je suis d'accord, mais ce n'était pas la question de Jarodd ;)
Sinon, il existe d'autres projets, avec des éditeurs plus ou moins gros, où le fork a pris les devants (la nuit porte conseil ^^) : - MySQL / MariaDB - Owncloud / Nextcloud - Gogs / Gitea (forge logiciel) - B2 / Wordpress - XFree86 / X.Org - Mambo / Joomla - Hudson / Jenkins (logiciel d'intégration continue)
Il y en a très certainement d'autres, la liste est loin d'être exhaustive. Je ne l'ai faite quasiment que de tête. Je n'ai cherché que le nom initial de Joomla et de Wordpress, dont les noms m'avaient échappé.
Sinon, le projet qui répond emblématiquement à la question de Jarodd reste OpenOffice/LibreOffice.
Les raisons qui conduisent au fork sont diverses et variées. Cela peut aller de l'abandon/stagnation du projet initial, à un différend avec le mainteneur principale en passant par un désaccord sur la direction à prendre.
Après, il ne faut pas non plus tomber dans le piège du biais du survivant. Il y a beaucoup de forks qui se font et qui échouent plus ou moins vite.
Quoi qu'il en soit, pour le fork de Flutter, je ne me prononcerai pas sur sa réussite/échec. Je n'utilise pas Flutter, je ne connais pas la communauté ni l'écosystème. Je me garderai donc bien de prendre un pari quelconque
Non, l'aspect le plus intéressant du fork, c'est son nom, qui risque bien d'inspirer "notre" @Flock
- Gogs / Gitea (forge logiciel) / Forgejo
Le mélodrame continue pour lui !
Le
31/10/2024 à
15h
44
Ah non mais personne ne dit ça, sauf peut-être au Québec libre, c'était plus pour donner une image aux personnes qui ne connaitraient pas
Faut écouter la radio du service public, on les entend de temps en temps ;)
C'est très très vite résumé ça. En gros : - WP Engine et Automattic sont en concurrence sur l'hébergement de Wordpress - Automattic est un gros contributeur de Wordpress (dixit Matt) - WP Engine ne contribue quasiment pas à Wordpress (dixit Matt) - La fondation wordpress a autorisé Matt à exploiter wordpress.org pour la partie communautaire - La fondation wordpress a donné l'usage commercial exclusive de la marque Wordpress à Automattic - Matt est à la tête d'Automattic, de la fondation Wordpress, et de wordpress.org (en gros, il contrôle tout l'écosystème) - Matt a décidé de faire héberger wordpress.org par Automattic - Matt reproche donc à son concurrent WP Engine d'utiliser les ressources d'Automattic pour l'accès à la partie communautaire Wordpress.org - Matt a coupé les accès à Wordpress.org à WP Engine - Matt a pris le contrôle sur Wordpress.org du plugin ACF (développé par WP Engine) et la renommé SCF (ce n'est pas un simple fork, mais bien une prise de contrôle, avec récupération de la réputation du plugin, et migration auto de ACF vers SCF si l'update auto est activé).
Ca, en gros, c'est le factuel, facilement vérifiable.
Après, il y a d'autres éléments, qui sont loin de jouer en la faveur de Matt (même si WP Engine n'est pas forcément tout blanc). Matt aurait lancé une tentative d'extorsion 2j avant un Wordcamp, à hauteur de 8% du CA de WP Engine. WP Engine n'ayant pas cédé, Matt a lancer les hostilités en commençant par dénigrer allègrement son concurrent.
Les 2 vagues de licenciement au sein d'Automattic ne sont que le reflet de Matt de vouloir se débarrasser des gens qui ne sont pas d'accord avec lui.
Il a créé une véritable scission au niveau de la communauté, et beaucoup s'interroge sur le devenir de Wordpress, notamment les professionnels du secteur, qui craignent une coupure de service ou la disparition de plugins.
Ce qui n'aurait du être qu'un conflit entre 2 entités commerciales s'est retrouvé sur le terrain, avec la prise en otage de clients du concurrents (coupure sans préavis de wordpress.org) ou de l'accaparement de son travail (vole de plugin).
C'est réparti entre l'auteur du prompt et l'IA. Car si elle ne "raisonne" pas au sens humain du terme, elle a quand même des connaissances qu'elle met en œuvre.
Si tu dis "OK l'IA, je veux un système d'identification des utilisateurs en PHP", elle va chercher des modèles de code qu'elle a en mémoire. Donc même sans le préciser dans le prompt, tu peux être quasiment sûr qu'elle va y intégrer des bonnes pratiques associées (stockage des identifiants en BDD, sécurisation du mot de passe par hashage/salage, génération d'une page login, etc.) alors que tu ne l'a pas forcément précisé.
Ensuite, la main repasse sur l'auteur du prompt. Par exemple, "Tu peux me rajouter une fonction de réinitialisation du mot de passe qui envoie un email ?" si ça n'a pas été proposé par défaut.
Franchement, faut vraiment jeter un œil à ce que ça donne en pratique sur un chatGPT par exemple, c'est quand même assez dément. Et le côté conversationnel permet de rectifier le tir. Tu peux aussi lui coller ton code de départ et lui demander de se baser dessus.
Bon évidemment, plus c'est complexe et plus la version gratuite trouve ses limites et se perd dans la contextualisation. Sur un projet de très grande ampleur, je pense que même la version payante finit par se perdre...
Il faut faire quand même très attention avec le code généré par IA. Il peut souffrir d'insuffisances en matière de sécurité, voire être la source d'une attaque par supply chain à cause des noms de packages inventés qui auraient été repris par un attaquant.
Le
30/10/2024 à
20h
20
Ok, je comprend mieux le cas d'usage et ce que tu veux dire. C'est ce que j’appellerais des snippets ou des templates. Bref, ce qui est copié-collable.
Je suis dev. Et oui, pour tout ce qui est "simple", ces "IA" sont très bonnes : Exemple de code de base, utilisation de la documentation et des docs pour sortir des snippets "par défaut". Bref, tout ce qui est templatable (c'est plus complexe que ça, mais c'est un raccourci à l'écrit).
Elles sont bonnes pour ça parce que justement, des millions de tutos ont déjà ces snippets, des millions de projets ont déjà les mêmes appels d'API, etc.
Par contre, dès que tu sors des sentiers battus, là c'est (beaucoup) plus compliqué. Voir quasi impossible. Et faut aussi savoir faire la part des choses : ces générateurs de codes sont entraîné sur du code déjà existant, donc forcément plus vieux que l'état de l'art. Pour la base de la base, y'a sûrement pas de problèmes, mais ça m'étonnerai pas que des fois, ils sortent des vieilles manières de faire certaines choses.
Bref, oui ça aide, mais c'est pas intelligent, loin de là :)
C'est bien le retour de l'évaluation de Copilot que j'avais fait dans le cadre pro. Rien de nouveau en ce qui me concerne et c'est ce que j'ai résumé dans mon message aussi.
Quant au point sur le terme "intelligence", comme je l'ai déjà exprimé plusieurs fois ici, je laisse ce débat aux gens qui ont du temps à perdre.
Le
30/10/2024 à
17h
29
Cette "IA" ne peut produire que ce qu'elle a déjà vue. Ce qui n'est pas le cas d'un dev.
Et peux-tu me donner ta définition de structures récurrentes, parce que dans le contexte, je vois pas trop ce que tu veux dire.
Quand j'ai testé GitHub Copilot, j'ai trouvé un gain de temps sur l'écriture de CSS pour un template Hugo. Il suggérait des blocs complets sur lesquels j'ai simplement eu besoin d'adapter quelques valeurs.
Après ça, j'ai testé le mode Chat (je considérais Copilot simple comme une auto completion de luxe), et il produisait une structure basique pour le HTML / CSS qu'il m'a suffit ensuite de peaufiner.
Ou pour du scripting Python, quand je traite par exemple des appels d'API, ça initialise les lignes de request et d'analyse des réponses. Derrière y'a plus qu'à tuner en mettant en oeuvre ce que je veux vraiment.
Voilà ce que j'appelle des structures récurrentes, le gain ici est de laisser la machine produire du code dont la valeur ajoutée ne vaut pas le temps que le dev aurait passé dessus. Permettant de se concentrer sur d'autres.
Et dans mon expérimentation de ce même l'outil, j'ai volontairement initié un projet Javascript (et je suis pas dev, et je connais encore moins le JS) pour évaluer la capacité d'assistance de l'outil. Il kickstart le projet sans problème, pisse du code qui répond à la spec en veux-tu en voilà, propose même une trame d'ajouts de feature, magnifique.
Mais dès qu'on arrive à une étape où la compétence du dev est indispensable, l'outil est inutile. Ce fut une expérimentation personnelle intéressante et enrichissante que j'ai pu mettre en comparaison avec celle réalisée dans un contexte pro avec un panel varié de développeurs (technos ou expérience).
Je ne sais pas ce que Google entend dans son quart de code généré par IA (probablement un énième bullshit), mais si je me base sur ma propre expérience, le plus pertinent est de demander à la machine les tâches simples et répétitives (bref, en gros de faire le taff d'un ordinateur) et laisser l'expertise et la réflexion à l'humain.
Le
30/10/2024 à
11h
50
Un développeur ne génère pas du texte mais du code.
Et du code c'est ... ?
Les templates ça existe aussi pour du code, la plupart des SDK ou frameworks ont une fonction pour initialiser un projet avec une base fonctionnelle.
L'IA générative peut servir à produire des structures récurrentes.
C'est-à-dire qu'on pourrait tout à fait utiliser l'intelligence artificielle pour dépasser nos biais inconscients
Cette citation m'a attiré et je n'ai pas été déçu à la lecture du passage. Le propos est excellent et mesuré, j'ai beaucoup apprécié cette partie qui fait écho à ma propre vision de la techno et de ses usages.
Pas complètement d'accord même si je suis d'accord que légalement il y a un certain flou juridique. Après, effectivement, je ne voulais pas rentrer dans une argumentation longue.
Tu as des licences sur les médias (Common Media par exemple) qui définit les mécanismes de réutilisation des médias et qui oblige à identifier l'attribution de ces données/médias à l'auteur. C'est donc bien une contrainte et une interdiction d'usage.
Avec le mécanisme d'apprentissage des LLM, on tombe dans cette interdiction. C'est donc censé être interdit.
Pour mon deuxième et troisième point, on entre dans la notion de l'esprit de la loi : une IA est capable de recréer une presque-copie d'une source existante.
J'ai vu de nombreuses reprises des tableaux de maitre qui en sont très proches, générés par IA. Cela veut dire que l'IA peut recréer le tableau de maitre de façon suffisamment proche pour en créer une copie.
Si une IA peut recréer une quasi-copie à la demande d'un livre, d'une image ou d'une source peu importe la source, elle enfreint (à minima l'esprit de) la loi sur le droit d'auteur. Maintenant, la loi sur le droit d'auteur est sans doute mal écrite car elle ne prévoyait pas encore ce genre d'usage.
La position de Creative Commons n'est pas aussi tranchée et ils considéraient en 2023 que l'entraînement rentrait généralement dans le fair-use. Depuis, ils ont lancé des travaux sur l'étude de signaux pour que l'auteur puisse transcrire sa volonté de manière plus précise au sujet de l'usage de son oeuvre dans ce domaine.
Maintenant, la loi sur le droit d'auteur est sans doute mal écrite car elle ne prévoyait pas encore ce genre d'usage.
Une copie presque à l'identique peut être condamnée pour contrefaçon. Le droit d'auteur n'a pas spécialement besoin d'être changé dans le cadre français. Cela reste in fine à l'appréciation d'un juge.
Le
30/10/2024 à
07h
34
J'ai ouvert un éditeur de texte pour répondre point par point au fur et à mesure que je lisais. Sinon, si je rédige le commentaire après, j'oublie des trucs.
J'ai bien entendu complété mes notes prises au fil de l'eau.
Sur ton dernier point, je ne suis pas sûr que le cadre légal manquait pour le piratage. Les lois sur le droit d'auteur sont anciennes et le fait que la contrefaçon soit faite en ligne ne change rien. On a enrichi la loi pour le piratage, mais elle existait. Et pour moi, c'est pour cela que la comparaison est mauvaise : pour le piratage, c'était interdit et pour l'entraînement des IA, c'est soit autorisé par défaut (UE) soit pas encore jugé (common law).
Sur le plan interdiction, le cadre ne manquait pas pour le piratage, oui (contrefaçon). C'est plutôt sur la surveillance et le temps de réponse que la législation a évolué, car le délit était passé à une toute autre échelle.
Dans les faits, ça n'a pas changé grand chose et l'automatisation du piratage est même arrivée à un niveau tel qu'aller sur un tracker pour chopper un torrent donne l'impression de tailler un silex. On créé sa liste d'envie et l'outil part chercher tout seul le fichier selon les critères demandés, il importe dans la bibliothèque multimédia, renomme, tagge, et c'est du prêt à l'emploi.
Sans surprise, elle intègre une obligation fournir la description des données d'entraînement, comment elles ont été obtenues, utilisées, labellisées, lister et indiquer comment se procurer celles issues d'un jeu public, même chose comment obtenir celles provenant d'un tiers.
En espérant que ça remette l'église au milieu du village sur le côté "open-mais-pas-trop" de nombreux modèles.
Le
28/10/2024 à
22h
54
Si j'écris une copie d'un livre existant en paraphrasant, en ajoutant des éléments et en en enlevant d'autres, ça reste une violation du droit d'auteur. Donc non, ce n'est pas similaire à notre propre apprentissage, car un être humain saura qu'il crée un copie alors qu'un LLM crache juste un résultat.
Un LLM n'a aucune notion de grammaire, d'orthographe ou quoi que ce soit d'autre, c'est uniquement un modèle probabiliste qui enchaîne des séquences de mots, séquences qu'il a bien entendu mémorisées en les copiant des données d'entrainement et qui a pour résultat que de temps en temps, il recrache des copies complètes de paragraphes.
Si j'écris une copie d'un livre existant en paraphrasant, en ajoutant des éléments et en en enlevant d'autres, ça reste une violation du droit d'auteur.
Je ne serais pas aussi tranché. La notion entre plagiat et inspiration reste à l'appréciation d'un tribunal dans le cas du droit d'auteur français (et US aussi, avec le cas par exemple de Ed Sheeran accusé de plagiat où il a démontré la différence entre les accords). Si tu modifies suffisamment le matériel d'origine, il est possible que ça devienne une oeuvre originale. Par contre, si tu gardes des éléments spécifiques (des personnages, des lieux propres au récit d'origine, ce qui caractérise son univers, etc) là ça peut être une contrefaçon. Tout comme le droit de citation n'est pas un plagiat du moment qu'il reste court, qu'il est entre guillemets, que l'auteur est mentionné et qu'il ne prive pas l'oeuvre originale de son intérêt à être lue.
Remarque, c'est déjà le cas avec le sujet épineux de la fan fiction où, en principe, on doit demander d'autorisation de l'auteur ou des ayants-droits puisque c'est couvert par les droits moraux. Je pense que c'est plutôt rare dans la réalité.
Même chose pour la parodie où en respectant les règles, on peut s'inspirer d'une oeuvre existante tout en créant une originale.
Le
28/10/2024 à
20h
08
Je trouvais l'argumentaire léger, mais tu y as répondu mieux que je ne l'aurais fait.
Aussi longtemps qu'il n'y aura pas eu de décision de justice, il est difficile de dire si les lois actuelles protègent suffisamment les auteurs. La comparaison avec l'envolée du piratage me semble hors de propos puis qu'à cette époque, le cadre légal manquait justement.
Autant pour de l'image je me fais moins d'inquiétude, car le watermark transparent est déjà utilisé dans de nombreux procédés (il l'est au ciné par exemple où la projection diffuse un filigrane invisible).
Autant pour le texte, comme je l'avais évoqué il y a peu en le qualifiant de chasse aux sorcières 3.0, le procédé me fait peur car il risque de générer du faux positif et de l'insécurité pour les auteurs. Surtout avec les outils de correction / reformulation qui utilisent eux aussi du LLM.
Exemple, j'ai utilisé l'assistant reformulation d'Antidote pour ma dernière phrase.
Surtout avec les outils de correction et de reformulation, qui utilisent également des LLM.
Elle a été remaniée par un système basé sur du ML qui fait partie du panel d'outils d'une solution de correction de texte avancée très en vogue dans le domaine de l'écriture. Mais, sauf erreur de ma part, je suis pourtant bien la personne à l'origine du propos. Si le détecteur dit "généré par IA", que se passe-t-il ? Remise en doute que tout mon message proviendrait d'un générateur de texte ?
Et si un texte entièrement tapé par mes petits doigts sur mon clavier pendant des mois (oui, c'est long d'écrire un roman, surtout quand on en est à la troisième réécriture) est détecté comme généré par IA ? Si demain Amazon KDP refuse ma publication sous prétexte que j'ai du "texte généré par IA" sur un roman alors que c'est faux, que se passe-t-il ?
(aujourd'hui, on peut cocher une case disant qu'on inclus du contenu généré par IA sur KDP. Texte, image et trad. Au début, il ne faisait pas le distingo, c'était débile. Ça n'engage à rien dans les CGU à ce jour, mais la géométrie variable de ces documents n'est plus à démontrer)
Vais-je devoir prouver mon innocence parce que Saint Outil a forcément raison ? (quel beau concept)
On retomberait dans le travers actuel des gens qui boivent les paroles d'un LLM ! Un comble.
Les faux positifs font partie des indicateurs qu'on travaille dans la sécurité IT pour éviter qu'une solution ne devienne contre productive à gueuler pour rien. L'exemple le plus typique, c'est la détection de secrets en dur dans du code ou des manifestes de déploiement (du style une valeur par défaut car clé obligatoire) qui en génère toujours et pour laquelle il faut définir des critères d'exclusion ou d'analyse.
Effectivement, on est pas à l'abri d'un détournement pour son propre bénéfice.
Cela dit, ce cadre permet de poser une définition qui a moyen d'avoir un certain impact. Je rêve car c'est évidemment bien plus complexe, mais si cela permet demain de pouvoir soi-même entraîner un équivalent de Llama avec le même jeu de données, ça pourrait rendre le produit moins boite noire. Et permettre des alternatives plus libres que la version binaire fournie.
Un peu comme VS Codium vs VS Code.
Le
29/10/2024 à
16h
40
Comme je disais sur l'autre article, cette définition est une bonne chose pour arrêter cette mascarade de ouvert oui mais pas trop. L'open weight c'est un peu comme des binaires applicatifs diffusés librement. C'est bien beau, mais on sait pas comment ça à été produit.
Un peu de bullshit en moins ne fera pas de mal au domaine.
Oui apparemment en parcourant les commentaires, ça se serait plutôt la variable "coût de stockage" qui l'emporte vs "coût d'encodage" (en plusieurs formats/ plusieurs niveaux de qualité).
Transcoder en 480p / 720p en temps réel quand on a le fichier "master" haute qualité avec les puces spécialisées qu'ils doivent avoir dans leurs fermes de serveurs, je pense qu'en terme de charge, ça doit être assez peanut (avec mon 5700G@Hardware, entre 250fps - 500fps @h264/h265)
Et aussi je pensais aussi qu'avec les HDD@20Go / 30Go maintenant (mais bon, il faut du RAID aussi). .
Il faut aussi raisonner à l'échelle, on parle d'une plateforme qui fait une audience très élevée. Le serveur basé sur un vieil i3 (mon ex-HTPC) qui héberge aujourd'hui mon Plex n'a pas de soucis non plus à transcoder pour le seul utilisateur que je suis
Mais dans tous les cas, ils vont forcément chercher à optimiser les coûts et usages des infras. Donc en soi, sur le plan économique, la mesure n'est pas déconnante. L'idée se rapproche du cache SSD où les documents les plus fréquemment accédés seront mis dessus pour accélérer leur disponibilité.
Sur le plan utilisateur, je peux comprendre que ça engendre de la frustration d'être dégradé ainsi comme en témoigne le commentaire #3.
Le
28/10/2024 à
20h
28
J'aurais plutôt pensé le stockage. Avoir plusieurs niveau de qualité ça fini par prendre de la place. Après j'ignore la durée moyenne des vidéos sur Instagram. C'est plus efficient de les produire quand on en a vraiment besoin que d'avoir la version 240, 320, 480, 720, 1080, 2160, etc., de stockées pour rien.
Je ne pense pas non plus qu'ils fassent du transcodage en direct pour adapter le flux au client. Ça réduit le stockage, mais ça augmente la charge CPU.
Le protocole de Bluesky est open source (license MIT + Apache 2.0). Quand aux applications du site principal (web, android, iOS), elles sont sous licence MIT.
Quand ON appelle sa banque et non sa banque qui vous appelle, évidemment que la personne au bout du fil vous fait passer plusieurs étapes d'authentification pour vérifier votre identité...
Les étapes d'identification au téléphone quand on appelle sont assez peu robustes en réalité (expérience avec la CE dans mon cas). Ils demandent le numéro de tel, la date de naissance et l'adresse. Ce sont des informations facilement récupérables.
Il manque une petite passphrase ou éventuellement l'envoi d'un code.
Je comprends ton indignation 😡, mais mon langage fleuri 🌹 était en fait une réflexion 🤔 subtilement déguisée 🥷 pour mettre en exergue (pas d’emoji exergue) la question suivante ⬇️ « Qui va modérer le modérateur ❓ »
Nous attendons vos réponses écrites exclusivement en emojis pour le cours de la semaine prochaine.
↪🔌👍
Le
27/10/2024 à
21h
29
Oui, mais ce serait bien mal employer mon intelligence supérieure. Qui va s’occuper de détecter les cancers pendant ce temps là ? Un peu de cohérence Freddo, merde.
Mais bien sûr ! l'IA a été créé par les industriels du tabac pour permettre de dépister les futurs cancers et ainsi vendre du service autour ! #noussachons
Ton témoignage est important dans le sens où nous en apprenons un peu plus sur l'aspect "intégration du ou des modèle.s" intégration qui du coup apparaît être une phase excessivement délicate. Suivant le talent de l'intégrateur (et la connerie du client... ), l'application qui en résulte peut tout autant rater sa cible que rendre un service réellement utile et utilisé au quotidien.
(Concernant la traduction automatique, je me suis déjà exprimé sur le sujet dans ces colonnes, en tant que traducteur amateur (bénévole) de sous-titres de séries tv, curieux de tester la chose (exemple : DeepL), j'ai vite compris les limites et l'inutilité des AI de traduction pour tout ce qui touche de près ou de loin à une œuvre d'art, et pour moi les séries télé / web et anime sont des œuvres d'art qui méritent d'être respectées.
Pour cela une recherche contextuelle / vocabulaires spécialisés métiers / expressions urbaines ou argotiques est absolument indispensable, si on veut un minimum de qualité, le tout adapté à un public Français qui n'a pas forcément toutes les refs. Et ça, les IA en sont incapables... pour le moment !)
(scroller vers le bas pour lire l'article, en regrettant amèrement au passage que le très remarquable site de réflexion "The Correspondent" qui m'a tant apporté ait dû fermer ses portes... )
Oui, clairement, la difficulté dans l'intégration de modèles d'IA, c'est de bien les configurer. Les installer et les intégrer, ça se fait en trois clics. Si c'est un service managé (type API d'OpenAI, Mistral, etc), c'est juste dix lignes de Python et une clé d'API et c'est torché. Si c'est on-premise, c'est un peu plus complexe mais ça reste de l'installation de logiciel. Ça demande juste des machines assez puissantes.
Mais derrière, il faut déjà commencer à donner un bon system prompt au modèle, qu'est-ce qu'il doit faire et ne pas faire.
Exemple : tu es un assistant pour un accueillir les clients d'une assurance, tu ne parles pas des autres compagnies. Dans le cas de celui sur lequel j'avais bossé, le system prompt indiquait que le bot ne traitait pas d'autres questions que celles relatives aux incidents à analyser (ex : demande lui où acheter une playstation, il refusera de répondre).
Ensuite, l'efficacité du modèle à bien le prendre en compte est importante. Sans oublier les paramètres de température, les top je-sais-plus-quelle-lettre, pour le rendre plus ou moins déterministe ou créatif, etc.
Tiens, ce week end j'ai voulu essayer de me faire un petit assistant de relecture pour mes écrits (il fait un résumé, relève les fautes de français, les tournures lourdes, et propose une critique). En raison de la limite technique, j'avais dit au modèle "attend que l'auteur te dise quand procéder". J'envoyais les morceaux de texte petit à petit parce que le prompt allait être trop gros.
Sur Llama 3, il répondait à chaque entrée de texte : "OK, dites moi quand je peux y aller". Puis je lui donnai le go et il me fit son rapport. La qualité du rapport était correcte mais évasive sur la liste des erreurs et tournure (mais mon system prompt devait jouer).
Sur Mixtral (plus vieux), il fut incapable de s'arrêter et balança direct l'analyse sans attendre que j'ai mis tout le texte, un véritable ado en pleine puberté. Le rapport était à chier, il inventait des fautes, ne comprenait pas les tirets cadratins, et parfois il confondait les guillemets anglais et français.
J'ai pas pu aller trop loin car la machine qui faisait tourner le modèle était limitée et les gros prompts plantaient le bazar. J'ai essayé le même exercice sur les modèles hébergés par Infomaniak, mais ils ont aussi des limitations techniques je pense, car au bout de 3 gros prompts plus de réponse.
Un article sur Next avait parlé d'un POC en Australie qui n'avait pas abouti (j'ai pas réussi à le retrouver, le moteur de recherche est toujours perfectible). Dans ma lecture du document, j'y voyais que le temps accordé à l'étude fut très réduit et qu'ils ont pas eu la possibilité de raffiner le paramétrage et le system prompt. Le résultat fut inefficace, et pas surprenant en raison du délai accordé.
Bref, s'pas magique contrairement à ce que les vendeurs font croire.
J'avais lu ton retour d'expérience sur la traduction automatisée et j'avais trouvé le point de vue très intéressant :)
Merci pour l'article sur la blockchain, je garde ça de côté.
Le
27/10/2024 à
21h
15
@SebGF Je comprends que la réalité est complexe, en fait ce qui m'a fait réagir un peu fortement c'est la partie "agent conversationnel", soit une "innovation" en laquelle personnellement je ne crois pas du tout, et qui peut être une source d'erreurs et de biais, surtout si ledit agent est interrogé par des non-spécialistes pas totalement au fait des possibles erreurs. Je cite - et faites bien attention aux termes utilisés :
"L’agence annonce ainsi avoir débuté le déploiement de Génial, un agent conversationnel, « équivalent d’un ChatGPT défense », dont l’accès sera ouvert à tous les agents du ministère des Armées dès la fin de l’année."
"Tous les agents" inclus donc aussi des non-spécialistes, et ça, AMHA ça ne passe pas du tout !
Par contre, que des algorithmes très spécialisés ET entraînés dans ladite spécialité ET interrogés par des spécialistes et uniquement par des spécialistes, puissent être utiles à la Science avec un grand S, je le conçois fort aisément ! J'étais au courant de l'utilisation de l'IA dans les recherches en cancérologie, grâce à un article dans un magazine scientifique dont j'ai oublié le nom... Je crois que c'est Epsiloon, mais je n'en suis pas sûr...
Et j'ai aussi l'impression persistante que toutes ces projets de recherche / développement avec le mot magique "IA" dedans ont complètement "bouffé" toute l'attention et les crédits accordés aux chercheurs et autres pionniers en informatique, qui ne tournent pas tous autour de l'IA. Il existe plein, plein de domaines différents, comme les réseaux ou la cryptographie par exemple, qui ont aussi besoin de crédits et d'attention.
Le chat bot c'est souvent le premier use case de mise en oeuvre. J'ai vu passer la même chose pour du juridique ou encore du support de niveau 1 IT.
Pour la petite anecdote, j'ai travaillé sur ce dernier cas et j'avais considéré le besoin métier comme overkill par rapport à la finalité. Le support voulait un chat bot pour que les exploitants N1 (profil = 1er type choppé dans la rue avec comme seul critère savoir parler anglais) obtiennent des infos sur des procédures type pilotage. J'ai pas trouvé celui-ci très pertinent et j'avais plutôt préconisé d'utiliser la BDD de l'ITSM pour exploiter les dix ans d'incidents et problèmes qu'elle contenait comme support de connaissance. Ca ne c'est pas fait, hélas.
Néanmoins, cette implémentation, et je l'ai vue plusieurs fois, c'est du RAG. Le modèle sert avant tout à traiter de vraies données en direct (le tout stocké dans des bases vectorielles, plus adaptées pour le ML) et va rechercher dans des vrais docs. Le risque de biais ou d'erreur est moins élevé car on utilise pas les "connaissances" du modèle (en dehors des cas d'usage pour exploiter les capacités d'analyse sémantique des LLM, reposer uniquement là-dessus est une connerie, je l'ai déjà répété plusieurs fois ici d'ailleurs) mais des données réelles. Par contre il réside toujours un risque de déformation du contenu, cela dépend avant tout du paramétrage (trop déterministe ou trop aléatoire). C'est d'ailleurs pour ça que la traduction par un LLM est sujette à précaution. Le LLM ne traduit pas, il réécrit le texte (de mémoire, il est conseillé d'utiliser des paramètres plus déterministes pour ça). Ça dépend aussi de l'efficacité du modèle. Dans mes bricolages perso, j'ai vu de sacrés écarts entre Mixtral et Llama par exemple (en la défaveur du premier, mais celui-ci commence à être vieillot et je pense que Large se fera moins avoir).
Dans le cas du RAG, le modèle récupère des informations et, surtout, cite les documents sur lesquels il s'est appuyé pour produire son résultat. Et si celui-ci a fait l'objet d'un entraînement spécialisé sur les données de la défense, le risque qu'il se plante est réduit. Un peu comme un modèle spécialisé dans le juridique entraîné sur les textes de loi, les décisions de justice, etc. De manière hyper vulgarisée, un modèle de langage il apprend à lire quand on l'entraîne. Plus on l'entraîne sur une masse de données, plus il sera capable de comprendre la sémantique. Et plus on l'entraîne sur des données spécialisées (fine tuning), plus il sera pertinent dessus.
De mon côté, dans les expériences pro que j'ai pu avoir avec les produits d'IA générative, j'ai pu tester l'intégration de GitHub Copilot avec des devs (les retours furent intéressants et même assez prévisibles, les juniors enthousiastes, les seniors trouvant vite les limites du produit), ou encore la conversion de code entre deux versions majeures d'un framework spécifique qui avait permis de déblayer du 70/30.
Du côté de l'algorithmie pure et dure, je suis incompétent dans le domaine, c'est pas mon métier. Là où les modèles de langage, de text to speech et inversement, ou de diffusion, restent des logiciels du marché qu'on intègre dans un SI. Et là, c'est mon métier et j'aime bien ouvrir le capot pour comprendre un minimum comment ça marche
Pour ton dernier point, je déplore aussi ces effets de mode dans le public et le privé qui détournent l'attention que d'autres projets mériteraient d'avoir. On nous a vendu ces dernières années de la blockchain, du metavers, et j'en passe et des meilleurs, là où les entreprises n'en ont pas grand chose à faire. J'ai quand même observé que pour l'IA générative, le métier s'est montré plus moteur dans la recherche de cas d'usages car c'était plus concret pour eux que la techno à la mode du moment. C'est aussi une des rares technos "récente" (parce qu'elle est quand même vieille) pour qui on peut avoir des résultats visibles (bons et mauvais, souvent mauvais par méconnaissance et inexpérience) et des PoC parlants. Là où un commercial qui vendait de la blockchain et du NFT, c'était que de la projection nébuleuse.
Le
27/10/2024 à
12h
46
@SebGF J'avais compris qu'on n'avait pas le droit de remettre en cause vos artifices. J'en suis fort aise pour votre confort. Bon dimanche
Si c'est ce que tu as compris de ma position dans le sujet, dans ce cas tu ne l'as pas comprise.
Le
27/10/2024 à
12h
03
@SebGF Ce serait moins grave de faire de la publicité (ne pas parler de ce qui va de travers) que de parler de ce qui dysfonctionne au risque de mettre un frein à cette belle industrie qui peut bien déconner de temps en temps. Perso, j'espère que vous avez la conscience tranquille avec de telles œillères.
Ma conscience se porte très bien.
D'ordre général, elle vomit sur les raisonnements binaires "bien/mal", "vrai/faux", "blanc/noir".
Un mot important se trouvait dans mon message, saurez-vous le trouver ?
Le
26/10/2024 à
18h
05
C'est en voyant ce genre de réaction épidermique que je regrette de voir que Next biaise l'opinion de son lectorat avec une couverture aussi négative du sujet.
L'Inserm avait publié un long article plutôt intéressant en 2018, rafraîchi en début 2024 sur des cas d'usage de l'IA dans la santé, et équilibré en matière de recul sur le bullshit autour des technologies et ses risques à prendre en compte.
14043 commentaires
Produits illégaux, addiction : l’Europe ouvre une procédure formelle contre Temu
31/10/2024
Le 04/11/2024 à 11h 21
Parce que quand je regarde de nos jours, difficile de trouver un télé avec cette focale et une ouverture similaire sans taper dans les 4 chiffres. J'ai regardé chez Sigma et pas trouvé non plus.
J'ai un télé Nikkor 70-300mm en APS-C qui ouvre à f/4.5-5.6 et il était déjà à 600€. La version non stabilisée était moins chère, mais ça aurait été inutilisable (depuis je suis sur un Z5, le capteur est stabilisé contrairement au D5600 que j'utilisais). Mon objectif le plus lumineux est le 35mm à focale fixe de Nikkor (pas cher, choppé à 135€ pendant le COVID, il a bien grimpé, et excellent) qui ouvre à f/1.8.
Vient juste après le 24-70, celui du kit du Z5, en full frame donc, qui ouvre en f/4 constant. C'est mon chouchou en voyage, je l'adore.
Le 04/11/2024 à 08h 22
C'est dispo dans les meta données avec la licence
SearchGPT ouvre ses portes aux utilisateurs Plus et Team de ChatGPT
04/11/2024
Le 04/11/2024 à 09h 23
Ce qui est normal puisqu'on lui demandait de générer des liens à partir des simples "connaissances" du modèle. Donc rien d'étonnant.Ici, on parle d'un moteur de recherche. Le modèle est donc utilisé pour faire du RAG à la même manière que Bing Copilot le fait par exemple.
Pour les personnes intéressées, OpenWebUI propose cette feature avec un tuto qui permet de comprendre la mécanique derrière.
#Flock fait le mort ce week-end
02/11/2024
Le 04/11/2024 à 08h 15
Ce qui est certain, c'est qu'il ne s'agit pas d'un smartphone affichant le site Next. Le thème biafine par défaut aurait purifié les deux morts vivants par son éclatApple présente ses nouveaux MacBook Pro et sa puce M4 Max
30/10/2024
Le 02/11/2024 à 14h 27
Le 02/11/2024 à 13h 29
Désormais, il rentre dans mes critères de poids, performance, mobilité et prix. Raison pour laquelle je l'envisage comme potentiel remplaçant d'une machine qui a coûté le même prix en son temps.
Et encore, le Asus que j'utilise en laptop était à 1800€ en 2017 à sa sortie. Je l'ai acheté 1500 en 2018 et il a fini par descendre vers 1200 vers sa fin de commercialisation de ce que j'ai vu.
Le seul critère qui lui retire des points dans mon estimation, c'est le SSD 256GB qui fait léger. Cependant, dans la mesure où la machine actuelle ne stocke presque rien en dehors d'une synchro locale des dossiers kDrive adéquat (9GB de données, mais il y a du superflu), c'est une limitation qui ne devrait pas être handicapante.
Le SSD de mon actuel est un 512GB et mon
/home
en utilise 122. Sachant que j'avais testé d'installer Final Fantasy XIV pour le tester sous Linux, le dossier fait 77GB. L'autre gros cul, c'est le dossier de données de Whisper quand je l'avais testé lui aussi. Je ne pense donc pas avoir besoin de plus pour une machine à écrire.Le 02/11/2024 à 08h 41
Je n'ai pas trop compris le sens de ta réponse à mon message.
Le 01/11/2024 à 10h 39
Le Tuxedo est pareil, très léger et comme c'est un matériel opti pour du Linux, il tient ses 6, voire 8 heures sans sourciller. Sauf quand les 16 threads du Ryzen 7 carburent, évidemment
J'essayerai le clavier un de ces quatre sur un modèle d'expo. Dans tous les cas, c'est pas pour demain. Tant que le Asus tient la route (j'ai remplacé sa batterie et son SSD l'année dernière - première fois que je voyais une erreur SMART au démarrage d'un PC !), aucune raison de le décom.
(au pire du pire ça reste une machine performante, il rejoindra l'EPHAD informatique qui me sert à faire tourner des modèles d'IA pour mes geekage sur le sujet, même si sa 1050GTX est légère le i7 est très bon)
Le 01/11/2024 à 09h 38
Le 31/10/2024 à 18h 34
Deuxième point, y'a un Apple Store pas loin donc pas d'inquiétude là-dessus :)
Troisième point, oui faudrait que je trouve une excuse pour ninja celui d'un collègue et tester. Ou alors en magasin, un jour. Mais en photo, le clavier ressemble à celui de mon laptop Asus même si je sais que le layout Apple diffère un peu. La frappe est très agréable sur le Asus, là où sur mon Tuxedo le clavier est pas top, c'est le seul point qui m'a déçu sur cette machine.
Le 31/10/2024 à 16h 03
Je me tâte de plus en plus pour le jour où je devrais changer le portable Asus de 2018 qui me sert aujourd'hui de machine à écrire. Le clavier des MacBook semble pas mal (celui de l'Asus et très bien. J'ai beau adorer Tuxedo Computers, le clavier n'est pas top), les perfs ont l'air très bonnes sur le papier, et ils sont au même prix que ce vénérable laptop qui a pas mal de kilométrage (usage et géographique, c'est mon PC de voyage et ex PC pro).Le Asus tourne bien sous Linux, même si l'autonomie reste amputée (3/4 heures, là où sur son Windows 10 d'origine il tenait 8), mais il y a toujours quelques petits couacs qui parfois peuvent irriter.
#LIDD d’Halloween : baladez-vous dans le bestiaire plus ou moins effrayant du CNRS
01/11/2024
Le 01/11/2024 à 11h 21
La photo du blob m'a rappelé ce documentaire Arte. Impressionnant !Déploiement de la fibre : le Conseil d’État valide la sanction de 26 millions d’euros contre Orange
31/10/2024
Le 31/10/2024 à 19h 06
Je vois que @Flock a upgrade mon martifouette préféré en fibre optique !Mais on perd le plaisir des connecteurs RJ45 enfin !
Dénonçant un manque d’investissement de Google, un développeur forke Flutter
30/10/2024
Le 31/10/2024 à 18h 55
Au début Forgejo était un soft-fork (un rebrand avec quelques features en plus), mais ils sont depuis devenu un hard-fork.
Codeberg est depuis passé sur Forgejo aussi :)
Le 31/10/2024 à 15h 47
Par contre, MATE Desktop est un fork de GNOME 2 par exemple.
Le 31/10/2024 à 15h 47
Le 31/10/2024 à 15h 44
Automattic est à court d’employés
31/10/2024
Le 31/10/2024 à 15h 41
Le 31/10/2024 à 09h 40
La drogue c'est mal, m'voyez hein.Le Washington Post perd 250 000 abonnés après la décision de ne pas soutenir Kamala Harris
30/10/2024
Le 31/10/2024 à 13h 45
Il a utilisé WP ! Matt ! À l'attaque !Chez Google, plus d’un quart du nouveau code est généré par de l’IA
30/10/2024
Le 31/10/2024 à 13h 42
Le 30/10/2024 à 20h 20
Quant au point sur le terme "intelligence", comme je l'ai déjà exprimé plusieurs fois ici, je laisse ce débat aux gens qui ont du temps à perdre.
Le 30/10/2024 à 17h 29
Après ça, j'ai testé le mode Chat (je considérais Copilot simple comme une auto completion de luxe), et il produisait une structure basique pour le HTML / CSS qu'il m'a suffit ensuite de peaufiner.
Ou pour du scripting Python, quand je traite par exemple des appels d'API, ça initialise les lignes de request et d'analyse des réponses. Derrière y'a plus qu'à tuner en mettant en oeuvre ce que je veux vraiment.
Voilà ce que j'appelle des structures récurrentes, le gain ici est de laisser la machine produire du code dont la valeur ajoutée ne vaut pas le temps que le dev aurait passé dessus. Permettant de se concentrer sur d'autres.
Et dans mon expérimentation de ce même l'outil, j'ai volontairement initié un projet Javascript (et je suis pas dev, et je connais encore moins le JS) pour évaluer la capacité d'assistance de l'outil. Il kickstart le projet sans problème, pisse du code qui répond à la spec en veux-tu en voilà, propose même une trame d'ajouts de feature, magnifique.
Mais dès qu'on arrive à une étape où la compétence du dev est indispensable, l'outil est inutile. Ce fut une expérimentation personnelle intéressante et enrichissante que j'ai pu mettre en comparaison avec celle réalisée dans un contexte pro avec un panel varié de développeurs (technos ou expérience).
Je ne sais pas ce que Google entend dans son quart de code généré par IA (probablement un énième bullshit), mais si je me base sur ma propre expérience, le plus pertinent est de demander à la machine les tâches simples et répétitives (bref, en gros de faire le taff d'un ordinateur) et laisser l'expertise et la réflexion à l'humain.
Le 30/10/2024 à 11h 50
Les templates ça existe aussi pour du code, la plupart des SDK ou frameworks ont une fonction pour initialiser un projet avec une base fonctionnelle.
L'IA générative peut servir à produire des structures récurrentes.
Isabelle Collet : « On peut utiliser l’IA pour dépasser nos biais inconscients »
30/10/2024
Le 31/10/2024 à 11h 31
Cette citation m'a attiré et je n'ai pas été déçu à la lecture du passage. Le propos est excellent et mesuré, j'ai beaucoup apprécié cette partie qui fait écho à ma propre vision de la techno et de ses usages.[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA
28/10/2024
Le 31/10/2024 à 11h 22
Une copie presque à l'identique peut être condamnée pour contrefaçon. Le droit d'auteur n'a pas spécialement besoin d'être changé dans le cadre français. Cela reste in fine à l'appréciation d'un juge.
Le 30/10/2024 à 07h 34
Dans les faits, ça n'a pas changé grand chose et l'automatisation du piratage est même arrivée à un niveau tel qu'aller sur un tracker pour chopper un torrent donne l'impression de tailler un silex. On créé sa liste d'envie et l'outil part chercher tout seul le fichier selon les critères demandés, il importe dans la bibliothèque multimédia, renomme, tagge, et c'est du prêt à l'emploi.
Le 29/10/2024 à 14h 26
Vous en parliez il y a quelques temps car c'était encore en draft, mais ça y est, l'OSI a délivré sa première version de la définition l'IA open source.Sans surprise, elle intègre une obligation fournir la description des données d'entraînement, comment elles ont été obtenues, utilisées, labellisées, lister et indiquer comment se procurer celles issues d'un jeu public, même chose comment obtenir celles provenant d'un tiers.
En espérant que ça remette l'église au milieu du village sur le côté "open-mais-pas-trop" de nombreux modèles.
Le 28/10/2024 à 22h 54
Remarque, c'est déjà le cas avec le sujet épineux de la fan fiction où, en principe, on doit demander d'autorisation de l'auteur ou des ayants-droits puisque c'est couvert par les droits moraux. Je pense que c'est plutôt rare dans la réalité.
Même chose pour la parodie où en respectant les règles, on peut s'inspirer d'une oeuvre existante tout en créant une originale.
Le 28/10/2024 à 20h 08
Je trouvais l'argumentaire léger, mais tu y as répondu mieux que je ne l'aurais fait.Aussi longtemps qu'il n'y aura pas eu de décision de justice, il est difficile de dire si les lois actuelles protègent suffisamment les auteurs. La comparaison avec l'envolée du piratage me semble hors de propos puis qu'à cette époque, le cadre légal manquait justement.
Infostealers : Redline et META mis hors d’état de nuire
31/10/2024
Le 31/10/2024 à 08h 57
Ça y est Meta Inc. à été fermée ???GitHub : Copilot s’ouvre à d’autres modèles et à Xcode, Spark écrit seul des applications
30/10/2024
Le 30/10/2024 à 18h 14
Soit la suite de l'année dernièreSynthID, le système de Google pour marquer au fer rouge les contenus générés par des IA
30/10/2024
Le 30/10/2024 à 17h 09
Autant pour de l'image je me fais moins d'inquiétude, car le watermark transparent est déjà utilisé dans de nombreux procédés (il l'est au ciné par exemple où la projection diffuse un filigrane invisible).Autant pour le texte, comme je l'avais évoqué il y a peu en le qualifiant de chasse aux sorcières 3.0, le procédé me fait peur car il risque de générer du faux positif et de l'insécurité pour les auteurs. Surtout avec les outils de correction / reformulation qui utilisent eux aussi du LLM.
Exemple, j'ai utilisé l'assistant reformulation d'Antidote pour ma dernière phrase.
Elle a été remaniée par un système basé sur du ML qui fait partie du panel d'outils d'une solution de correction de texte avancée très en vogue dans le domaine de l'écriture. Mais, sauf erreur de ma part, je suis pourtant bien la personne à l'origine du propos. Si le détecteur dit "généré par IA", que se passe-t-il ? Remise en doute que tout mon message proviendrait d'un générateur de texte ?
Et si un texte entièrement tapé par mes petits doigts sur mon clavier pendant des mois (oui, c'est long d'écrire un roman, surtout quand on en est à la troisième réécriture) est détecté comme généré par IA ? Si demain Amazon KDP refuse ma publication sous prétexte que j'ai du "texte généré par IA" sur un roman alors que c'est faux, que se passe-t-il ?
(aujourd'hui, on peut cocher une case disant qu'on inclus du contenu généré par IA sur KDP. Texte, image et trad. Au début, il ne faisait pas le distingo, c'était débile. Ça n'engage à rien dans les CGU à ce jour, mais la géométrie variable de ces documents n'est plus à démontrer)
Vais-je devoir prouver mon innocence parce que Saint Outil a forcément raison ? (quel beau concept)
On retomberait dans le travers actuel des gens qui boivent les paroles d'un LLM ! Un comble.
Les faux positifs font partie des indicateurs qu'on travaille dans la sécurité IT pour éviter qu'une solution ne devienne contre productive à gueuler pour rien. L'exemple le plus typique, c'est la détection de secrets en dur dans du code ou des manifestes de déploiement (du style une valeur par défaut car clé obligatoire) qui en génère toujours et pour laquelle il faut définir des critères d'exclusion ou d'analyse.
L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta
29/10/2024
Le 30/10/2024 à 07h 39
Effectivement, on est pas à l'abri d'un détournement pour son propre bénéfice.Cela dit, ce cadre permet de poser une définition qui a moyen d'avoir un certain impact. Je rêve car c'est évidemment bien plus complexe, mais si cela permet demain de pouvoir soi-même entraîner un équivalent de Llama avec le même jeu de données, ça pourrait rendre le produit moins boite noire. Et permettre des alternatives plus libres que la version binaire fournie.
Un peu comme VS Codium vs VS Code.
Le 29/10/2024 à 16h 40
Comme je disais sur l'autre article, cette définition est une bonne chose pour arrêter cette mascarade de ouvert oui mais pas trop. L'open weight c'est un peu comme des binaires applicatifs diffusés librement. C'est bien beau, mais on sait pas comment ça à été produit.Un peu de bullshit en moins ne fera pas de mal au domaine.
#Flock : c’est show bouillant pour Free
29/10/2024
Le 29/10/2024 à 14h 16
Bonne idée de proposer une vignette en semaine relative à l'actualitéInstagram fait varier la qualité des vidéos en fonction de leurs performances
28/10/2024
Le 29/10/2024 à 07h 33
Mais dans tous les cas, ils vont forcément chercher à optimiser les coûts et usages des infras. Donc en soi, sur le plan économique, la mesure n'est pas déconnante. L'idée se rapproche du cache SSD où les documents les plus fréquemment accédés seront mis dessus pour accélérer leur disponibilité.
Sur le plan utilisateur, je peux comprendre que ça engendre de la frustration d'être dégradé ainsi comme en témoigne le commentaire #3.
Le 28/10/2024 à 20h 28
J'aurais plutôt pensé le stockage. Avoir plusieurs niveau de qualité ça fini par prendre de la place. Après j'ignore la durée moyenne des vidéos sur Instagram. C'est plus efficient de les produire quand on en a vraiment besoin que d'avoir la version 240, 320, 480, 720, 1080, 2160, etc., de stockées pour rien.Je ne pense pas non plus qu'ils fassent du transcodage en direct pour adapter le flux au client. Ça réduit le stockage, mais ça augmente la charge CPU.
Bluesky lève 15 millions de dollars et prévoit des abonnements
28/10/2024
Le 28/10/2024 à 23h 03
Le protocole de Bluesky est open source (license MIT + Apache 2.0). Quand aux applications du site principal (web, android, iOS), elles sont sous licence MIT.Arnaque au faux conseiller bancaire : pas de « négligence grave » de la victime, tranche la justice
24/10/2024
Le 28/10/2024 à 13h 42
Il manque une petite passphrase ou éventuellement l'envoi d'un code.
Raisonnement des IA génératives : les benchmarks nous désinforment
25/10/2024
Le 28/10/2024 à 09h 05
Le 28/10/2024 à 08h 33
Le 27/10/2024 à 21h 29
L'IA sert à détecter des cancers.
Les promoteurs de l'IA qui utilisent les mêmes méthodes que les industriels du tabac.
Le tabac qui donne le cancer.
Mais bien sûr ! l'IA a été créé par les industriels du tabac pour permettre de dépister les futurs cancers et ainsi vendre du service autour ! #noussachons
Orange et HPE construiront le supercalculateur classifié dédié à l’IA de défense
25/10/2024
Le 28/10/2024 à 08h 29
Mais derrière, il faut déjà commencer à donner un bon system prompt au modèle, qu'est-ce qu'il doit faire et ne pas faire.
Exemple : tu es un assistant pour un accueillir les clients d'une assurance, tu ne parles pas des autres compagnies. Dans le cas de celui sur lequel j'avais bossé, le system prompt indiquait que le bot ne traitait pas d'autres questions que celles relatives aux incidents à analyser (ex : demande lui où acheter une playstation, il refusera de répondre).
Ensuite, l'efficacité du modèle à bien le prendre en compte est importante. Sans oublier les paramètres de température, les top je-sais-plus-quelle-lettre, pour le rendre plus ou moins déterministe ou créatif, etc.
Un article que je recommande pour comprendre comment fonctionne GPT (et certainement les autres modèles de langage) d'une façon accessible et imagée : How GPT works: A Metaphoric Explanation of Key, Value, Query in Attention, using a Tale of Potion.
Tiens, ce week end j'ai voulu essayer de me faire un petit assistant de relecture pour mes écrits (il fait un résumé, relève les fautes de français, les tournures lourdes, et propose une critique). En raison de la limite technique, j'avais dit au modèle "attend que l'auteur te dise quand procéder". J'envoyais les morceaux de texte petit à petit parce que le prompt allait être trop gros.
Sur Llama 3, il répondait à chaque entrée de texte : "OK, dites moi quand je peux y aller". Puis je lui donnai le go et il me fit son rapport. La qualité du rapport était correcte mais évasive sur la liste des erreurs et tournure (mais mon system prompt devait jouer).
Sur Mixtral (plus vieux), il fut incapable de s'arrêter et balança direct l'analyse sans attendre que j'ai mis tout le texte, un véritable ado en pleine puberté. Le rapport était à chier, il inventait des fautes, ne comprenait pas les tirets cadratins, et parfois il confondait les guillemets anglais et français.
J'ai pas pu aller trop loin car la machine qui faisait tourner le modèle était limitée et les gros prompts plantaient le bazar. J'ai essayé le même exercice sur les modèles hébergés par Infomaniak, mais ils ont aussi des limitations techniques je pense, car au bout de 3 gros prompts plus de réponse.
Un article sur Next avait parlé d'un POC en Australie qui n'avait pas abouti (j'ai pas réussi à le retrouver, le moteur de recherche est toujours perfectible). Dans ma lecture du document, j'y voyais que le temps accordé à l'étude fut très réduit et qu'ils ont pas eu la possibilité de raffiner le paramétrage et le system prompt. Le résultat fut inefficace, et pas surprenant en raison du délai accordé.
Bref, s'pas magique contrairement à ce que les vendeurs font croire.
J'avais lu ton retour d'expérience sur la traduction automatisée et j'avais trouvé le point de vue très intéressant :)
Merci pour l'article sur la blockchain, je garde ça de côté.
Le 27/10/2024 à 21h 15
Pour la petite anecdote, j'ai travaillé sur ce dernier cas et j'avais considéré le besoin métier comme overkill par rapport à la finalité. Le support voulait un chat bot pour que les exploitants N1 (profil = 1er type choppé dans la rue avec comme seul critère savoir parler anglais) obtiennent des infos sur des procédures type pilotage. J'ai pas trouvé celui-ci très pertinent et j'avais plutôt préconisé d'utiliser la BDD de l'ITSM pour exploiter les dix ans d'incidents et problèmes qu'elle contenait comme support de connaissance. Ca ne c'est pas fait, hélas.
Néanmoins, cette implémentation, et je l'ai vue plusieurs fois, c'est du RAG. Le modèle sert avant tout à traiter de vraies données en direct (le tout stocké dans des bases vectorielles, plus adaptées pour le ML) et va rechercher dans des vrais docs. Le risque de biais ou d'erreur est moins élevé car on utilise pas les "connaissances" du modèle (en dehors des cas d'usage pour exploiter les capacités d'analyse sémantique des LLM, reposer uniquement là-dessus est une connerie, je l'ai déjà répété plusieurs fois ici d'ailleurs) mais des données réelles. Par contre il réside toujours un risque de déformation du contenu, cela dépend avant tout du paramétrage (trop déterministe ou trop aléatoire). C'est d'ailleurs pour ça que la traduction par un LLM est sujette à précaution. Le LLM ne traduit pas, il réécrit le texte (de mémoire, il est conseillé d'utiliser des paramètres plus déterministes pour ça). Ça dépend aussi de l'efficacité du modèle. Dans mes bricolages perso, j'ai vu de sacrés écarts entre Mixtral et Llama par exemple (en la défaveur du premier, mais celui-ci commence à être vieillot et je pense que Large se fera moins avoir).
Dans le cas du RAG, le modèle récupère des informations et, surtout, cite les documents sur lesquels il s'est appuyé pour produire son résultat. Et si celui-ci a fait l'objet d'un entraînement spécialisé sur les données de la défense, le risque qu'il se plante est réduit. Un peu comme un modèle spécialisé dans le juridique entraîné sur les textes de loi, les décisions de justice, etc. De manière hyper vulgarisée, un modèle de langage il apprend à lire quand on l'entraîne. Plus on l'entraîne sur une masse de données, plus il sera capable de comprendre la sémantique. Et plus on l'entraîne sur des données spécialisées (fine tuning), plus il sera pertinent dessus.
De mon côté, dans les expériences pro que j'ai pu avoir avec les produits d'IA générative, j'ai pu tester l'intégration de GitHub Copilot avec des devs (les retours furent intéressants et même assez prévisibles, les juniors enthousiastes, les seniors trouvant vite les limites du produit), ou encore la conversion de code entre deux versions majeures d'un framework spécifique qui avait permis de déblayer du 70/30.
Du côté de l'algorithmie pure et dure, je suis incompétent dans le domaine, c'est pas mon métier. Là où les modèles de langage, de text to speech et inversement, ou de diffusion, restent des logiciels du marché qu'on intègre dans un SI. Et là, c'est mon métier et j'aime bien ouvrir le capot pour comprendre un minimum comment ça marche
Pour ton dernier point, je déplore aussi ces effets de mode dans le public et le privé qui détournent l'attention que d'autres projets mériteraient d'avoir. On nous a vendu ces dernières années de la blockchain, du metavers, et j'en passe et des meilleurs, là où les entreprises n'en ont pas grand chose à faire. J'ai quand même observé que pour l'IA générative, le métier s'est montré plus moteur dans la recherche de cas d'usages car c'était plus concret pour eux que la techno à la mode du moment. C'est aussi une des rares technos "récente" (parce qu'elle est quand même vieille) pour qui on peut avoir des résultats visibles (bons et mauvais, souvent mauvais par méconnaissance et inexpérience) et des PoC parlants. Là où un commercial qui vendait de la blockchain et du NFT, c'était que de la projection nébuleuse.
Le 27/10/2024 à 12h 46
Le 27/10/2024 à 12h 03
D'ordre général, elle vomit sur les raisonnements binaires "bien/mal", "vrai/faux", "blanc/noir".
Un mot important se trouvait dans mon message, saurez-vous le trouver ?
Le 26/10/2024 à 18h 05
C'est en voyant ce genre de réaction épidermique que je regrette de voir que Next biaise l'opinion de son lectorat avec une couverture aussi négative du sujet.L'IA est aussi utilisée pour l'aide au dépistage des cancers du sein, possibilité de faire un premier dépistage de cancer de la peau en pharmacie, aide au diagnostique de l'épilepsie pour prendre des exemples de mise en application positives des technologies autour du deep learning.
L'Inserm avait publié un long article plutôt intéressant en 2018, rafraîchi en début 2024 sur des cas d'usage de l'IA dans la santé, et équilibré en matière de recul sur le bullshit autour des technologies et ses risques à prendre en compte.
Free confirme une fuite de données personnelles de ses clients
26/10/2024
Le 27/10/2024 à 20h 22
Le journal Libération attaqué via un rançongiciel
25/10/2024
Le 27/10/2024 à 11h 59
Tiens, ça me rappelle ceci.Cela dit, quand ça arrive sur un profil admin d'une souscription cloud, c'est plus drôle.