En relation avec la référence HAL 9000, je ne saurais que trop conseiller le roman de 2001 : l'Odyssée de l'espace. Lu récemment, il m'a clairement réconcilié avec le film et apporte des éléments et réflexions intéressantes relatives aux raisons pour lesquelles HAL a déraillé dans l'histoire.
BS... BullShit ? Étrange nom pour un réseau social (oui, en vrai, ne jamais utiliser d'acronymes sans préciser au moins une fois à quoi ça correspond ;))
Surtout que BS est anglais est vraiment utilisé dans ce sens...
Ton discours ne tient pas pour une structure comme OBS avec un client qui est l'État.
En plus, ils ont contacté la société qui développe le soft pour une licence commerciale et ont eu plusieurs propositions de sa part. Ils étaient donc au courant du problème lié à la licence dès le début et l'ont très mal géré. Il est possible que la facture ait été jugée trop lourde ou ne rentrait pas dans le budget de l'État.
Les contrats post-it que j'ai pu voir, c'était pas avec le freelance du coin justement, mais plutôt avec de la SSII cotée en bourse. Donc honnêtement, je ne suis pas surpris de tels manquements côté OBS.
Il est possible que la facture ait été jugée trop lourde ou ne rentrait pas dans le budget de l'État.
On en revient à ma première phrase : les coûts, le temps qui ne concordent pas, les exigences non fonctionnelles sautent et tant pis.
Le
05/03/2024 à
18h
17
C'est pour cela que j'ai parlé de piège dans mon premier commentaire. Mais ce piège est grossier et connu. Qu'OBS tombe dedans est pour moi une faute professionnelle. À croire qu'ils n'ont pas de service propriété intellectuelle ni juridique chez eux pour expliquer aux dev quels sont les critères d'utilisation des logiciels libres en fonction de leur licence.
la FSF explique bien que de leur point de vue, il vaut mieux utiliser la licence GPL pour les bibliothèques quand elles ont un avantage concurrentiel afin d'imposer la licence au logiciel utilisateur. Par contre, si comme pour la libc, il existe d'autres lib et pas d'avantage concurrentiel, elle conseille la LGPL.
Après, ça peut ne pas être un piège mais une volonté d'offrir la lib pour les logiciels libres, mais de faire payer via une licence commerciale pour l'utilisation dans un logiciel propriétaire. Et pour ce cas, la possibilité d'avoir une licence commerciale est bien indiquée sur la page du projet sur leur site. Le lien dans ce cas est mort, mais il ne l'était peut-être pas au moment où OBS a fait ce choix et on peut facilement trouver la bonne page sur leur site.
Mais ce piège est grossier et connu. Qu'OBS tombe dedans est pour moi une faute professionnelle. À croire qu'ils n'ont pas de service propriété intellectuelle ni juridique chez eux pour expliquer aux dev quels sont les critères d'utilisation des logiciels libres en fonction de leur licence.
Bah la raison habituelle : les deadlines, les coûts, le temps, "je me suis engagé que tu pouvais livrer hier". Avec derrière une armée de stagiaires experts parce que le client est radin.
Les exigences non fonctionnelles, ça fini toujours en dernier dans les projets de développement. Perso c'est la réalité du terrain que j'observe dans les prestations issues de centres de développement. Et pour avoir vu la gueule de certains contrats de dev, c'était limite un post-it, à se demander si un service juridique l'avait relu (genre : zéro engagements, zéro critères de pénalités, zéro critères d'évaluation, rien, que dalle).
C'est d'ailleurs pour ça que les solutions d'analyse de supply chain logicielle ont également une fonction d'évaluation de risque légal en fonction des licenses. Cela va même assez loin, avec notamment la réputation du développeur (cas des logiciels sabotés par protestation politique). Encore faut-il aussi utiliser ces produits puisque, là aussi, c'est encore une fois de l'exigence non fonctionnelle qui passe à la trappe.
Perso on peut me dire ce qu'on veut, quand on joue à l'échelle d'un marché de 500 millions de consommateurs plutôt que celle d'un pays seul, ça change tout de suite le rapport de force. L'UE, c'est lourd, lent, et complexe, mais on a quand même du résultat.
Par ex. le modèle d'event-loop de NodeJS basé sur libuv permet de meilleurs perfs avec un serveur web NodeJS que Apache.
Toujours regarder en détail les benchmarks, sinon, on y voit ce que l'on veut ;)
En l'occurence, je vois 2 gros points noirs qui viennent complètement fausser la comparaison : - Apache + PHP, et non Apache + FastCGI/PHP (un context PHP est recréé à chaque requête, forcément, ça fait mal) - A une époque pas si lointaine, les serveur nodeJS n'étaient jamais en front, toujours derrière un reverse proxy comme... Apache (les choses ont peut être changées depuis, d'où l'usage du passé). Quand on commençait à vouloir faire de la mise en cache, de la compression gzip à la volée ou même tout simplement du SSL/TLS, nodeJS était nul, sans compter sur l'explosion de la mémoire nécessaire.
- A une époque pas si lointaine, les serveur nodeJS n'étaient jamais en front, toujours derrière un reverse proxy (...)
Surtout que maintenant on met du WAF devant les applications.
Après, ma remarque trollesque sur NodeJS (mais les explications données ensuite étaient très intéressantes, merci aux intervenants) venait surtout du point de vue de quelqu'un qui ne comprend pas pourquoi il faut démarrer un serveur web qui exécute le moteur Javascript de Chromium pour faire un éditeur de texte sur son PC.
C'est une caricature, mais à un moment, je me dis qu'on a foiré une étape en chemin. Sans parler de la surface d'attaque qui s'élargit forcément car on empile les runtimes et les dépendances.
Certes, ça permet aussi de faire des applications extrêmement portables, VSCode en version Web c'est très pratique (GitHub Codespace reposant là dessus) et Diagram.net est un formidable outil. Mais y'a toujours un truc qui me gêne avec cette techno et la multitude de produits désormais basés dessus. Un peu comme les appImage qui pullulent sous Linux pour compenser la multiplicité des distribs en préférant ramener des bulldozers de 45 tonnes pour le moindre logiciel avec une régression monumentale en terme de gestion de packages (en gros, aucune).
Le
04/03/2024 à
08h
34
« La Maison-Blanche exhorte les développeurs à abandonner C et C++ », titre Le Monde Informatique.
Moi qui croyait qu'on ne faisait plus que des logiciels inefficients en NodeJS réinventant la roue et empilant les surcouches inutiles pour des fonctions basiques.
Dans son rapport de 19 pages, l'ONCD cite le C et le C++ comme deux exemples de langages présentant des vulnérabilités en matière de sécurité de la mémoire, et qualifie Rust comme sûr.
Moi ça me rassure pas, car lorsqu'on qualifie un truc comme "sûr", on a tendance à relâcher son attention. Et donc à la fin, à faire de la merde quand même en reposant sur la supposée sûreté by design.
Je ne suis pas développeur et suis incapable de dire si tout ceci est vrai ou pas pour Rust. Peut-être que oui et tant mieux. Mais j'aime pas les arguments du style "utilisez Machin car c'est plus sûr", ça me rappelle trop les "utilisez Linux c'est plus sécurisé" scandé tel un dogme alors que c'est au mieux de la superstition. La sécurité magique by design, à ma connaissance, ça n'existe pas. Ca demande du travail dans tous les cas. Si le produit facilite ce travail et évite de faire des erreurs basiques, tant mieux. Mais perso je considère qu'il ne faut pas non plus trop s'endormir sur ces arguments.
Hasard du calendrier, Stéphane Marty de la chaîne Youtube Deus Ex Scilicium a brièvement parlé des FPGA durant son récent démontage de calculateurs de cryptomonnaie (à partir de 15:45). Il explique rapidement leur fonctionnement ainsi que les usages.
Perso je connaissais pas du tout ces types de composants (il faut dire que mon niveau en électronique est proche du néant).
Ca c'était le discours d'un de mes profs d'éco-droit quand il parlait des retraites : il faut tuer les vieux à la naissance.
Le
02/03/2024 à
17h
36
Se parler oui, mais une vrai discussion, où on est ouvert à remettre en cause ses aprioris. Pas 128 caractères que quasiment uniquement des personnes déjà d'accord vont lire et on passe à autre chose. C'est caricatural mais c'est l'idée.
Pour le coup je pense que c'est une des choses qui a fait le plus mal à la qualité des échanges. Ces débats à coups de messages limités en taille ont appauvrit l'argumentaire, résultant d'expressions courtes et radicales.
Le
02/03/2024 à
15h
10
La TV réalité a illustré la façon dont la société se met désormais en scène. Loft Story 1, c'était globalement des gens normaux qui ont conquis les médias, alors que la TV réalité d'aujourd'hui, c'est plutôt des médias qui investissent la société.
En fait non, la télé réalité a toujours été scénarisée et les "candidats" issus d'un casting pour avoir les stéréotypes permettant de générer les mises en situation souhaitées.
Le
02/03/2024 à
15h
08
Ou ne pas avoir de chien car un animal est une responsabilité. Pas un jouet.
Pareil pour les enfants.
A dire vrai, je l'avais mis dans la première version de mon message.
Mais je me suis souvenu aussi que contrairement à un animal domestique (même si c'est aussi possible dans leur cas), un enfant peut ne pas avoir été désiré. Une responsabilité imposée versus une responsabilité choisie en résumé.
Le
02/03/2024 à
14h
12
Et si on se parlait ?
J'aurais tendance à dire que, même si c'est un effet de loupe car heureusement encore minoritaire, c'est une tendance. Prenez un contexte professionnel. Quand il y a un désaccord entre des personnes, on peut en discuter et essayer de trouver un terrain d'entente. Et parfois même demander le concours de tiers pour trancher (manager ou même simple collègue). D'autres ne diront rien et 10 minutes plus tard vous prendrez un scud du chef qui n'aura eu qu'une version orientée et incomplète du désaccord.
La stratégie du coup de couteau dans le dos. Je l'ai vécue plus d'une fois.
Au point où j'ai été obligé de m'assurer à chaque fois d'avoir assez de matière pour faire du contradictoire et me défendre.
Absurde.
Happy slapping, opportunisme morbide
Vieille histoire aussi, notre espèce a toujours eu un côté voyeur, ou encore la fameuse schadenfreude qui nous fait ressentir du plaisir quand autrui a des ennuis. Même si là aussi, je pense que tout ceci est avant tout un effet de loupe et montre des comportements certes peu acceptables, mais aussi minoritaires. J'espère. En tous cas je n'ai pas le souvenir d'avoir vu ça autre que les fameux CQR sur la route quand il y a un truc à regarder (accident, voiture arrêtée, etc).
Des (faux) dramas en direct pour faire grimper les compteurs
De mon point de vue, les dramas, ou les "affaires" pour parler de la politique sont une stratégie de détournement de l'attention. De la diversion. Et comme ça titille nos plus primaires instincts, on tombe dedans tête la première.
---
Personnellement, devant le "buzz", je suis généralement indifférent. Déjà, je ne fréquente pas les médias sociaux en dehors de Fosstodon. Et là dessus, j'ai jamais trop vu de shitstorm ou de drama, pas assez de monde pour ça même avec la fédération. De plus, le système n'étant pas conçu pour mettre en avant des contenus selon ce qui arrange la plateforme et ses annonceurs, mais travaillant de manière chronologique, un "buzz" est rapidement éteint puisqu'il est enfoui. C'est pas avec les 3 pauvres trending hashtags affichés sur le homepage qu'on fait du "buzz". Donc je pense que le système ne permet pas les shitstorm et le "buzz" by design. Pas d'huile à jeter sur le feu.
En fait, quand j'écoute les rubriques "vrais ou faux" de France Info, j'aurais tendance à dire que je tombe des nues quand ils parlent de détournements, fausses informations, ou encore "phrases chocs" montées en mayonnaise issues des médias sociaux. Je veux dire, rien qu'entendre le propos fait hurler mon bullshit-o-meter en me disant que c'est trop gros. C'est comme si le Gorafi était considéré comme source d'information, les éléments sont tout aussi gros et absurdes. Mais comma ça fait appel à l'émotion, ça marche direct. Et comme les médias sociaux tournent à l'émotion et à la réaction basique, ça marche encore mieux.
Après, pour moi, une chose qui contribue aussi beaucoup aux "buzz", c'est l'information tronquée pour en générer. Le mensonge par omission est devenu tellement banal en oubliant de citer le petit détail qui rendrait le fait moins percutant. Ou encore information traitée sous le prisme d'un seul sens. L'information est généralement contradictoire puisque l'histoire qu'elle raconte a forcément des protagonistes et des antagonistes. Dans un mouvement social, tout le monde défend son bout de gras et ses intérêts. Pourtant n'aborder cette grève que sous le regard des grévistes, c'est biaiser les faits. Et ça, on manque cruellement de médias qui sont capables de traiter un sujet sur des aspects multiples et donner la paroles à différentes parties prenantes. C'est d'ailleurs un reproche que j'ai déjà fait à Next quant à sa ligne éditoriale : trop unidirectionnelle, un sujet n'est que très rarement traité sous différents prismes. Et le souci, c'est que lorsqu'on a qu'une parole à écouter, on tombe dans une dérive : le comportement sectaire. Toute opinion qui ne va pas dans le même sens devient une agression. Entraînant les faux dramas.
Après, la boulimie d'information fait qu'on arrive à une telle saturation que, pour moi, on ne sait plus réagir qu'à l'émotion. D'un certain point de vue, ce ne sont là que des comportements infantiles. Comme taper son ordinateur quand il plante.
Le
02/03/2024 à
10h
56
En attendant y a des jeunes enfants qui meurent chaque année à cause de morsure de chien.
OpenAI offre un accès via des providers tiers en SSO; providers tiers qui ont l'expérience de la gestion des identités, ce que chaque entreprise qui développe une service n'a pas forcément
Pourquoi ne pas passer par cette solution ?
Les providers tiers ne sont que Microsoft, Google et Apple. Je n'ai pas vu d'autres intégration possible pour un IDP tiers dans les documentations en dehors de l'offre Chat GPT Enterprise qui parle de SAML SSO.
Dans le cas où l'on utilise aucun de ces trois providers, ça réduit drastiquement les options. Et je ne considère pas que cela soit un argument recevable pour avoir une authentification insuffisamment robuste sur sa plateforme.
Mais bon, ça arrivera. Il a fallu que GitHub se fasse poutrer plus d'une fois pour qu'ils renforcent la sécu. Donc il y aura bien une prise de conscience à un moment. Ou un injonction à faire.
Le
04/03/2024 à
08h
25
identifiants et mots de passe des utilisateurs des services d'OpenAI, y compris ChatGPT
En même temps, c'est le même.
Néanmoins, j'ai toujours considéré OpenAI comme extrêmement mauvais en matière de sécurité. Raison pour laquelle je ne recommencerai jamais son offre Enterprise. Les fuites ont été légion, et pourtant, toujours pas de MFA sur le compte. La feature avait été désactivée pour je ne sais quel raison et, à ma connaissance, toujours pas disponible.
Même si le MFA n'est pas une protection absolue - puisque ça n'existe pas - de nos jours c'est un minimum.
La plainte avait été analysée par The Verge et elle reposerait sur un contrat qui n'existe pas. Bien que cet échange de mails, l'une des preuves avancées par Musk, pourrait être considéré comme un accord entre deux parties aux USA.
A voir ce que ça donnera. Mais je suis plus intéressé par le résultat des études des autorités de la concurrence sur l'accord OpenAI/Microsoft que les énièmes élucubrations de ce personnage sans intérêt à mes yeux.
Peu importe la forme, le business repose entièrement sur l'accès aux données d'entraînement, et l'utilisation des données est _massive_. Ça ne semble pas du tout correspondre au cas du fair use. On n'est pas du tout dans les cas d'enseignement, de critique, de citation courte, etc.
le business repose entièrement sur l'accès aux données d'entraînement, et l'utilisation des données est _massive_.
Non justement, c'est même le plus gros reproche qu'on peut faire aux entreprises de l'IA : les données d'entraînement ne sont PAS divulguées ni officiellement connues ! Contrairement à des dataset publics tels que LAION (même si 5B est actuellement retiré pour problèmes de légalité dans le contenu), celui utilisé par OpenAI est privé.
On ne peut donc pas dire qu'ils font du business sur l'accès aux données d'entraînement, cela n'a aucun sens car ça signifierait qu'ils commercialiseraient le dataset, pas le modèle.
Par contre le terme utilisation, voire même exploitation est correct pour indiquer l'usage fait des données d'entraînement. Elles servent à produire un modèle statistique (les poids) dont l'accès et l'usage est commercialisé derrière.
Personnellement j'attend vraiment de voir ce que donnera la décision car elle pourrait potentiellement faire très mal aux entreprises de la tech aux USA (vu que la jurisprudence s'appliquera là bas). A voir la portée qu'elle aura.
Le
02/03/2024 à
15h
05
Le fair use quand tout le business de la boîte repose sur l'entraînement d'une IA, donc sur la qualité des données d'entraînement ? Ça me semble un peu tiré par les cheveux. Ce que vend OpenAI, ce sont les données d'entraînement sous une forme digérée.
Ce que vend OpenAI, ce sont les données d'entraînement sous une forme digérée.
Non, ils vendent l'accès à des API de modèles d'IA générative. Les données d'entraînement, c'est ce qui a servi à produire ces modèles. Ces données sont perdues une fois le modèle entraîné (la régurgitation en l'état est un défaut appelé "mémorisation"). Ce que tu appelles la "forme digérée", ce sont les poids, un gros fichier binaire chargé par le programme pour calculer les probabilités de résultat. OpenAI ne fourni par les poids à ma connaissance en dehors de leurs rares modèles open-source mais juste des interfaces pour les exploiter. Je ne me souviens pas d'avoir vu si les modèles actuels d'OpenAI sont disponibles on-premise ou non, à ma connaissance ce n'est que du managé via leur offre en propre ou celle d'Azure.
Concernant le fair use, on verra ce que le tribunal prononcera.
Le
01/03/2024 à
18h
29
Pas si ça tombe dans le cas d'usage du fair use derrière lequel OpenAI se retranche pour sa défense.
Le
29/02/2024 à
18h
10
Le "bug" en question serait, si j'ai bien compris, de l'exploitation de faille en soumettant des prompts très orientés incluant des morceaux de texte attendus. Une façon de biaiser le moteur statistique derrière pour orienter ses calculs de probabilité et reproduire au plus fidèle le contenu d'articles du New York Times. Cela rappelle la faille qui permettait de faire cracher des données d'entraînement en répétant plusieurs fois le même mot dans un prompt.
Egalement, la démonstration d'OpenAI indique que seuls de cours extraits (une centaine de mots) ont été produits pour des articles de plus de 16 000.
Autre élément intéressant qui a été mis de côté, toujours de ma compréhension à la lecture du rapport d'audience, les griefs indiquant que ChatGPT imitait le style journalistique du New York Times. Il a été rappelé qu'aux USA, il n'est pas possible de copyright un style artistique, ce n'est pas suffisamment discriminant (ex : copyrighter l’impressionnisme).
Pour le coup, étant un vieux con non utilisateur de KDE qui l'a connu il y a vingt ans, j'apprécie cette dénomination. "Plasma" ne m'aurait pas spécialement parlé, par contre "KDE Plasma" oui là j'aurais fait le rapprochement.
75 modèles d’IA et d’IA générative populaires, tels que Whisper, ControlNet, Stable Diffusion et Baichuan 7B
Whisper ? Une IA Générative ?
Whisper est un modèle d'ASR, pour automatic speech recognition, il n'est pas une IA générative car il ne produit pas de contenu basé sur une entrée en puisant dans un modèle pré-entraîné. Si c'est le fait qu'il soit basé sur Transformer qui en ferait une IA générative, dans ce cas c'est plus qu'un raccourci mais une coupure franche. Transformer est une architecture de deep learning proposant un mécanisme d'attention, rien de plus.
Leurs avocats déclarent que « les entreprises de médias concernées ont subi des pertes dues à la moindre compétitivité du marché », cette dernière étant « le résultat direct de l’inconduite de Google ».
A la seule lecture de cette phrase, je n'ai pas compris quel était l'enjeu de la plainte. La raison de ces pertes.
Puis, en regardant la source, j'ai fini par comprendre que c'était une plainte pour abus de position dominante en pointant du doigt l'imprévisibilité des tarifs au bon vouloir de la plateforme avec des coûts d'accès élevés pour des revenus moindres.
Ce dernier existait depuis au moins 2014 et visait le développement d’un véhicule électrique.
En même temps il aurait fallu refaire toutes les routes du monde car les iWheels n'étaient compatibles qu'avec les iRoads. Et refaire tout le parc de bornes de recharge pour prendre en compte les nouvelles iPlugs.
Et désormais l'IA est aussi un vecteur d'attaque. Après les packages malicieux inspirés des hallucinations des modèles, les attaques par supply chain.
Le
29/02/2024 à
13h
40
"De mon expérience d'utilisateur de GPT (donc pas que ChatGPT) : un texte généré par GPT, ça peut se reconnaître facilement quand c'est fait avec des prompts basiques." Je doute que la majorité des personnes aient ta compétence et ton expérience et soient capables de s'en rendre compte. Sinon, +1 pour ton analyse.
D'où le fait qu'un retour d'expérience, ça se partage :)
Comme à l'époque où FranceInfo avait proposé un article pour reconnaître les images générées par IA avec les défauts connus de l'époque. Critères qui sont un peu moins valables de nos jours en raison des améliorations que les générateurs ont depuis. Mais y'a toujours des détails qui trahissent.
Le
29/02/2024 à
07h
37
Attention à ne pas tirer de conclusions hâtives en regardant ce que peut faire un outil généraliste d'IA générative mal utilisé sur la qualité de ce que peut produire un outil spécialisé entraîné sur cette tâche comme celui de Google (ou d'un autre) pour générer des articles d'information à partir de données en entrée qui elles sont vraies.
Je pense que Mathilde écrit ça en ayant en tête ce qu’est fondamentalement une IA actuelle : un "LLM", donc un modèle probabiliste, pas une capacité de compréhension véritable (au sens humain de la chose).
Sans m’étendre sur le sujet, et sans vouloir (plus ? ) prétendre ce que veux dire Mathilde, je laisse juste un article (de Développez.com) sur le sujet des (actuelles) IAs / LLMs qui remet essai de rappeler comment le tout fonctionne, pour éviter que les gens ne succombent au charme du "marketing IA"
Je pense que Mathilde écrit ça en ayant en tête ce qu’est fondamentalement une IA actuelle : un "LLM", donc un modèle probabiliste, pas une capacité de compréhension véritable (au sens humain de la chose).
Les LLM ne sont qu'une des formes d'IA générative (un modèle de diffusion n'est pas un LLM), celle-ci étant une des finalités de la discipline qu'est l'IA. Rapporter l'IA aux LLM est donc assez réducteur. (Whisper est une IA)
L'IA, c'est surtout le machine learning et le deep learning et oui, ça reste énormément basé sur des statistiques et de la probabilité puisque le but de l'IA est de produire un système capable de traiter une problématique avec peu d'entrants. Comme l'humain qui traite de la même manière un problème en émettant des hypothèses et des prédictions puis en les vérifiant.
A garder en tête néanmoins que si un LLM ne comprend pas le sens des mots, il a une compréhension sémantique et c'est ça qui lui permet de fonctionner.
Le
28/02/2024 à
18h
46
Les hallucinations et autres restitutions mot pour mot d’articles qui ont mené à la plainte du New-York Times contre OpenAI, par exemple, posent en effet des problématiques financières autant que de sauvegarde de l’intégrité de l’information dans l’espace public.
Sur ce point OpenAI a annoncé que le New York Times aurait utilisé un bug et un prompt trompeur en fournissant des extraits au modèle pour qu'il les recrache. Ca reste un modèle statistique, et les stats, ça se biaise depuis bien avant la création de l'IA en tant que discipline de recherche.
Et vous, lectrices, lecteurs, votre avis ?
L'iA générative est un formidable outil qui, pour moi, est une révolution dans les usages de l'IT. Notamment en matière d'interaction humain-machine. Comme tout outil, il a ses forces et ses faiblesses.
Le problème est qu'il est utilisé par des abrutis opportunistes, mal utilisé, et qu'il y a beaucoup trop de bullshit, d'info anxiogène voire de mensonge par omission à son sujet, entraînant un biais quand à sa compréhension. Notamment alimenté par les entreprises productrices de ces produits, OpenAI étant vraiment horrible en matière de bullshit-o-meter. L'IA générative n'est pas un système autonome, elle ne peut pas remplacer quoique ce soit. Par contre elle est extrêmement efficace sur l'analyse, synthèse et étude de documentation. D'ailleurs j'ai souvenir d'une interview d'un doctorant dans le domaine sur France Info il y a quelques mois qui disait que l'IA était utilisée depuis plus longtemps que le buzz ChatGPT dans le journalisme, le Monde l'aurait exploitée notamment pour couvrir la présidentielle française pour aider à la synthèse et au recoupement d'information.
On est dans une ère où l'information (au sens donnée) est produite et circule à une vitesse hallucinante. Quasi pareil que le trading haute fréquence des échanges boursiers. L'humain est incapable de suivre et traiter ça sans mettre derrière une armée de mexicains qui, de toute façon, mettra trop de temps à produire un résultat. L'apport de l'outil est donc indéniable pour faciliter ce travail d'analyse.
Ce qui manque, c'est pas du pointage du moindre dérapage à monter en mayonnaise pour faire du buzz, mais plutôt une ligne équilibrée mêlant explication du fonctionnement, démystification car c'est pas magique, ses capacités, ses limitations, la réalité versus les fantasmes, les bonnes pratiques, et les mauvais usages à éviter. Comprendre le fonctionnement d'un système est essentiel pour savoir comment l'exploiter au mieux, mais aussi, déceler les mauvais usages visant à tromper. (mon offre pour vous proposer du contenu sur ce point tient toujours)
De mon expérience d'utilisateur de Stable Diffusion : l'image générée par IA, ça se reconnaît assez vite. Quand on produit un grand nombre d'image, on apprend à identifier rapidement les défauts. Au même titre qu'en tant que photographe amateur, les défauts sur mes séries de clichés me sautent à la tronche direct.
De mon expérience d'utilisateur de GPT (donc pas que ChatGPT) : un texte généré par GPT, ça peut se reconnaître facilement quand c'est fait avec des prompts basiques.
Un plugin WordPress peut valoir session de la propriété intellectuelle du contenu d'un site ? C'est compatible avec le droit français ce genre de clause ? Si oui, j'en suis très étonné.
s/session/cession/
Là on parle du droit US donc je ne me prononcerai pas.
En droit français, on distingue deux éléments dans le droit d'auteur :
- Les droits moraux - Les droits patrimoniaux
Les droits moraux sont perpétuels, inaliénables et imprescriptibles. Ils protègent les intérêts non-économiques de l'auteur. Les droits moraux sont acquis de facto à la création de l'oeuvre sans autre démarche. Les droits moraux concernent le droit de divulgation (comment l'oeuvre est révélée au public), paternité (apposer son nom à l'oeuvre, ou un pseudo), respect de l'intégrité de l'oeuvre (s'oppose à toute modification sans accord), et le droit de retrait ou repentir (supprimer l'exploitation d'une oeuvre à son entière discrétion).
Les droits patrimoniaux sont cessibles et ne couvrent que deux éléments : droit de représentation (autoriser la diffusion de l'oeuvre au public), droit de reproduction (copie de l'oeuvre, ex : tirage de bouquin, CD, etc).
Dans le cas du crawling de contenu pubic, pour moi c'est là que c'est intéressant car il n'est, de mon point de vue, pas spécialement interdit d'entraîner un modèle IA sur des données publiques. Par définition, une diffusion publique signifie qu'elle n'est pas contrôlée ni restreinte. Si l'oeuvre est diffusée de cette manière, l'auteur accepte qu'elle soit lue par n'importe qui et n'importe quoi. Auquel cas il réduira la portée de lecture. A noter que l'entraînement d'un modèle IA n'est pas une reproduction du texte, mais un apprentissage du poids des relations entre les mots (version hyper méga simplifiée). Le modèle n'apprend pas un texte par coeur, il apprend à lire, c'est une subtile nuance.
Dans le cas des plateformes comme Wordpress, Tumblr, ou Reddit dernièrement, elles se protègent par leurs CGU qui doivent très certainement indiquer que les usagers cèdent un droit d'exploitation des contenus au détenteur du service.
Est-ce légal vis à vis du droit d'auteur US ? Aucune idée, et là bas la notion de contrats et d'accords a une valeur symbolique un peu plus importante que chez nous. Les procès dans le domaine nous donneront surement des réponses.
En France, à ma connaissance il n'y a pas de procédure intentée en contrefaçon concernant l'entraînement de modèles d'IA sur des contenus publics sous droit d'auteur ou bien sur ce type de service en ligne.
Le
28/02/2024 à
19h
07
Je suggère d'envoyer un mail à l'adresse du support technique disponible dans la page de gestion de compte : [email protected]
Le
28/02/2024 à
18h
54
La donnée pour l'entraînement d'IA est clairement le nouvel el-dorado pour les plateformes en manque de sources de financement supplémentaires.
J'ai hâte de voir la news disant que OnlyFans vend ses contenus pour entraîner les modèles de génération d'image tiens.
Mais bon, ces plateformes se couvrent aussi avec leurs CGU en disant qu'elles sont libre d'exploiter les contenus produits par les utilisateurs comme bon leur semble. A partir de là, à moins d'une grosse procédure visant à les invalider, elles sont couvertes.
Comme quoi, je suis bien content de mon blog hébergé chez un provider auquel j'ai confiance et maintenu par moi-même avec Hugo. Certes il est ramassé par les collecteurs puisque je n'ai spécifié aucun robots.txt cherchant à le bloquer, mais au moins je maîtrise ce que je choisis de publier et diffuser.
bah, ma source c'est l'article de Reuters cité dans la news.
MS a dit que l'investissement sera converti en parts (equity), donc un pouvoir de décision. Et c'est justement ce que Ms n'avait pas avec OpenAI. Donc tout le monde pense, à juste titre, que si Ms a choisi d'investir dans Mistral alors qu'il a déjà un partenariat exclusif avec OpenAI c'est justement pour avoir ce pouvoir de décision et verrouiller ce LLM. L'annonce dans la foulée que le LLM est dispo sur Azure semble conforter l'avis général.
A noter aussi que si aujourd'hui Large n'est dispo en managé que chez Azure, le reste des modèles open-weight de Mistral est disponible chez les 3 gros CSP du marché (Azure, GCP, AWS + Nvidia, mais aussi Infomaniak en acteur européen.
De plus, Large reste un produit auto-hébergeable même si son accès est, hélas, plus restreint que Mistral 7B et Mixtral 8x7B qui sont open-weight en raison de sa nature commerciale.
Donc à cet instant, il me paraît prématuré de clamer que le modèle a été ou sera verrouillé par Microsoft car sinon l'offre on-premise n'aurait jamais été proposée (même si on ignore ses conditions, mais au vu de la faible description, j'imagine qu'ils proposent tout simplement de télécharger le modèle sous contrat de license comme n'importe quel progiciel). Même si ce deal reste à surveiller car, à titre perso, il m'inquiète quand même.
Après, il serait opportun que la rédaction de Next contacte Mistral pour voir si des conditions commerciales publiques peuvent être retransmises dans la presse si ce n'est déjà fait.
Le
28/02/2024 à
19h
03
Toujours pas d'exclusivité dans l'article de Reuters en lien :
But lawmakers were taken by surprise on Monday, when Microsoft announced it had made a 15-million euro ($16 million) investment in Paris-based Mistral, and would soon make the company's AI models available via its Azure cloud computing platform.
C'est le seul endroit où Azure est cité.
Ça serait bien que tu vérifies tes affirmations.
Quant aux16 millions de $ par rapport aux 2 milliards d'€, ça fait 0,75 % du capital et encore, comme ça sera converti en actions lors du prochain tour de table, ça fera encore moins. Je doute que ça soit un pouvoir de décision significatif.
Ça ressemble plus à une très petite prise de participation à l'occasion du partenariat sur Azure comme ça se fait, mais ce n'est pas pour prendre le pouvoir ou sinon ça aurait été beaucoup plus et Microsoft a montré avec OpenAI qu'ils avaient les moyens de mettre beaucoup.
A noter un petit détail, La Plateforme dite sur l'infrastructure de Mistal est chez Azure aussi, hébergée dans la région Sweden (pas étonnant, une des seules régions Azure d'Europe capable de porter de l'IA en ce moment avec Norway et France Central, le reste est ras la gueule...).
Il serait vraiment regrettable qu'on perde un acteur européen aussi bien avancé dans le domaine. Surtout que, contrairement à OpenAI, le risque de rachat est une réalité puisque MistralAI est une entreprise (là où OpenAI est une structure double composée d'une entreprise et d'une ONG).
L'autre point vraiment dommageable, c'est que Large, et potentiellement les autres modèles à venir du développeur, n'est pas en open weight. Ce qui trahit l'engagement affiché précédemment qui a été effacé de leur site si j'en crois quelques éléments vus sur le sujet. C'est vraiment regrettable car le produit (en tous cas Mixtral 8x7B, j'ai commencé à tester un peu Large aussi via leur Chat) est de bonne qualité et encourageant.
J'espère qu'on ne sera pas dans une politique d'auto sabordage comme on aime le faire pour donner plus de visibilité injustifiée aux acteurs US.
Il n'y a aucune raison que ses messages soient modérés. Il dit à peu près la même chose que moi sur un point précis de droit.
Et à le lire, ce n'est pas parce qu'il affirme quelque chose qui te déplaît qu'il est pour autant dans la haine des LGBT. Je pense même que c'est le contraire en lisant son premier commentaire.
Ce n'est pas parce que nous disons tous les deux que la loi n'interdit pas de ne pas aimer les trans parce qu'ils sont trans que nous ne les aimons pas non plus.
Les gens merci d'accepter la nuance sur les sujets compliqués, être binaire n'apporte rien à la discussion et est faux juridiquement. Comme je l'ai dit, souvent, dire que l'on n'aime pas une catégorie de gens passera pour de l'incitation à la haine (interdite par la loi), mais pas tout le temps, ça dépendra du contexte.
Allez lire sur service public ce qui est interdit. En particulier ce passage :
À l'inverse, l'auteur d'une incitation à la haine cherche non seulement à convaincre les témoins de ses propos, mais aussi à les pousser à agir. Les propos doivent avoir été prononcés dans des termes et dans un contexte qui impliquent la volonté de leur auteur de convaincre d'autres personnes. Par exemple, si on dénigre un groupe religieux et qu'on invite invite d'autres internautes à commettre des actes violents contre eux.
Lire aussi l'article 24 de la loi du 29 juillet 1881 sur la liberté de la presse pour le texte précis. auront provoqué à la discrimination, à la haine ou à la violence à l'égard d'une personne ou d'un groupe de personnes à raison de, c'est ça "l'incitation" dont on parle dans le langage courant.
Les gens merci d'accepter la nuance sur les sujets compliqués, être binaire n'apporte rien à la discussion et est faux juridiquement. Comme je l'ai dit, souvent, dire que l'on n'aime pas une catégorie de gens passera pour de l'incitation à la haine (interdite par la loi), mais pas tout le temps, ça dépendra du contexte.
C'est malheureusement la tendance des non débats : "si t'es pas d'accord avec moi c'est que t'es contre moi".
Le
28/02/2024 à
07h
36
Alors, disons que, on peut changer de religion, ou d'opinion politique.
Moi perso, je suis baptisé, et je m'en contrefiche de la religion, ça me passe au dessus.
Alors que, si t'es gay, bah t'es gay toi, tu peux te marier avec une personne de ton sexe opposé, faire des enfants avec, tu sera toujours gay, c'est immuable, dès la naissance.
Là je suis plus d'accord. Il y a des éléments pour lesquels on a pas le choix, mais qu'on peut changer par la suite (comme l'exemple de la religion ou des opinions politiques, la deuxième étant forcément influencée par l'expérience) tandis que d'autres non.
Sauf un détail dans la religion (et peut-être d'autres qui m'échappent, n'étant pas spécialement intéressé par le sujet), les hommes qui ont subit une circoncision rituelle devront garder ça toute leur vie. Et ça aussi, c'est pas un choix qu'ils ont eut.
Le
27/02/2024 à
21h
46
Sauf que : on choisit d'être d'extrême gauche, d'extrême droite, musulman.
On ne choisit pas d'être gay, trans, noir, petit, grand, blond, brun.
Sauf que : on choisit d'être d'extrême gauche, d'extrême droite, musulman.
Je ne serais pas aussi catégorique personnellement.
Déjà, la religion est en grande partie imposée à un âge où la personne ne peut choisir. On lui inculque ça dans son éducation comme faisant partie d'elle et c'est même intégré à son enfance comme étant des étapes. Par la suite elle peut choisir d'être pratiquante ou non, mais ce non choix lui aura été tout de même imposé. Par contre la conversion peut être un choix (ou aussi un non choix car contraint). Pour ma part, j'ai eu la chance de ne pas avoir été baptisé à l'église catholique alors que cela reste une norme social en France imposée aux enfants (177k enfants entre 0 et 7 ans baptisés à l'église catholique en 2019, à rapporter aux 735k naissances la même année, perso j'appelle pas ça un choix).
Quand aux affinités politiques, là aussi j'aurais tendance à dire que c'est aussi une question d'entourage et d'éducation et que ça peut être aussi un non choix car considéré comme étant la normalité selon le contexte culturel.
C'est certes différent de l'orientation sexuelle, de l'ethnie, ou tout autre critère sur lequel on a moins, voire pas du tout, la maîtrise, mais je ne suis pas convaincu que ce soit exclusivement des causes internes.
Après lecture des conditions d'utilisation du service Le Chat, il est important de noter que le seul moyen de pouvoir opt-out de la sauvegarde des prompts et résultats pour entraîner le modèle derrière est de passer par l'option payante.
En matière de traitement de données personnelles, ils invitent à anonymiser les prompts. J'ai des doutes que ce soit très légal du point de vue du RGPD pour le coup car le consentement ne me semble pas libre et éclairé.
If You wish to exclude Personal Data (in a clear, identifiable form) from the Training Data, You must pseudonymize Your Prompts,
Your must not include sensitive Personal Data in Your Prompts,
You must not include sensitive business data such as, for instance, trade-secrets, know-how, etc, in Your Prompts.
Plus loin,
Opt-out of the Mistral AITraining Data at any time by activating the relevant option on Your Account. In such a case, Mistral AI will not use Your Prompts and Outputs to train its Models. Please note that Your opt-out may only be effective for future Prompts and Outputs, as technical limitations inherent to the Chat Services may prevent Mistral AI from deleting all previously provided Prompts and Outputs from Mistral AI Training Data, even if you have opted out. Mistral AI may also use Your Prompts and Outputs to monitor abuse as set out in Section (Your User Data) of the Terms of Use.
Comme toujours, faire attention à ce qu'on donne à un modèle public. Ils ont une très bonne mémoire.
Perso je vais jouer un peu avec pour voir ce qu'il donne, mais clairement, je vais plutôt rester sur le Mixtral 8x7B proposé par Infomaniak qui me rassure plus en matière de confidentialité d'usage.
Le
27/02/2024 à
07h
35
Concernant Mixtral 8x7B je commence à avoir des retours d'expérience intéressants sur la pratique. Outre sa tendance à répondre sans aucune raison en anglais par moments, j'ai en fait l'impression qu'il travaille nativement ainsi. Dans mon cas d'usage de revue de texte, il "trouve" des erreurs qui n'existent pas.
Par exemple il me pointait à un moment un défaut de cohérence sur les guillemets (un coup anglais, un coup français). Ce qui était faux puisque le texte était entièrement avec les signes français. Pareil pour certains mots où il s'était basé sur leur version anglaise (exemple : il me disait de mettre un "e" à "guitar", qui était correctement orthographié dans le texte original). Enfin, j'ai noté parfois qu'il mangeait des tokens car j'ai eu "corriger sovnt en souvent". En fait, je me demande s'il n'aurait pas eu un entraînement insuffisant en français par rapport à l'anglais et donc qu'il manquerait de données.
Par contre, lorsque j'ai fait un dernier essai en le basculant en mode "Strict" (je ne sais pas si c'est un param "officiel" du modèle ou bien une surcouche côté Infomaniak pour éviter de manipuler trop finement la température, les top et les pénalités), le résultat fut bien meilleur qu'en "Standard". En Standard il est plus adapté pour du chat bot, et je pense qu'il est trop créatif dans ce mode. En Strict, il est plus déterministe et cela semble bien correspondre au use-case de correcteur de texte.
C'est vraiment intéressant de voir à quel point le comportement de ces outils peut changer juste avec quelques params.
14068 commentaires
Le poing dev – Round 11
06/03/2024
Le 06/03/2024 à 19h 56
En relation avec la référence HAL 9000, je ne saurais que trop conseiller le roman de 2001 : l'Odyssée de l'espace. Lu récemment, il m'a clairement réconcilié avec le film et apporte des éléments et réflexions intéressantes relatives aux raisons pour lesquelles HAL a déraillé dans l'histoire.Les anciens dirigeants de Twitter portent plainte contre Elon Musk
06/03/2024
Le 06/03/2024 à 17h 58
Microsoft met fin au sous-système Android dans Windows 11
06/03/2024
Le 06/03/2024 à 12h 53
C'est la première fois que j'en entends parler.Predator, l’un des principaux concurrents du logiciel espion Pegasus, a rebati son infrastructure
06/03/2024
Le 06/03/2024 à 07h 43
J'aime la subtilité des noms de ces solutions n'empêche.Est-ce qu'on va avoir droit à un match Pegasus versus Predator dans la rubrique de Flock ?
24 % des influenceurs sont victimes de cyberharcèlement, dont 34 % des moins de 30 ans
06/03/2024
Le 06/03/2024 à 07h 41
C'est ce qui arrive malheureusement à toute forme de célébrité.Orange condamnée à 860 000 euros pour contrefaçon et violation de la licence libre GNU GPL
05/03/2024
Le 05/03/2024 à 20h 26
On en revient à ma première phrase : les coûts, le temps qui ne concordent pas, les exigences non fonctionnelles sautent et tant pis.
Le 05/03/2024 à 18h 17
Les exigences non fonctionnelles, ça fini toujours en dernier dans les projets de développement. Perso c'est la réalité du terrain que j'observe dans les prestations issues de centres de développement. Et pour avoir vu la gueule de certains contrats de dev, c'était limite un post-it, à se demander si un service juridique l'avait relu (genre : zéro engagements, zéro critères de pénalités, zéro critères d'évaluation, rien, que dalle).
C'est d'ailleurs pour ça que les solutions d'analyse de supply chain logicielle ont également une fonction d'évaluation de risque légal en fonction des licenses. Cela va même assez loin, avec notamment la réputation du développeur (cas des logiciels sabotés par protestation politique). Encore faut-il aussi utiliser ces produits puisque, là aussi, c'est encore une fois de l'exigence non fonctionnelle qui passe à la trappe.
Face au DMA, Apple se plaint
05/03/2024
Le 05/03/2024 à 18h 28
Perso on peut me dire ce qu'on veut, quand on joue à l'échelle d'un marché de 500 millions de consommateurs plutôt que celle d'un pays seul, ça change tout de suite le rapport de force. L'UE, c'est lourd, lent, et complexe, mais on a quand même du résultat.Apple fait passer son MacBook Air au M3
05/03/2024
Le 05/03/2024 à 18h 20
Je pense que c'est dit et répété en boucle à chaque actualité qui traite de près ou de loin Apple.Pourtant, ça semble pas y changer grand chose.
Israël – Hamas : Meta censure des contenus pro-palestiniens sur Instagram
04/03/2024
Le 05/03/2024 à 12h 39
Là où en écoutant les infos, on se dit que demain sera la bonne. Mais perso je suis toujours déçu
La Maison-Blanche exhorte les développeurs à abandonner C et C++ pour Rust
04/03/2024
Le 04/03/2024 à 17h 05
Après, ma remarque trollesque sur NodeJS (mais les explications données ensuite étaient très intéressantes, merci aux intervenants) venait surtout du point de vue de quelqu'un qui ne comprend pas pourquoi il faut démarrer un serveur web qui exécute le moteur Javascript de Chromium pour faire un éditeur de texte sur son PC.
C'est une caricature, mais à un moment, je me dis qu'on a foiré une étape en chemin. Sans parler de la surface d'attaque qui s'élargit forcément car on empile les runtimes et les dépendances.
Certes, ça permet aussi de faire des applications extrêmement portables, VSCode en version Web c'est très pratique (GitHub Codespace reposant là dessus) et Diagram.net est un formidable outil. Mais y'a toujours un truc qui me gêne avec cette techno et la multitude de produits désormais basés dessus. Un peu comme les appImage qui pullulent sous Linux pour compenser la multiplicité des distribs en préférant ramener des bulldozers de 45 tonnes pour le moindre logiciel avec une régression monumentale en terme de gestion de packages (en gros, aucune).
Le 04/03/2024 à 08h 34
Moi qui croyait qu'on ne faisait plus que des logiciels inefficients en NodeJS réinventant la roue et empilant les surcouches inutiles pour des fonctions basiques.Moi ça me rassure pas, car lorsqu'on qualifie un truc comme "sûr", on a tendance à relâcher son attention. Et donc à la fin, à faire de la merde quand même en reposant sur la supposée sûreté by design.
Je ne suis pas développeur et suis incapable de dire si tout ceci est vrai ou pas pour Rust. Peut-être que oui et tant mieux. Mais j'aime pas les arguments du style "utilisez Machin car c'est plus sûr", ça me rappelle trop les "utilisez Linux c'est plus sécurisé" scandé tel un dogme alors que c'est au mieux de la superstition. La sécurité magique by design, à ma connaissance, ça n'existe pas. Ca demande du travail dans tous les cas. Si le produit facilite ce travail et évite de faire des erreurs basiques, tant mieux. Mais perso je considère qu'il ne faut pas non plus trop s'endormir sur ces arguments.
Intel présente sa « nouvelle » société Altera, spécialisée dans les puces FPGA
04/03/2024
Le 04/03/2024 à 13h 36
Hasard du calendrier, Stéphane Marty de la chaîne Youtube Deus Ex Scilicium a brièvement parlé des FPGA durant son récent démontage de calculateurs de cryptomonnaie (à partir de 15:45). Il explique rapidement leur fonctionnement ainsi que les usages.Perso je connaissais pas du tout ces types de composants (il faut dire que mon niveau en électronique est proche du néant).
[Édito] Le buzz à tout prix sur les réseaux sociaux
01/03/2024
Le 04/03/2024 à 13h 24
Le 02/03/2024 à 17h 36
Le 02/03/2024 à 15h 10
En fait non, la télé réalité a toujours été scénarisée et les "candidats" issus d'un casting pour avoir les stéréotypes permettant de générer les mises en situation souhaitées.Le 02/03/2024 à 15h 08
Mais je me suis souvenu aussi que contrairement à un animal domestique (même si c'est aussi possible dans leur cas), un enfant peut ne pas avoir été désiré. Une responsabilité imposée versus une responsabilité choisie en résumé.
Le 02/03/2024 à 14h 12
J'aurais tendance à dire que, même si c'est un effet de loupe car heureusement encore minoritaire, c'est une tendance. Prenez un contexte professionnel. Quand il y a un désaccord entre des personnes, on peut en discuter et essayer de trouver un terrain d'entente. Et parfois même demander le concours de tiers pour trancher (manager ou même simple collègue). D'autres ne diront rien et 10 minutes plus tard vous prendrez un scud du chef qui n'aura eu qu'une version orientée et incomplète du désaccord.La stratégie du coup de couteau dans le dos. Je l'ai vécue plus d'une fois.
Au point où j'ai été obligé de m'assurer à chaque fois d'avoir assez de matière pour faire du contradictoire et me défendre.
Absurde.
Vieille histoire aussi, notre espèce a toujours eu un côté voyeur, ou encore la fameuse schadenfreude qui nous fait ressentir du plaisir quand autrui a des ennuis. Même si là aussi, je pense que tout ceci est avant tout un effet de loupe et montre des comportements certes peu acceptables, mais aussi minoritaires. J'espère. En tous cas je n'ai pas le souvenir d'avoir vu ça autre que les fameux CQR sur la route quand il y a un truc à regarder (accident, voiture arrêtée, etc).
De mon point de vue, les dramas, ou les "affaires" pour parler de la politique sont une stratégie de détournement de l'attention. De la diversion. Et comme ça titille nos plus primaires instincts, on tombe dedans tête la première.
---
Personnellement, devant le "buzz", je suis généralement indifférent. Déjà, je ne fréquente pas les médias sociaux en dehors de Fosstodon. Et là dessus, j'ai jamais trop vu de shitstorm ou de drama, pas assez de monde pour ça même avec la fédération. De plus, le système n'étant pas conçu pour mettre en avant des contenus selon ce qui arrange la plateforme et ses annonceurs, mais travaillant de manière chronologique, un "buzz" est rapidement éteint puisqu'il est enfoui. C'est pas avec les 3 pauvres trending hashtags affichés sur le homepage qu'on fait du "buzz". Donc je pense que le système ne permet pas les shitstorm et le "buzz" by design. Pas d'huile à jeter sur le feu.
En fait, quand j'écoute les rubriques "vrais ou faux" de France Info, j'aurais tendance à dire que je tombe des nues quand ils parlent de détournements, fausses informations, ou encore "phrases chocs" montées en mayonnaise issues des médias sociaux. Je veux dire, rien qu'entendre le propos fait hurler mon bullshit-o-meter en me disant que c'est trop gros. C'est comme si le Gorafi était considéré comme source d'information, les éléments sont tout aussi gros et absurdes. Mais comma ça fait appel à l'émotion, ça marche direct. Et comme les médias sociaux tournent à l'émotion et à la réaction basique, ça marche encore mieux.
Après, pour moi, une chose qui contribue aussi beaucoup aux "buzz", c'est l'information tronquée pour en générer. Le mensonge par omission est devenu tellement banal en oubliant de citer le petit détail qui rendrait le fait moins percutant. Ou encore information traitée sous le prisme d'un seul sens. L'information est généralement contradictoire puisque l'histoire qu'elle raconte a forcément des protagonistes et des antagonistes. Dans un mouvement social, tout le monde défend son bout de gras et ses intérêts. Pourtant n'aborder cette grève que sous le regard des grévistes, c'est biaiser les faits. Et ça, on manque cruellement de médias qui sont capables de traiter un sujet sur des aspects multiples et donner la paroles à différentes parties prenantes. C'est d'ailleurs un reproche que j'ai déjà fait à Next quant à sa ligne éditoriale : trop unidirectionnelle, un sujet n'est que très rarement traité sous différents prismes. Et le souci, c'est que lorsqu'on a qu'une parole à écouter, on tombe dans une dérive : le comportement sectaire. Toute opinion qui ne va pas dans le même sens devient une agression. Entraînant les faux dramas.
Après, la boulimie d'information fait qu'on arrive à une telle saturation que, pour moi, on ne sait plus réagir qu'à l'émotion. D'un certain point de vue, ce ne sont là que des comportements infantiles. Comme taper son ordinateur quand il plante.
Le 02/03/2024 à 10h 56
Le nombre de compromissions de comptes d’OpenAI et Roblox a explosé en 2023
04/03/2024
Le 04/03/2024 à 11h 24
Dans le cas où l'on utilise aucun de ces trois providers, ça réduit drastiquement les options. Et je ne considère pas que cela soit un argument recevable pour avoir une authentification insuffisamment robuste sur sa plateforme.
Mais bon, ça arrivera. Il a fallu que GitHub se fasse poutrer plus d'une fois pour qu'ils renforcent la sécu. Donc il y aura bien une prise de conscience à un moment. Ou un injonction à faire.
Le 04/03/2024 à 08h 25
En même temps, c'est le même.Néanmoins, j'ai toujours considéré OpenAI comme extrêmement mauvais en matière de sécurité. Raison pour laquelle je ne recommencerai jamais son offre Enterprise. Les fuites ont été légion, et pourtant, toujours pas de MFA sur le compte. La feature avait été désactivée pour je ne sais quel raison et, à ma connaissance, toujours pas disponible.
Même si le MFA n'est pas une protection absolue - puisque ça n'existe pas - de nos jours c'est un minimum.
Elon Musk dépose plainte contre OpenAI pour rupture de contrat
04/03/2024
Le 04/03/2024 à 08h 18
La plainte avait été analysée par The Verge et elle reposerait sur un contrat qui n'existe pas. Bien que cet échange de mails, l'une des preuves avancées par Musk, pourrait être considéré comme un accord entre deux parties aux USA.A voir ce que ça donnera. Mais je suis plus intéressé par le résultat des études des autorités de la concurrence sur l'accord OpenAI/Microsoft que les énièmes élucubrations de ce personnage sans intérêt à mes yeux.
663e édition des LIDD : Liens Intelligents Du Dimanche
03/03/2024
Le 03/03/2024 à 10h 29
#revolution
OpenAI contre-attaque et accuse le New York Times d’avoir « hacké » ses produits
29/02/2024
Le 03/03/2024 à 10h 28
On ne peut donc pas dire qu'ils font du business sur l'accès aux données d'entraînement, cela n'a aucun sens car ça signifierait qu'ils commercialiseraient le dataset, pas le modèle.
Par contre le terme utilisation, voire même exploitation est correct pour indiquer l'usage fait des données d'entraînement. Elles servent à produire un modèle statistique (les poids) dont l'accès et l'usage est commercialisé derrière.
Personnellement j'attend vraiment de voir ce que donnera la décision car elle pourrait potentiellement faire très mal aux entreprises de la tech aux USA (vu que la jurisprudence s'appliquera là bas). A voir la portée qu'elle aura.
Le 02/03/2024 à 15h 05
Concernant le fair use, on verra ce que le tribunal prononcera.
Le 01/03/2024 à 18h 29
Pas si ça tombe dans le cas d'usage du fair use derrière lequel OpenAI se retranche pour sa défense.Le 29/02/2024 à 18h 10
Le "bug" en question serait, si j'ai bien compris, de l'exploitation de faille en soumettant des prompts très orientés incluant des morceaux de texte attendus. Une façon de biaiser le moteur statistique derrière pour orienter ses calculs de probabilité et reproduire au plus fidèle le contenu d'articles du New York Times. Cela rappelle la faille qui permettait de faire cracher des données d'entraînement en répétant plusieurs fois le même mot dans un prompt.Egalement, la démonstration d'OpenAI indique que seuls de cours extraits (une centaine de mots) ont été produits pour des articles de plus de 16 000.
Autre élément intéressant qui a été mis de côté, toujours de ma compréhension à la lecture du rapport d'audience, les griefs indiquant que ChatGPT imitait le style journalistique du New York Times. Il a été rappelé qu'aux USA, il n'est pas possible de copyright un style artistique, ce n'est pas suffisamment discriminant (ex : copyrighter l’impressionnisme).
KDE 6 disponible en version finale
29/02/2024
Le 02/03/2024 à 08h 42
Pour le coup, étant un vieux con non utilisateur de KDE qui l'a connu il y a vingt ans, j'apprécie cette dénomination. "Plasma" ne m'aurait pas spécialement parlé, par contre "KDE Plasma" oui là j'aurais fait le rapprochement.Qualcomm renouvelle ses puces 5G Advanced et Wi-Fi 7, avec de l’IA partout
01/03/2024
Le 01/03/2024 à 18h 45
Whisper ? Une IA Générative ?Whisper est un modèle d'ASR, pour automatic speech recognition, il n'est pas une IA générative car il ne produit pas de contenu basé sur une entrée en puisant dans un modèle pré-entraîné. Si c'est le fait qu'il soit basé sur Transformer qui en ferait une IA générative, dans ce cas c'est plus qu'un raccourci mais une coupure franche. Transformer est une architecture de deep learning proposant un mécanisme d'attention, rien de plus.
Tails est disponible en version 6.0
29/02/2024
Le 01/03/2024 à 12h 57
Comment cela se passe si on bascule d'un terminal virtuel à un autre ?Axel Springer et 32 autres médias déposent une plainte à 2,1 milliards d’euros contre Google
29/02/2024
Le 01/03/2024 à 12h 52
A la seule lecture de cette phrase, je n'ai pas compris quel était l'enjeu de la plainte. La raison de ces pertes.Puis, en regardant la source, j'ai fini par comprendre que c'était une plainte pour abus de position dominante en pointant du doigt l'imprévisibilité des tarifs au bon vouloir de la plateforme avec des coûts d'accès élevés pour des revenus moindres.
Vivaldi 6.6 peut forcer le thème sombre sur tous les sites
01/03/2024
Le 01/03/2024 à 07h 39
🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉Peut-être que ça me permettra de retirer Dark Reader (parfois le rendu fait perdre de la lisibilité).
Apple aurait mis fin au développement de son véhicule électrique
29/02/2024
Le 29/02/2024 à 14h 27
En même temps il aurait fallu refaire toutes les routes du monde car les iWheels n'étaient compatibles qu'avec les iRoads. Et refaire tout le parc de bornes de recharge pour prendre en compte les nouvelles iPlugs.Google paye des éditeurs d’information pour entraîner une nouvelle plateforme d’IA générative
28/02/2024
Le 29/02/2024 à 13h 42
Et désormais l'IA est aussi un vecteur d'attaque. Après les packages malicieux inspirés des hallucinations des modèles, les attaques par supply chain.Le 29/02/2024 à 13h 40
Comme à l'époque où FranceInfo avait proposé un article pour reconnaître les images générées par IA avec les défauts connus de l'époque. Critères qui sont un peu moins valables de nos jours en raison des améliorations que les générateurs ont depuis. Mais y'a toujours des détails qui trahissent.
Le 29/02/2024 à 07h 37
L'IA, c'est surtout le machine learning et le deep learning et oui, ça reste énormément basé sur des statistiques et de la probabilité puisque le but de l'IA est de produire un système capable de traiter une problématique avec peu d'entrants. Comme l'humain qui traite de la même manière un problème en émettant des hypothèses et des prédictions puis en les vérifiant.
A garder en tête néanmoins que si un LLM ne comprend pas le sens des mots, il a une compréhension sémantique et c'est ça qui lui permet de fonctionner.
Le 28/02/2024 à 18h 46
Sur ce point OpenAI a annoncé que le New York Times aurait utilisé un bug et un prompt trompeur en fournissant des extraits au modèle pour qu'il les recrache. Ca reste un modèle statistique, et les stats, ça se biaise depuis bien avant la création de l'IA en tant que discipline de recherche.L'iA générative est un formidable outil qui, pour moi, est une révolution dans les usages de l'IT. Notamment en matière d'interaction humain-machine. Comme tout outil, il a ses forces et ses faiblesses.
Le problème est qu'il est utilisé par des abrutis opportunistes, mal utilisé, et qu'il y a beaucoup trop de bullshit, d'info anxiogène voire de mensonge par omission à son sujet, entraînant un biais quand à sa compréhension. Notamment alimenté par les entreprises productrices de ces produits, OpenAI étant vraiment horrible en matière de bullshit-o-meter. L'IA générative n'est pas un système autonome, elle ne peut pas remplacer quoique ce soit. Par contre elle est extrêmement efficace sur l'analyse, synthèse et étude de documentation. D'ailleurs j'ai souvenir d'une interview d'un doctorant dans le domaine sur France Info il y a quelques mois qui disait que l'IA était utilisée depuis plus longtemps que le buzz ChatGPT dans le journalisme, le Monde l'aurait exploitée notamment pour couvrir la présidentielle française pour aider à la synthèse et au recoupement d'information.
On est dans une ère où l'information (au sens donnée) est produite et circule à une vitesse hallucinante. Quasi pareil que le trading haute fréquence des échanges boursiers. L'humain est incapable de suivre et traiter ça sans mettre derrière une armée de mexicains qui, de toute façon, mettra trop de temps à produire un résultat. L'apport de l'outil est donc indéniable pour faciliter ce travail d'analyse.
Ce qui manque, c'est pas du pointage du moindre dérapage à monter en mayonnaise pour faire du buzz, mais plutôt une ligne équilibrée mêlant explication du fonctionnement, démystification car c'est pas magique, ses capacités, ses limitations, la réalité versus les fantasmes, les bonnes pratiques, et les mauvais usages à éviter. Comprendre le fonctionnement d'un système est essentiel pour savoir comment l'exploiter au mieux, mais aussi, déceler les mauvais usages visant à tromper. (mon offre pour vous proposer du contenu sur ce point tient toujours)
De mon expérience d'utilisateur de Stable Diffusion : l'image générée par IA, ça se reconnaît assez vite. Quand on produit un grand nombre d'image, on apprend à identifier rapidement les défauts. Au même titre qu'en tant que photographe amateur, les défauts sur mes séries de clichés me sautent à la tronche direct.
De mon expérience d'utilisateur de GPT (donc pas que ChatGPT) : un texte généré par GPT, ça peut se reconnaître facilement quand c'est fait avec des prompts basiques.
[Màj] Vente des contenus d’Automattic à MidJourney et OpenAI : JetPack non concerné
29/02/2024
Le 28/02/2024 à 23h 15
s/session/cession/
Là on parle du droit US donc je ne me prononcerai pas.
En droit français, on distingue deux éléments dans le droit d'auteur :
- Les droits moraux
- Les droits patrimoniaux
Les droits moraux sont perpétuels, inaliénables et imprescriptibles. Ils protègent les intérêts non-économiques de l'auteur. Les droits moraux sont acquis de facto à la création de l'oeuvre sans autre démarche. Les droits moraux concernent le droit de divulgation (comment l'oeuvre est révélée au public), paternité (apposer son nom à l'oeuvre, ou un pseudo), respect de l'intégrité de l'oeuvre (s'oppose à toute modification sans accord), et le droit de retrait ou repentir (supprimer l'exploitation d'une oeuvre à son entière discrétion).
Les droits patrimoniaux sont cessibles et ne couvrent que deux éléments : droit de représentation (autoriser la diffusion de l'oeuvre au public), droit de reproduction (copie de l'oeuvre, ex : tirage de bouquin, CD, etc).
Dans le cas du crawling de contenu pubic, pour moi c'est là que c'est intéressant car il n'est, de mon point de vue, pas spécialement interdit d'entraîner un modèle IA sur des données publiques. Par définition, une diffusion publique signifie qu'elle n'est pas contrôlée ni restreinte. Si l'oeuvre est diffusée de cette manière, l'auteur accepte qu'elle soit lue par n'importe qui et n'importe quoi. Auquel cas il réduira la portée de lecture. A noter que l'entraînement d'un modèle IA n'est pas une reproduction du texte, mais un apprentissage du poids des relations entre les mots (version hyper méga simplifiée). Le modèle n'apprend pas un texte par coeur, il apprend à lire, c'est une subtile nuance.
Dans le cas des plateformes comme Wordpress, Tumblr, ou Reddit dernièrement, elles se protègent par leurs CGU qui doivent très certainement indiquer que les usagers cèdent un droit d'exploitation des contenus au détenteur du service.
Est-ce légal vis à vis du droit d'auteur US ? Aucune idée, et là bas la notion de contrats et d'accords a une valeur symbolique un peu plus importante que chez nous. Les procès dans le domaine nous donneront surement des réponses.
En France, à ma connaissance il n'y a pas de procédure intentée en contrefaçon concernant l'entraînement de modèles d'IA sur des contenus publics sous droit d'auteur ou bien sur ce type de service en ligne.
Le 28/02/2024 à 19h 07
Je suggère d'envoyer un mail à l'adresse du support technique disponible dans la page de gestion de compte : [email protected]Le 28/02/2024 à 18h 54
La donnée pour l'entraînement d'IA est clairement le nouvel el-dorado pour les plateformes en manque de sources de financement supplémentaires.J'ai hâte de voir la news disant que OnlyFans vend ses contenus pour entraîner les modèles de génération d'image tiens.
Mais bon, ces plateformes se couvrent aussi avec leurs CGU en disant qu'elles sont libre d'exploiter les contenus produits par les utilisateurs comme bon leur semble. A partir de là, à moins d'une grosse procédure visant à les invalider, elles sont couvertes.
Comme quoi, je suis bien content de mon blog hébergé chez un provider auquel j'ai confiance et maintenu par moi-même avec Hugo. Certes il est ramassé par les collecteurs puisque je n'ai spécifié aucun robots.txt cherchant à le bloquer, mais au moins je maîtrise ce que je choisis de publier et diffuser.
L’accord Mistral AI / Microsoft sous le regard de la Commission européenne
28/02/2024
Le 28/02/2024 à 21h 13
De plus, Large reste un produit auto-hébergeable même si son accès est, hélas, plus restreint que Mistral 7B et Mixtral 8x7B qui sont open-weight en raison de sa nature commerciale.
Donc à cet instant, il me paraît prématuré de clamer que le modèle a été ou sera verrouillé par Microsoft car sinon l'offre on-premise n'aurait jamais été proposée (même si on ignore ses conditions, mais au vu de la faible description, j'imagine qu'ils proposent tout simplement de télécharger le modèle sous contrat de license comme n'importe quel progiciel). Même si ce deal reste à surveiller car, à titre perso, il m'inquiète quand même.
Après, il serait opportun que la rédaction de Next contacte Mistral pour voir si des conditions commerciales publiques peuvent être retransmises dans la presse si ce n'est déjà fait.
Le 28/02/2024 à 19h 03
Terms of Use => Privacy Policy => Point 6.
The platform correspond bien à La Plateforme.
Cette plateforme est antérieure à l'annonce du deal.
Le 28/02/2024 à 07h 42
Il serait vraiment regrettable qu'on perde un acteur européen aussi bien avancé dans le domaine. Surtout que, contrairement à OpenAI, le risque de rachat est une réalité puisque MistralAI est une entreprise (là où OpenAI est une structure double composée d'une entreprise et d'une ONG).L'autre point vraiment dommageable, c'est que Large, et potentiellement les autres modèles à venir du développeur, n'est pas en open weight. Ce qui trahit l'engagement affiché précédemment qui a été effacé de leur site si j'en crois quelques éléments vus sur le sujet. C'est vraiment regrettable car le produit (en tous cas Mixtral 8x7B, j'ai commencé à tester un peu Large aussi via leur Chat) est de bonne qualité et encourageant.
J'espère qu'on ne sera pas dans une politique d'auto sabordage comme on aime le faire pour donner plus de visibilité injustifiée aux acteurs US.
Aux États-Unis, le compte X Libs of TikTok influe très directement sur la vie des jeunes LGBT
27/02/2024
Le 28/02/2024 à 17h 57
Le 28/02/2024 à 07h 36
Sauf un détail dans la religion (et peut-être d'autres qui m'échappent, n'étant pas spécialement intéressé par le sujet), les hommes qui ont subit une circoncision rituelle devront garder ça toute leur vie. Et ça aussi, c'est pas un choix qu'ils ont eut.
Le 27/02/2024 à 21h 46
Déjà, la religion est en grande partie imposée à un âge où la personne ne peut choisir. On lui inculque ça dans son éducation comme faisant partie d'elle et c'est même intégré à son enfance comme étant des étapes. Par la suite elle peut choisir d'être pratiquante ou non, mais ce non choix lui aura été tout de même imposé. Par contre la conversion peut être un choix (ou aussi un non choix car contraint). Pour ma part, j'ai eu la chance de ne pas avoir été baptisé à l'église catholique alors que cela reste une norme social en France imposée aux enfants (177k enfants entre 0 et 7 ans baptisés à l'église catholique en 2019, à rapporter aux 735k naissances la même année, perso j'appelle pas ça un choix).
Quand aux affinités politiques, là aussi j'aurais tendance à dire que c'est aussi une question d'entourage et d'éducation et que ça peut être aussi un non choix car considéré comme étant la normalité selon le contexte culturel.
C'est certes différent de l'orientation sexuelle, de l'ethnie, ou tout autre critère sur lequel on a moins, voire pas du tout, la maîtrise, mais je ne suis pas convaincu que ce soit exclusivement des causes internes.
Mistral AI annonce la sortie de son modèle « Mistral Large »
27/02/2024
Le 27/02/2024 à 18h 14
Après lecture des conditions d'utilisation du service Le Chat, il est important de noter que le seul moyen de pouvoir opt-out de la sauvegarde des prompts et résultats pour entraîner le modèle derrière est de passer par l'option payante.En matière de traitement de données personnelles, ils invitent à anonymiser les prompts. J'ai des doutes que ce soit très légal du point de vue du RGPD pour le coup car le consentement ne me semble pas libre et éclairé.
Plus loin,
Comme toujours, faire attention à ce qu'on donne à un modèle public. Ils ont une très bonne mémoire.
Perso je vais jouer un peu avec pour voir ce qu'il donne, mais clairement, je vais plutôt rester sur le Mixtral 8x7B proposé par Infomaniak qui me rassure plus en matière de confidentialité d'usage.
Le 27/02/2024 à 07h 35
Concernant Mixtral 8x7B je commence à avoir des retours d'expérience intéressants sur la pratique. Outre sa tendance à répondre sans aucune raison en anglais par moments, j'ai en fait l'impression qu'il travaille nativement ainsi. Dans mon cas d'usage de revue de texte, il "trouve" des erreurs qui n'existent pas.Par exemple il me pointait à un moment un défaut de cohérence sur les guillemets (un coup anglais, un coup français). Ce qui était faux puisque le texte était entièrement avec les signes français. Pareil pour certains mots où il s'était basé sur leur version anglaise (exemple : il me disait de mettre un "e" à "guitar", qui était correctement orthographié dans le texte original). Enfin, j'ai noté parfois qu'il mangeait des tokens car j'ai eu "corriger sovnt en souvent". En fait, je me demande s'il n'aurait pas eu un entraînement insuffisant en français par rapport à l'anglais et donc qu'il manquerait de données.
Par contre, lorsque j'ai fait un dernier essai en le basculant en mode "Strict" (je ne sais pas si c'est un param "officiel" du modèle ou bien une surcouche côté Infomaniak pour éviter de manipuler trop finement la température, les top et les pénalités), le résultat fut bien meilleur qu'en "Standard". En Standard il est plus adapté pour du chat bot, et je pense qu'il est trop créatif dans ce mode. En Strict, il est plus déterministe et cela semble bien correspondre au use-case de correcteur de texte.
C'est vraiment intéressant de voir à quel point le comportement de ces outils peut changer juste avec quelques params.
Pour Apple, Spotify devrait être reconnaissante
26/02/2024
Le 26/02/2024 à 17h 40
"Oui monseigneuuuuuur" (à dire avec la voix des péons dans Warcraft)Deux eurodéputées ciblées par le logiciel espion Pegasus
26/02/2024
Le 26/02/2024 à 13h 23
Pegasus ryu sei ken !