Ça coûte cher de maintenir une application dans le temps. Je ne serais pas étonné que l’application GMail ai coûté plus d’un million depuis ses débuts.
Je ne connais pas ksuite, ni quelle est l’architecture côté serveur, donc ils réinventent peut-être une roue, mais qui reste encore assez “nouvelle”. Alors qu’un service de mail, dès qu’il est compatible IMAP, il fait comme tous les autres.
Prenons le cas des navigateurs Web.
Il y a un peu plus d’une décennie, plusieurs logiciels différents, des moteurs de rendu différents, de la concurrence, etc (Gecko avec Firefox, Trident avec IE, WebKit chez Apple, Presto chez Opera, etc).
Aujourd’hui, le Web a été privatisé par Google qui possède pour ainsi dire le protocole grâce à son écrasante domination avec Blink qui est la base de quasi tous les navigateurs du marché via Chromium (avec Webkit son original et le moteur de Firefox qui est devenu marginal dans son coin). Et régulièrement l’entreprise tente de le fermer ou d’accentuer son viol de la vie privée des personnes avec ses tentatives de DRM, contrôle, et autres méthodes de traque.
Pour moi c’est pas une question de réinventer la roue, c’est au contraire un besoin impérieux de retrouver de la diversité dans des services qui sont entre les mains d’acteurs hégémoniques pour lesquels je suis en désaccord avec leur vision de ce qu’est le Web. Perso ma vision est que le Web est ouvert et interopérable. La leur est que le Web est fermé et cloisonné.
Je suis donc pour à 100% l’arrivée d’acteurs supplémentaires qui “réinventent la roue”, mais qui en le faisant apportent de la diversité et surtout : du choix. Car pour reprendre l’exemple du navigateur Web, aujourd’hui celui-ci est un non choix.
Le
12/09/2023 à
05h
16
Je l’ai installée depuis sa sortie, vraiment très bien pour mon usage (peu intensif sur smartphone, principalement consultation). Le verrouillage de l’appli est pratique et l’interface est simple et efficace.
Pour compléter mon précédent message, un autre cas de biais dont l’IA peut souffrir pour la génération d’image est aussi causé par méconnaissance. Des modèles entraînés en mode “prude” avec des jeux d’entraînement n’intégrant pas la nudité se retrouvent moins efficaces que ceux qui l’ont intégré. Car l’absence d’information anatomique plus précise (grâce à la nudité) fait que le résultat est incomplet.
Le
12/09/2023 à
16h
20
C’est leur éthique à eux hein. Il faut débiaisé l’IA en la biaisant mais à notre façon.
“Débiaiser” l’IA est une chimère. Les jeux d’entraînement ne vont pas inventer une parfaite équité qui n’existe pas dans la réalité. Cet outil reste un reflet de ce qui existe.
C’est la raison pour laquelle l’approche est de considérer et accepter ces biais (avoir un biais n’est pas un défaut ni une tare, c’est un simple fait), les prendre en considération et s’assurer que le résultat produit par l’IA ne soit pas affecté par ceux-ci si le but est par exemple de trier des personnes (éviter des critères discriminants, ou des clichés sociétaux basés sur le sexe, religion, ethnicité, etc).
Personnellement je produis des images via StableDiffusion et je propose ce service. Dans l’offre, j’ai clairement précisé et rappelé que l’IA est biaisée. De ce fait, je demande lorsqu’il s’agit d’une mise en scène d’un personnage de préciser tous les critères de genre, ethnicité, type de corps, etc, attendus. Car les modèles ont vite tendance à rester sur certaines typologies (majoritairement caucasienne mais aussi beaucoup asiatiques, de nombreux modèles étant d’origine chinoise) que son entraînement lui aura potentiellement fait considérer comme étant un “standard” (donc biaisé) et qu’il faut donc compléter son résultat via les LoRA adéquat pour obtenir quelque chose au plus proche du résultat attendu.
Tout ça, ça s’apprend, ça se pratique, et ça se considère.
Le
12/09/2023 à
11h
25
La fondation se justifie en affirmant que l’IA peut nous faciliter la vie « mais elle soulève également des questions sur l’équité, la partialité, la désinformation, la sécurité et l’avenir du travail ».
Ce sont en fait des éléments qu’on voit beaucoup lors des formations autour de l’entraînement et l’utilisation des modèles d’IA générative. Outre la technique, ils parlent beaucoup de l’éthique autour avec les risques pour les personnes a cause des biais que l’IA peut avoir.
Ah perso c’est pour une autre raison. Quand j’auto hébergeais encore mes mails, comme quasi tous les ranges IP d’OVH doivent être en blacklist, mon SMTP se faisait quasi tout le temps jeter.
Tant mieux dans ce cas, et merci pour les précisions. Peut-être mes souvenirs sont-ils biaisés, mais à chaque fois je voyais trop de signaux contradictoires qui ne me rassuraient pas.
Le
11/09/2023 à
16h
49
Dans les grandes lignes, il a été question de modèle économique et d’ambitions pour l’avenir, dans des échanges animés et passionnés.
Une augmentation des abonnements et ajout de services à valeur ajoutée ?
Des publications payantes unitaires (vu que Vincent m’avait confirmé que la rédaction étudiait l’idée de publier des dossiers en ebook ou autre) qui permettraient de toucher un public plus large via les nombreuses marketplaces ebook ?
Peut-être une segmentation de l’offre d’abonnement offrant plus ou moins de fonctions à valeur ajoutée ?
Une augmentation de la quantité de contenus pour gagner en attractivité ? Les longs articles riches d’information, c’est très bien, mais je crains que ce soit rédhibitoire pour beaucoup de monde (génération instantané, tout en vidéo, 140 caractères toussa) ?
Utiliser la technologie pour fournir les contenus en podcast via synthèse audio ? (ça peut être un service à valeur ajoutée pour un abonnement premium ++)
Une commercialisation du CMS sur lequel repose le site ?
Concernant les ambitions pour l’avenir, j’espère que le repreneur saura maintenir une ligne stable et améliorer l’existant tout en consolidant la base.
J’avais plusieurs fois émis des doutes concernant l’éparpillement de NXI avec tous les side-projects qui ont fini par disparaître / être revendus comme les bons plans forfaits, les comparateurs, le magazine papier, etc, qui phagocytaient les ressources alors que le flux principal était en berne. Si se diversifier et tenter des choses est positif, j’ai toujours considéré qu’il était mal venu de trop s’éparpiller quand on a une situation financière fragile là où consolider la base me paraissait essentiel.
C’est pour ça que je n’ai jamais voulu participer aux campagnes de soutien car j’avais toujours l’impression de voir un yo-yo de : on a des sous on lance plein de trucs, on a pu d’sous aidez-nous.
Bref, plus qu’à voir ce que le repreneur fera. En attendant, une bonne continuation pour votre autre projet professionnel.
En effet, un blocage par adresse IP n’est pas possible pour plusieurs raisons : on ne saurait bloquer tout un foyer, les abonnés n’ont pas d’adresse IP fixe, il existe des point d’accès en libre-service, etc.
Encore sur l’image un watermark est possible. C’est même déjà une option activable (sans oublier que le contenu du prompt est écrit dans les metadata).
Par contre pour du texte, ça n’a aucun sens de vouloir archiver l’entièreté des contenus générés… GPT n’est pas censé être déterministe, donc il va généralement produire un contenu avec des variations. Et c’est pour ainsi dire déjà fait puisque les prompts et résultats obtenus sur ChatGPT sont conservés, analysés, et utilisés pour l’entraînement des modèles d’OpenAI. Mais leur accès est restreint à OpenAI. Au même titre que les prompts et suggestions de la version Personal de GitHub Copilot le sont (c’est la version entreprise qui ne fait pas d’archivage d’après le contrat, la donnée vit le temps de son traitement).
Encore le style pompeux et lourd de ChatGPT est facilement reconnaissable quand on le laisse “s’exprimer naturellement” (soyons clairs : il est chiant à lire). Mais il suffit d’un peu de prompt engineering pour gommer tout ça.
M’enfin, dans tous les cas vouloir rentre la totalité des textes générés publics serait un overkill envers la vie privée.
Pareil, j’ai basculé mon dernier PC (celui que j’utilise pour le taff) de Fedora à Manjaro la semaine dernière. La rolling release est un sacré confort d’utilisation pour moi, et après l’avoir utilisée en “à côté” pendant une paire d’années, j’avais basculé ma machine principale dessus voyant sa stabilité (mon PineBook Pro tourne avec son image Manjaro d’origine, acheté en 2020, zéro incident d’upgrade dessus depuis). De même elle est réactive et la version semi-officielle Cinnamon est tout comme j’aime
Et bordel merci la mine d’Or qui s’appelle AUR. Quel bonheur de ne plus avoir à installer des foutus snap ou flatpak ou autres appimages que je déteste !! L’OS et ses composants sont bien maintenus cette fois par pacman là où avant je devais m’assurer que DNF tournait bien, que les flatpak jamais mis à jour le soit, que les AppImage couinaient “hé faut DL la dernière version” comme des stupides exe à la Windows. Et vu que PackageKit m’avait tanké une upgrade Fedora la seule et unique fois où j’ai voulu l’utiliser pour ça, autant dire que je l’ai remisé.
En fait j’ai retrouvé tout ce que j’ai perdu petit à petit sur Fedora avec cette distrib. Un environnement cohérent et un package manager qui marche du tonnerre (alors que dnf est une bombe).
Presque rien à voir, ce week end en publiant un ebook sur Amazon Kindle, j’ai découvert que la plateforme a rajouté un critère IA depuis le précédent livre que j’ai publié dessus (probablement à cause de tous les bouquins balancés comme ça dessus générés ainsi).
Problème : les livres que j’ai publié ont été écrits par moi-même (même si parfois j’ai eu un peu d’aide pour organiser le plan projet par ChatGPT, ça s’arrête là). Par contre j’ai généré les couvertures avec StableDiffusion.
Si je dis “Oui j’ai utilisé de l’IA”, je dois indiquer à quel degré pour :
Le texte
Les images
Les traductions
Mais pour chacun d’entre eux, il n’y a aucun niveau disant : “Pas d’IA utilisée pour ce critère”.
Résultat, j’ai mis non… La déclaration reste optionnelle. L’idée a un intérêt, mais il est regrettable de voir qu’ils n’ont pas été assez granulaires.
Pour les photos tu peux regarder du côté d’une instance Pixelfed. Après je ne sais pas si ça a les mêmes travers d’usage que Instagram comme tu cites, n’utilisant ni l’un ni l’autre.
Niveau hébergement gratuit, perso j’en connais plus depuis longtemps. Je suis au full payant que ce soit à une époque via un serveur dédié / VPS, et depuis quelques temps j’ai tout repassé en managé chez Infomaniak.
Mon blog photo est produit avec Hugo et hébergé dessus. J’ai l’offre standard d’Infomaniak à quelques 80€/année qui permet jusqu’à 20 sites et 250GB de stockage. Ah tiens en revérifiant le prix de l’offre, ils ont une offre Starter gratuite. Mais pour un besoin photo c’est mort, c’est spécifiquement réservé à une page perso simple type CV vu que y’a que 10MB de stockage
Ou alors la méthode va être différente. Car c’est pas possible qu’ils retirent la possibilité de mettre ses propres certificats. Ca serait perdre la possibilité d’utiliser une PKI pour les applications internes d’une entreprise, ce qui est insensé.
Le
09/09/2023 à
13h
25
J’ajouterai à ça l’entre deux, où le protocole de communication chiffre la donnée malgré un tuyau en clair sans recourir à un échange de clés. C’est une méthode relativement faible, mais c’est par exemple un des moyens de chiffrement du flux pour la connexion à une DB Oracle pour éviter de faire un échange de certificats entre le client et le serveur. C’est le client Oracle qui gère le chiffrement des requêtes et le déchiffrement des données reçues par le serveur.
Après, il y a aussi un détail qu’on oublie dans le chiffrement type TLS avec certificat : pendant longtemps, ces certificats ont coûté (et c’est toujours le cas) une blinde. On pouvait (et peut) évidemment faire de l’auto-signé, mais ça n’était viable que pour un cas d’usage privé sinon on retombait dans le travers de l’échange de clés. Sans un Let’s Encrypt, je doute qu’on serait en quasi full HTTPS sur le Web de nos jours. C’est d’ailleurs sur ça que repose les certificats gratuits de la plupart des hébergeurs Web que je connais.
Bref, plutôt que des intentions X ou Y, pour moi c’est avant tout le fait que les solutions de chiffrement de données s’adressaient aux entreprises et aux gouvernements (car prohibitives pour un particulier) qui fait qu’on a mis du temps à voir ça se généraliser.
Le
09/09/2023 à
10h
47
Le chiffrement de la donnée reste une problématique qui a été travaillée depuis longtemps, le DES d’IBM date du début des années 1970 (ainsi sur le HSM). C’est surtout le développement de SSL/TLS avec sa première publication en 1995 qui a beaucoup accéléré les choses (HTTPS a été spécifié pour ainsi dire en même temps). Mais pour le coup, la sécurisation de l’échange restait bien une chose déjà considérée à l’époque.
DES, c’était une demande du gouvernement US au début des années 1970.
Quant à SMTP, au même titre que HTTP il est étendu pour supporter SSL/TLS (STARTTLS).
J’utilise Cryptomator pour sauvegarder des dossiers importants sur mon kDrive, et je n’ai aucun soucis à l’upload ;-)
Merci pour ces confirmations
Le
08/09/2023 à
15h
24
pierreonthenet a dit:
Dans ton cas, pourquoi n’utilises-tu pas un Bitwarden auto-hébergé (vu ton niveau) ? (Je repose la question que tu n’as peut être pas vue, car je l’ai ajouté par édition de mon précédent message et que j’aimerais vraiment avoir ton point de vue.)
Oups, je n’avais pas vu la question.
Parce que le fichier kdbx synchronisé me convient amplement. Je n’ai plus envie d’avoir à maintenir d’outils auto hébergés, cf #21.
De plus, la base de passwords est un fichier critique qui requiert une très forte disponibilité. C’est la raison pour laquelle sur le smartphone elle est synchro en mode offline pour rester disponible en cas d’absence du réseau (et sur mes différents PC, c’est le dossier qui est systématiquement activé en synchro). Je ne sais pas si Bitwarden propose un cache offline.
Le
08/09/2023 à
12h
21
Mmmh je pense voir le principe, ça ressemble à ce que rclone peut faire en synchronisant et chiffrant à la volée un storage en ligne, mais en mieux managé.
J’essayerai d’y jeter un oeil, merci pour le partage.
J’ai juste une crainte à vérifier, c’est si l’upload ne serait pas bloqué par une éventuelle protection anti ransomware. Je n’ai pas vu d’élément dans la FAQ Infomaniak qui en parlait, mais vu que leur backend semble très proche de Nextcloud (le client de synchro est un fork de celui de NC ou OC, je sais plus) et que celui-ci a ces options..
Edtech a dit:
Perso, je mets la base sur un NextCloud hébergé sur une machine chez moi 😊 Il existe d’ailleurs une extension NextCloud pour ouvrir la base Keepass depuis le site web.
C’est ce que je faisais aussi à l’époque où j’avais encore NC en auto hébergé (chez moi, puis sur un serveur OVH). L’extension Keeweb était très pratique.
Mais par la suite j’ai fait le choix de passer sur kDrive pour ne plus avoir à manager Nextcloud. L’une des raisons était que le serveur OVH avait été migré dans le Cloud de manière un peu trop forcée, à Strasbourg. Même si j’ai pu jouer un DRP assez facilement (en gros : resynchro le local sur la nouvelle instance, après l’avoir upload en urgence sur un object storage chiffré “au cas où”), c’est quelque chose pour lequel je ne veux plus consacrer de temps à titre perso.
J’ai fini par tout basculer en SaaS et PaaS, majoritairement chez Infomaniak (que je connais depuis …. 20 ans et en qui j’ai confiance) et OVHCloud pour des usages ponctuels.
Le
08/09/2023 à
10h
59
pierreonthenet a dit:
Je vois que tu vas loin dans la sécurité, et c’est sûrement très bien. Par contre, comment fais-tu pour partager un mot de passe avec ta moitié (le compte EDF, par exemple), avec ces solutions techniques ?
Je n’ai pas ce cas d’usage, c’est bien pour ça que je parlais d’évaluation à sa propre situation.
Dans tous les cas, le partage de mots de passes est insensé pour moi. Trop de risques de fuite et de perte de maîtrise. Le mot de passe c’est comme un slip. J’ignore si l’espace client EDF permet de créer plusieurs identités pour consulter un contrat, j’imagine que c’est possible en rattachant le contrat à l’espace personnel de plusieurs personnes. Mais j’ai de forts doutes dans la mesure où bon nombre de services en ligne ignorent les rudiments de la sécurité IT…
Le
08/09/2023 à
09h
31
Alors oui, mais ça fait longtemps que Keepass existe et trop peu de monde l’utilise : c’est parce que avoir son coffre fort à un seul endroit est trop contraignant (pour pleinde raisons) pour être utilisé par la majorité. Même moi, qui suis plutôt porté “sécurité”, je le trouve inutilisable concrètement. Et ne me parlez pas de mettre le coffre-fort sur un cloud type OneDrive : ça revient au même que d’utiliser un service comme Bitwarden, mais avec probablement moins de sécurisation du coffre-fort au final…
Pour moi, y’a pas de meilleur ou moins bien, juste des choix et une évaluation propre à soit-même.
Perso, je préfère KeepassXC synchro sur kDrive et cet outil le supporte à merveille. Oui, c’est la même problématique avec les mêmes risques qu’un service en ligne, on est d’accord. Cela dit, KeepassXC supporte une intégration navigateur et avec l’agent SSH qui permettent d’éviter de sauvegarder des clés privées ou des secrets dans des outils tiers. Côté smartphone, KeepassDX (un autre compatible kdbx) est capable d’utiliser un schema d’authent pour déverrouiller la base au lieu de taper la clé sur ces claviers de merde, et il s’intègre aussi en “MagicKeyboard” pour la saisie. Et comme je n’ai aucune confiance dans les smartphones qui sont trop obscurs dans leur fonctionnement, celui-ci est spécifiquement configuré pour ouvrir la BDD en lecture seule.
Mais dans tous les cas, cela fait partie d’une hygiène plus globale : le MFA est utilisé systématiquement, les données de la base Keepass régulièrement modifiées, la base est sauvegardée en 3-2-1 au même titre que le reste de mes données sur kDrive. Et j’aimerais bien qu’Infomaniak se sorte les doigts pour mettre en oeuvre le BYOK pour le chiffrement car ça commence à être un gros manque. En attendant je fais sans et les données les plus importantes et confidentielles pour lesquelles j’ai besoin d’une synchro sont sur un container VeraCrypt. Côté chiant, resynchro un container de 5GB (j’ai préféré voir large) ça prend du temps. Là aussi, c’est un choix.
L’autre différence qui fait que je n’aime pas un service en ligne spécialisé : le principe commercial du Cloud est de prendre en otage des données du client et de lui faire subir un vendor lock-in. Un changement dans les offres, une offre gratuite qui va se retrouver plus bridée subitement, perte de fonctionnalités qui demandent à payer, offre payante qui peut bouger (la mode du premium++++ chez les Cloud provider bat son plein). A l’inverse, si kDrive reste du Cloud, son seul et unique but est d’être un stockage en ligne synchronisé sur mes différentes machines. Si demain Infomaniak fait de la merde, je peux me barrer comme un rien sans rien perdre de mes usages car tout le contenu de mon kDrive est synchronisé en local.
Là où j’ignore quelles sont les capacités de réversibilité d’un LastPass et équivalent.
Le
08/09/2023 à
06h
48
pierreonthenet a dit:
Maintenant, est-ce que ça serait pareil avec les autres systèmes, comme 1Password ou Bitwarden, ou est-ce inhérent à LostPass ?
D’ordre général, il faut se dire que tout service en ligne peut être exposé à une fuite de données. Donc le considérer comme vulnérable et prendre les précautions adéquates pour limiter le risque.
le régulateur britannique, n’appliquerait cette disposition « que lorsque [les détections automatiques] seront techniquement faisables et rempliraient les critères minimaux de détection des contenus pédopornographiques ».
Dans la mesure où c’est chiffré de bout en bout, un tel dispositif ne pourrait être mis en oeuvre que du côté client. Sinon ce serait détruire la confidentialité de l’échange.
Mais bon, à force de surveiller le “high tech”, les personnes ayant besoin de confidentialité dans leurs échanges vont finir par revenir à quelque chose de plus “low tech”, genre un courrier papier. Certes plus lent, moins facile de garder un relatif anonymat mais pas impossible, mais pour le coup, jamais inquiété par toutes ces volontés de détruire la confidentialité des échanges au nom de Bonne Intention Numéro 21.
L’autre moyen entre deux était aussi les échanges via clés USB cachées dans des endroits publics. Mais là dessus c’est une pratique qu’on pourra qualifier de à risque. Il faut mieux le faire avec une machine sacrifiable.
(quote:2151409antonQ-Robespierre) Ah oui, j’allais oublier : l’analyse du temps de réponse / des hésitations / des mouvements de la souris peuvent être en soi de précieuses données préliminaires, qui vont conforter l’analyse des réponses.
C’est déjà ce qui est fait pour le mode “clic sur une case à cocher”.
Pour ma part, dans la mesure où ces dispositifs ont ironiquement servi à entraîner de l’IA, il ne m’étonne pas de voir celle-ci savoir les déjouer de nos jours. Et vu sa progression, je pense qu’il va être difficile de trouver un bon équilibre dans le domaine.
Le
07/09/2023 à
20h
39
(quote:2151385antonQ-Robespierre) Je ne pense pas qu’il faille être bac+10 pour répondre à une simple question de type “que feriez vous ?”. C’est vraiment très simple, il suffit d’imaginer la situation.
C’est là où je ne suis pas vraiment d’accord car c’est très subjectif et propre à l’intellect de chacun.
Et dans tous les cas, je le redis : un LLM va réussir.
La meilleure approche dans cette situation dépend de l’animal en question et des circonstances. Voici ce que vous pourriez faire en fonction de la situation :
Tirer sur l’animal ou utiliser un objet contondant : Cette option est généralement déconseillée, sauf si l’animal présente un danger imminent pour votre sécurité ou celle des autres, par exemple s’il s’agit d’un animal sauvage agressif comme un animal blessé ou enragé. Dans la plupart des cas, c’est une mesure de dernier recours et vous devriez privilégier d’autres méthodes pour déplacer l’animal.
Klaxonner et produire du bruit : C’est une bonne première étape pour essayer de faire réagir l’animal et le faire quitter la route sans le blesser. Cependant, assurez-vous de ne pas mettre en danger les autres usagers de la route en klaxonnant de manière excessive.
Créer un contact amical ou affectif : Cette option pourrait être envisageable avec des animaux domestiques, mais cela dépend de la situation. Si vous êtes sûr que l’animal ne représente pas de danger et qu’il est disposé à interagir, vous pourriez essayer de l’encourager à vous suivre doucement hors de la route. Cependant, ne tentez pas cela avec des animaux sauvages ou potentiellement dangereux.
Appeler les services appropriés : C’est généralement la meilleure action à entreprendre. Appelez immédiatement les services locaux compétents, tels que les pompiers, la police, la gendarmerie ou les services de la faune, et décrivez la situation en détail. Ils ont l’expérience et les ressources pour gérer ces situations en toute sécurité pour l’animal et les personnes concernées.
Il est essentiel de prendre en compte la sécurité de tous les acteurs impliqués, y compris l’animal, les automobilistes et vous-même, tout en minimisant les risques pour tous.
4 J’appelle immédiatement les services concernés (Pompiers, Municipalité, Gendarmerie, etc.) et leur décrit la situation.
Le
07/09/2023 à
19h
01
(reply:2151374antonQ-Robespierre)
Ce test peut-il être facilement résolu par un attardé dans mon genre ?
Je dis ça car ça me fait déjà bien suer de cliquer sur des toilettes pour chiens ou moyens de locomotion de donneurs d’organe sur des images. Répondre à des questions pièges digne d’une certification de Cloud Provider à rallonge risque d’être un sacré blocage pour tout le monde.
Après, en début d’année il y avait eu une petite frénésie sur le fait que GPT-4 aurait passé le test de Turing, même chose récemment pour le modèle de Google. Mais trop d’infos contradictoires pour distinguer le vrai du bullshit dans cette histoire (GPT-5 serait prévu en fin d’année et plus proche de l’Artificial General Intelligence que le sont GPT-3 et 4 qui sont considérés comme “narrow AI”).
Donc au vu de la progression des LLM, j’ai des doutes que de l’analyse de texte soit une bonne barrière vu que ces modèles excellent de plus en plus dans le domaine. Et rendre trop compliqué la question exclurait une partie de la population.
Le
07/09/2023 à
15h
59
(reply:2151338antonQ-Robespierre)
Justement, de mon point de vue non, avec un LLM comme GPT établir une question / réponse ne permettrait pas de bloquer une machine. J’ai cité Auto-GPT car c’est exactement ce qu’il fait. Il s’agit d’une implémentation de GPT qui a pour but de résoudre un problème en utilisant d’autres LLM. De ce fait, Auto-GPT génère des prompts et des challenges pour les autres outils jusqu’à ce qu’il considère le problème comme résolu et sans intervention de prompt humain.
En résumé : Auto-GPT est un modèle GPT qui utilise d’autres LLM pour travailler.
De plus, il faut éviter que la question soit impossible à répondre pour un humain lambda. Des tests de robots purement textuel, il en existe qui sont très simple : résoudre une opération mathématique basique (genre 4 + ? = 6, 7 + 3 = ?, etc). Sauf que de nos jours, les modèles de language savent résoudre ces problèmes.
Pour l’exemple de complexité, j’ai demandé à ChatGPT de générer une question de culture générale aléatoire.
Quel célèbre artiste néerlandais est connu pour ses œuvres telles que “La Nuit étoilée” et “Les Tournesols” ?
Bah perso à chaud je sais pas que c’est Van Gogh. Et si pour rentrer sur un site faut aller se taper une recherche sur Wikipedia, merci mais non merci. Là où le LLM n’aura aucun mal à répondre.
Ou alors j’ai mal compris là où tu veux en venir.
Pour reprendre un meme sur les CAPTCHA : une demande avec plusieurs partitions de musiques extrêmement fournies disant de sélectionner celle qui provoque telle émotion.
Le
07/09/2023 à
14h
53
(reply:2151333antonQ-Robespierre)
Ben je le subis tout autant, et je trouve ces CAPTCHA tout simplement abominables. Je ne faisais qu’expliquer la raison du bruit numérique sur les images.
Le
07/09/2023 à
13h
24
(quote:2151262antonQ-Robespierre) Tant qu’à parler de test, pourquoi ne pas proposer des questions aléatoires générées par une AI, qui trouverait là - enfin ! - sa vraie utilité…? Et en caractères lisibles SVP, merci !
Je doute que ce soit efficace, c’est justement le fonctionnement d’Auto-GPT.
Quant aux images pixellisées, c’est justement fait exprès. Le bruit numérique rend la lecture par l’IA difficile… Et l’humain aussi d’ailleurs.
Quand tu bosse avec de l’industrie qui produit / conditionne a la chaîne tu prends de bonnes assurances ;) Entre le gars qui se gamelle dans un local réseau ou qui “éternue” sur une jarretière mal branlée, enedis qui coupe la mauvaise ligne HT pour de la maintenance ou autres fait plus ou moins folkloriques tu te rends compte qu’il suffit parfois de moins d’un homme pour faire tomber une infra. Et fun fact, ces 3 exemples sont du vécu
EDF qui coupe le mauvais bâtiment : vécu aussi. Ce fut un beau défilé d’admins dans le bureau du pilotage (qui était le seul à avoir des PC ondulés) pour arrêter la salle serveur. Et une belle nuit blanche aussi après que l’électricité ait été rétablie.
En vrac :
IBM qui débranche la mauvaise baie de disque pour une intervention (pour résoudre un problème de failover qui ne marchait pas, et évidemment le tech a arrêté l’active…)
Des serveurs qui ont été démontés par erreur
Une petite perle, le dd sur la mauvaise partition. DRP express bonjour
Le
07/09/2023 à
08h
32
Ah oui, du classique aussi
Cela dit, de la base de données qui s’arrête pour cause de capacité mal estimée ou sur activité que le système derrière ne peut encaisser, ça arrive. Après, sans connaître l’infra il est difficile de dire autre chose que du yaka faukon. Et si ça arrive trop tard, les actions de remédiation à la hâte peuvent engendrer de véritables catastrophes allant jusqu’à la corruption des données. Comme indiqué dans le communiqué, leurs back-up semblaient aussi avoir été impactées par l’incident.
Perso dans mon expérience, je n’ai pas connu une seule instance de DB Oracle qui n’a pas pétée en archivelog full lors de sa mise en service. La désactivation des archivelog pour les init de base de données était systématiquement oubliée. Et c’est d’autant plus con quand la remontée d’alerte vient des utilisateurs de l’ERP parce qu’il affiche une stack avec un gros ORA-00257 (de mémoire) tout rouge à l’écran.
Le
07/09/2023 à
06h
42
Sylan a dit:
356 millions de dollars pour un simple FS full ?
En industrie, un arrêt d’une chaîne de production ça chiffre très très très vite car il y a un tout un effet de cascade. Surtout quand elle marche en flux tendu.
C’est con de se dire qu’après toutes ces années, le classique incident des espaces disques remplis qui stoppent l’IT se produisent encore. La supervision semble un peu défaillante là bas.
Essayes de bannir quelqu’un d’un réseau social, tu verras le parcours du combattant. Rien que sur Instagram, tu peux oublier, tu peux même insulter joyeusement qui tu veux, il est “impossible” de le faire bannir, juste le bloquer pour qu’il ne t’envoie plus de messages. C’est tout
En soit, bloquer une personne toxique n’est-il pas déjà une bonne chose ? A défaut d’avoir une sanction globale sur cette personne, la bloquer permet déjà de réduire son impact sur soit-même.
D’ailleurs, est-ce que ces sites permettent de définir différents niveau pour pouvoir recevoir des messages ? Genre ne pas autoriser les messages d’une personne inconnue, etc.
Sur Mastodon on peut bloquer les notifications ou messages directs de personnes qu’on ne suit pas ou qui ne nous suivent pas. Dans le second cas, un profil peut activer le fait de valider qui peut le suivre.
Le
06/09/2023 à
15h
40
Encore une demi mesure.
Supprimons la Justice en France : c’est lourd, c’est lent, ça coûte cher, c’est laxiste, ça met 500 ans à condamner quelqu’un de déjà condamné dans l’opinion publique, ça n’empêche pas les récidives, et pire encore ça peut rendre une décision contraire à la ce que la vindicte populaire a déjà prise à l’avance sans avoir tous les tenants et aboutissants et donc c’est corrompu et acheté.
Bref, dégageons tout ça, laissons la société vivre par l’arbitraire et les décisions unilatérales administratives sans recours. Ca fera des économies dans le budget de l’Etat après tout.
Non, les autres autorités n’ont pas approuvé, mais elles n’ont pas contesté avec des arguments recevables (selon la DPC) dans le délai imparti (qui n’est pas précisé). La plainte datant du 22 décembre 2022 et la décision ayant été publiée le 20 juillet 2023, il est possible que le délai ait été inexistant ou trop court.
Le délai de réponse des autres autorités de contrôle lorsque le chef de file soumet une demande d’assistance est de quatre semaines (article 60(4) du RGPD). Si une objection est soumise par une autorité de contrôle, le délai de révision de la décision est de deux semaines (article 60(5)).
Dans le cas de cette procédure, l’article 60(6) se traduit par “qui ne dit mot consent” : en l’absence d’objection, les autorités de contrôle sont réputées approuver le projet de décision.
Si le développement de l’IA manque d’ouverture, ainsi que l’entraînement par les grandes entreprise (ce qui est clairement un souci), il ne faut pas oublier l’existence de tout un monde open source dans le domaine.
Notamment présent sur Hugging Face où l’on peut retrouver les sources de nombreux datasets et modèles que ce soit pour du texte ou de l’image. Hugging Face qui a récemment encore eu une forte levée de fonds et beaucoup d’investissement de la part des grosses entreprises de l’IT.
Entreprise fondée par trois français à New York, accessoirement.
Cela dit, ça ne m’étonnerait pas qu’ils finissent pas se faire racheter, probablement par Microsoft vu que le service est similaire à GitHub car essentiellement basé sur Git.
C’est effectivement un des défauts de cet outil que j’avais constaté assez rapidement quand j’ai commencé à l’utiliser. Il ne sait pas dire “je ne sais pas” car c’est pas son but : il est là pour poursuivre l’écriture d’un texte et c’est ce dans quoi il excelle. Il n’est pas fait pour répondre à des questions, c’est un travers de la comm’ d’OpenAI qui m’a fortement agacé tellement elle a propagée de fausses idées sur l’utilisation de GPT.
Si on veut utiliser GPT en mode assistant de recherche d’information, il faut lorgner du côté des implémentations où le modèle est alimenté par une recherche d’information. Typiquement quand on regarde sur Bing (et comme feu le mode Web de ChatGPT), il va lancer une recherche avec des mots clés reprenant les éléments les plus importants du contexte (car c’est comme ça que GPT raisonne pour faire simple), puis il synthétise les résultats obtenus.
Et sur ce cas d’usage, c’est tout simplement génial pour dégrossir un sujet avant d’aller en profondeur. Je l’ai fait plusieurs fois pour avoir des comparaisons rapides d’infos publiques sur des solutions techniques, ça fait gagner un temps fou. Le problème, c’est que ces implémentations sont bridées soit à cause de restrictions type légal (Bing m’a déjà craché plusieurs fois “je peux pas copyright toussa”) ou encore contexte trop lourd qui fait que la requête est trop coûteuse et échoue ou est incomplète.
Je le dis depuis un bail sur NXI : GPT n’est pas Oracle-qui-sait-tout-et-voit-tout. Il ne sait rien, il n’a pas de mémoire, il n’apprend pas non plus. J’ai plusieurs fois parlé de “base de connaissances”, mais c’est plus une image pour illustrer le fait que ses connaissances sont issues de connexions entre des mots.
Quand je dis qu’il comprend le contexte de la requête, c’est parce que son modèle de raisonnement agit par déconstruction du prompt et analyse de celui-ci pour produire la suite. Chaque mot est analysé unitairement par rapport à celui qui le précède avec une attention déterminée par un jeu de poids et de probabilités, vérifiant les concordances de mots en fonction des clés qui les lient, les valeurs obtenues sont mixées ensemble et derrière il produit la prédiction finale du prochain mot. GPT utilise 12 ensembles par mot pour évaluer le contexte (c’est l’étape du decoder), concaténer les possibilités et produire le résultat final.
Pour ton propre exemple, cela ne m’étonne pas : dès qu’on demande des choses très précises, le modèle affiche ses limites. Ce qui est normal, c’est pas un moteur de recherche. Il a fait ce qu’il savait faire : poursuivre le texte. Mais comme il a manqué de connexions, il s’est retrouvé à côté de la plaque.
Pour moi, une bonne implémentation de GPT se fait en utilisant un modèle bien entraîné (car mieux il est entraîné, mieux il comprendra les prompts et sera cohérent) et surtout, en lui donnant des inputs pour qu’il puisse lire le contenu, extraire les infos demandées et les restituer.
C’est le genre d’implem pour entreprise qui se propose de plus en plus où le client a une instance du modèle à qui il ajoute un entraînement complémentaire pour ses données (de préférence des données qui ne bougent pas, si ce sont des données vivantes il vaut mieux que le modèle aille les chercher auprès du référentiel adéquat) et qui permet ainsi de faire interface avec des clients ou du personnel. Utiliser le modèle seul n’a aucun sens car il atteindra vite ses limites.
Le
06/09/2023 à
06h
51
Je ne suis pas d’accord avec ton exemple. Tu vas essayer de déduire de l’environnement, de l’heure, de la gestuelle ce qui disent des personnes dont tu ne comprends pas le langage. ChatGPT va simplement trouver la suite de caractères qui corrèle le mieux avec la suite bde caractère que tu lui as envoyé, en utilisant les milliards de milliards de suites de caractères qu’il a scanné sur le net. C’est bluffant et on a l’impression qu’il “comprend” ce qu’on lui demande mais il n’y a aucune comprehension là dedans !
Dans la mesure où ce débat existe aussi au sein de la recherche sur l’intelligence artificielle, on risque d’être difficilement d’accord. J’ai exposé mon point de vue de personne utilisant ces outils depuis le début de l’année (que ce soit ChatGPT, celui de Bing, le Copilot de GitHub, LLaMA sur ma machine, ou encore StableDiffusion aussi sur ma machine) et étudiant aussi leur intégration concrète dans un SI avec leurs forces et faiblesses.
Le
05/09/2023 à
16h
01
wagaf a dit:
D’ailleurs Google avait en interne une techno équivalente ou supérieure à ChatGPT depuis des années et n’en faisait strictement rien. Quand ChatGPT est sorti, ils n’ont rien fait d’autre que de le copier à l’identique et ont suivi Microsoft sur les fonctions dans Office… et c’est tout. Bref, juste le strict minimum exigé par les marchés, et tant que Pichai sera là ça ne risque pas de s’améliorer.
Ce qui est ironique, c’est que le T de GPT (Generative Pre-trained Transformer) vient de Google.
fry a dit:
c’est un très mauvais terme, la machine ne comprend rien du tout, elle formule des réponses qui statistiquement (pour résumer, même si c’est plus complexe que des statistiques) sont cohérentes avec les mots présents dans la demande, grosse nuance, et considérer que la machine comprend, s’est s’exposer à de très grosses déceptions quand la réponse se trouve être une des fameuses hallucinations …
Du point de vue de l’utilisateur, un outil basé sur GPT comprend la requête puisque concrètement, GPT poursuit l’écriture d’un texte. Il ne sait pas de quoi il parle, mais il génère quelque chose de cohérent avec le contexte avec plus ou moins d’aléatoire selon la latitude qu’on lui donne. C’est de cette forme de compréhension dont je parle. Là où les chatbots un peu plus standard sont (de mon expérience perso) à côté de la plaque les 3⁄4 du temps.
Tout comme la contextualisation du modèle se fait via un prompt : on donne un ordre principal au modèle du type “tu es un chatbot pour faire X tu ne réponds qu’aux questions relatives à l’enseigne et ne parle pas de la concurrence” (c’est très simplifié). Ce prompt est injecté dans le contexte des discussions avec l’utilisateur final pour garder cet ordre. Et d’un certain point de vue, cet ordre est compris par le modèle et associé à la requête de l’utilisateur. Les hallucinations sont notamment causées par le contexte lorsqu’il devient trop gros. C’est l’une des raisons pour lesquelles le chatbot de Bing est limité à 30 échanges, pour éviter de partir en couille comme ChatGPT peut le faire quand on travaille sur le même contexte depuis 6 mois.
Même si derrière c’est que du compute et de la statistique (c’est d’ailleurs ce qu’on appelle le “AI effect”), il n’en demeure pas moins que l’outil comprend la requête utilisateur puisqu’il a justement pour but d’être cohérent avec le contexte. Il ne comprend pas le sens des mots qui lui sont envoyé, ni même celui de ceux qu’il génère, mais il comprend la corrélation de ceux-ci, leur contexte, et génère la meilleure suite possible. C’est bien une forme de compréhension, au même titre que tu peux comprendre ce qu’on te dit dans une langue étrangère sans même savoir la parler car les infos contextuelles t’ont aidé (et perso je l’ai plus d’une fois vécu dans la mesure où je travaille beaucoup dans des contextes internationaux, des cas de conversations entre les personnes où je n’avais aucune idée de ce qu’ils disaient, mais je comprenais quand même).
Le
05/09/2023 à
09h
58
Pourtant, note le média économique, qu’on parle d’ « hallucinations », de « dérives » ou de « dégradations », les modèles d’IA n’ont pas terminé de dévoiler les dysfonctionnements qui poussent à la prudence avant de les déployer à large échelle.
L’hallucination des LLM n’est pas un dysfonctionnement.
L’apprentissage machine et les modèles de régression, après tout, existaient avant que ChatGPT ne devienne public.
Bien sûr, et l’IA générative n’est rien de plus que l’évolution d’une discipline aussi vieille que l’informatique elle-même.
Après, si évidemment il y a une forte hype des investisseurs sur le sujet, je trouve qu’il y a quand même une grosse différence entre les cryptomonnaies et l’IA générative. Les cryptos n’ont jamais été concrètes à mes yeux, peut-être aussi parce qu’elles ne m’ont jamais vraiment intéressées non plus. Je leur ai jamais vu aucune utilité ni incidence dans la société. A part pour la spéculation autour d’elles, j’en entendais jamais réellement parler. Pareil pour les NFT ou encore le metavers où j’ai pu assister à diverses présentations sur le sujet de la part de boîtes qui avaient des trucs à vendre. Dans le concret, pas grand chose à apporter.
L’IA générative, elle est concrète, elle est utilisée, elle produit (des offres de low code / no code sont basées dessus), et elle a un impact sur la société (d’où les questions de l’emploi / remplacement de personnel, propriété intellectuelle, etc). Il y a des cas d’usage où elle est appliquée, elle est utilisée, et elle apporte un gain significatif en matière de qualité des interactions humain/machine (chatbots qui comprennent de quoi on parle et dialoguent de manière plus naturelle, les assistants vocaux qui vont se baser dessus, le niveau 1 de prise d’appel client qui est en train d’arriver, etc).
Mais dans tous les cas, il y a un fort engouement, des boîtes qui se créent, vont se créer, et se vautrer comme à chaque ruée vers l’or.
Les moteurs de recherche exploitent aussi les contenus qu’ils indexent.
Le
05/09/2023 à
06h
51
5francs a dit:
Je ne vois pas pourquoi je les aiderais à écrire leurs articles ou à trouver des informations dans les tréfonds du web.
ChatGPT ne permet pas de faire ça, ce n’est pas un moteur de recherche et le mode Web a été supprimé pour des problèmes de copyright. Sachant que le mode Web donnait la source des informations, comme le fait Bing.
Comme le siège européen de Worldcoin se trouve dans la ville allemande d’Erlangen, la Commission enquête depuis plusieurs mois avec son homologue bavarois sur la conformité de la société aux principes du Règlement général sur la protection des données (RGPD).
Cela dit, si la politique de vie privée de Worldcoin indique que l’antenne parisienne est responsable du traitement des données, cela rend la CNIL tout autant en capacité d’agir que son homologue allemand.
Merci Google pour avoir verrouillé le Web dans son propre intérêt, puis continué de tenter de le DRMiser, ainsi que persister de faire de la surveillance de masse des personnes.
sylvaing a dit:
Qu’il est loin, le temps que j’ai connu quand Google mettait sur sa page d’accueil qu’il n’y a pas de publicité affichée sur son site…
Ironique quand on voit que c’est le premier acteur de la publicité en ligne.
L’hébergeur suisse Infomaniak avait communiqué il y a quelques mois sur le sujet. Son data center va alimenter le canton de Genève en chaleur à partir de 2024, il est fait avec des composants au maximum issus d’industriels suisses/européens, et tourne à l’énergie renouvelable.
Evidemment cela reste un gonflage de torse, mais ça contraste beaucoup avec les discours alarmistes peu crédibles comme celui-ci.
Ouais les animaux ont tendance à moins se compliquer la vie
Le
04/09/2023 à
15h
24
D’après Ariane Group le programme Ariane était nommé en référence au fil pour le lien entre la Terre et l’espace.
Mais d’autres sources vues lors de la recherche indiquent aussi que l’un des choix du nom était que le projet avait pour ambition de sortir le programme spatial européen de l’impasse, après l’échec d’Europa (hasard ou pas, Europa, ou Europe, en français est aussi la grand mère d’Ariane dans la mythologie).
14082 commentaires
Infomaniak lance officiellement son application Mail
12/09/2023
Le 12/09/2023 à 16h 39
Prenons le cas des navigateurs Web.
Il y a un peu plus d’une décennie, plusieurs logiciels différents, des moteurs de rendu différents, de la concurrence, etc (Gecko avec Firefox, Trident avec IE, WebKit chez Apple, Presto chez Opera, etc).
Aujourd’hui, le Web a été privatisé par Google qui possède pour ainsi dire le protocole grâce à son écrasante domination avec Blink qui est la base de quasi tous les navigateurs du marché via Chromium (avec Webkit son original et le moteur de Firefox qui est devenu marginal dans son coin). Et régulièrement l’entreprise tente de le fermer ou d’accentuer son viol de la vie privée des personnes avec ses tentatives de DRM, contrôle, et autres méthodes de traque.
Pour moi c’est pas une question de réinventer la roue, c’est au contraire un besoin impérieux de retrouver de la diversité dans des services qui sont entre les mains d’acteurs hégémoniques pour lesquels je suis en désaccord avec leur vision de ce qu’est le Web. Perso ma vision est que le Web est ouvert et interopérable. La leur est que le Web est fermé et cloisonné.
Je suis donc pour à 100% l’arrivée d’acteurs supplémentaires qui “réinventent la roue”, mais qui en le faisant apportent de la diversité et surtout : du choix. Car pour reprendre l’exemple du navigateur Web, aujourd’hui celui-ci est un non choix.
Le 12/09/2023 à 05h 16
Je l’ai installée depuis sa sortie, vraiment très bien pour mon usage (peu intensif sur smartphone, principalement consultation). Le verrouillage de l’appli est pratique et l’interface est simple et efficace.
La fondation Google met 20 millions de dollars pour financer des projets étiquetés « IA responsable »
12/09/2023
Le 12/09/2023 à 16h 24
Pour compléter mon précédent message, un autre cas de biais dont l’IA peut souffrir pour la génération d’image est aussi causé par méconnaissance. Des modèles entraînés en mode “prude” avec des jeux d’entraînement n’intégrant pas la nudité se retrouvent moins efficaces que ceux qui l’ont intégré. Car l’absence d’information anatomique plus précise (grâce à la nudité) fait que le résultat est incomplet.
Le 12/09/2023 à 16h 20
“Débiaiser” l’IA est une chimère. Les jeux d’entraînement ne vont pas inventer une parfaite équité qui n’existe pas dans la réalité. Cet outil reste un reflet de ce qui existe.
C’est la raison pour laquelle l’approche est de considérer et accepter ces biais (avoir un biais n’est pas un défaut ni une tare, c’est un simple fait), les prendre en considération et s’assurer que le résultat produit par l’IA ne soit pas affecté par ceux-ci si le but est par exemple de trier des personnes (éviter des critères discriminants, ou des clichés sociétaux basés sur le sexe, religion, ethnicité, etc).
Personnellement je produis des images via StableDiffusion et je propose ce service. Dans l’offre, j’ai clairement précisé et rappelé que l’IA est biaisée. De ce fait, je demande lorsqu’il s’agit d’une mise en scène d’un personnage de préciser tous les critères de genre, ethnicité, type de corps, etc, attendus. Car les modèles ont vite tendance à rester sur certaines typologies (majoritairement caucasienne mais aussi beaucoup asiatiques, de nombreux modèles étant d’origine chinoise) que son entraînement lui aura potentiellement fait considérer comme étant un “standard” (donc biaisé) et qu’il faut donc compléter son résultat via les LoRA adéquat pour obtenir quelque chose au plus proche du résultat attendu.
Tout ça, ça s’apprend, ça se pratique, et ça se considère.
Le 12/09/2023 à 11h 25
Ce sont en fait des éléments qu’on voit beaucoup lors des formations autour de l’entraînement et l’utilisation des modèles d’IA générative. Outre la technique, ils parlent beaucoup de l’éthique autour avec les risques pour les personnes a cause des biais que l’IA peut avoir.
OVHcloud a mis à jour ses offres d’hébergement web : retour de Starter, « ressources CPU et RAM accrues »
07/09/2023
Le 11/09/2023 à 18h 54
Ah perso c’est pour une autre raison. Quand j’auto hébergeais encore mes mails, comme quasi tous les ranges IP d’OVH doivent être en blacklist, mon SMTP se faisait quasi tout le temps jeter.
Next INpact passera dans de nouvelles mains le 25 septembre
11/09/2023
Le 11/09/2023 à 18h 50
Tant mieux dans ce cas, et merci pour les précisions. Peut-être mes souvenirs sont-ils biaisés, mais à chaque fois je voyais trop de signaux contradictoires qui ne me rassuraient pas.
Le 11/09/2023 à 16h 49
Une augmentation des abonnements et ajout de services à valeur ajoutée ?
Des publications payantes unitaires (vu que Vincent m’avait confirmé que la rédaction étudiait l’idée de publier des dossiers en ebook ou autre) qui permettraient de toucher un public plus large via les nombreuses marketplaces ebook ?
Peut-être une segmentation de l’offre d’abonnement offrant plus ou moins de fonctions à valeur ajoutée ?
Une augmentation de la quantité de contenus pour gagner en attractivité ? Les longs articles riches d’information, c’est très bien, mais je crains que ce soit rédhibitoire pour beaucoup de monde (génération instantané, tout en vidéo, 140 caractères toussa) ?
Utiliser la technologie pour fournir les contenus en podcast via synthèse audio ? (ça peut être un service à valeur ajoutée pour un abonnement premium ++)
Une commercialisation du CMS sur lequel repose le site ?
Concernant les ambitions pour l’avenir, j’espère que le repreneur saura maintenir une ligne stable et améliorer l’existant tout en consolidant la base.
J’avais plusieurs fois émis des doutes concernant l’éparpillement de NXI avec tous les side-projects qui ont fini par disparaître / être revendus comme les bons plans forfaits, les comparateurs, le magazine papier, etc, qui phagocytaient les ressources alors que le flux principal était en berne. Si se diversifier et tenter des choses est positif, j’ai toujours considéré qu’il était mal venu de trop s’éparpiller quand on a une situation financière fragile là où consolider la base me paraissait essentiel.
C’est pour ça que je n’ai jamais voulu participer aux campagnes de soutien car j’avais toujours l’impression de voir un yo-yo de : on a des sous on lance plein de trucs, on a pu d’sous aidez-nous.
Bref, plus qu’à voir ce que le repreneur fera. En attendant, une bonne continuation pour votre autre projet professionnel.
La Commission européenne avertit la France qu’elle ne peut pas aller au-delà de ses règlements
11/09/2023
Le 11/09/2023 à 16h 54
Facile.
1 | 0.0.0.0 | ANY | ANY | DENY
Voilou.
Les outils de détection de contenus générés par des IA sont-ils efficaces ? « Non », selon Open AI
11/09/2023
Le 11/09/2023 à 16h 34
Encore sur l’image un watermark est possible. C’est même déjà une option activable (sans oublier que le contenu du prompt est écrit dans les metadata).
Par contre pour du texte, ça n’a aucun sens de vouloir archiver l’entièreté des contenus générés… GPT n’est pas censé être déterministe, donc il va généralement produire un contenu avec des variations. Et c’est pour ainsi dire déjà fait puisque les prompts et résultats obtenus sur ChatGPT sont conservés, analysés, et utilisés pour l’entraînement des modèles d’OpenAI. Mais leur accès est restreint à OpenAI. Au même titre que les prompts et suggestions de la version Personal de GitHub Copilot le sont (c’est la version entreprise qui ne fait pas d’archivage d’après le contrat, la donnée vit le temps de son traitement).
Encore le style pompeux et lourd de ChatGPT est facilement reconnaissable quand on le laisse “s’exprimer naturellement” (soyons clairs : il est chiant à lire). Mais il suffit d’un peu de prompt engineering pour gommer tout ça.
M’enfin, dans tous les cas vouloir rentre la totalité des textes générés publics serait un overkill envers la vie privée.
Manjaro 23 est disponible
11/09/2023
Le 11/09/2023 à 16h 20
Pareil, j’ai basculé mon dernier PC (celui que j’utilise pour le taff) de Fedora à Manjaro la semaine dernière. La rolling release est un sacré confort d’utilisation pour moi, et après l’avoir utilisée en “à côté” pendant une paire d’années, j’avais basculé ma machine principale dessus voyant sa stabilité (mon PineBook Pro tourne avec son image Manjaro d’origine, acheté en 2020, zéro incident d’upgrade dessus depuis). De même elle est réactive et la version semi-officielle Cinnamon est tout comme j’aime
Et bordel merci la mine d’Or qui s’appelle AUR. Quel bonheur de ne plus avoir à installer des foutus snap ou flatpak ou autres appimages que je déteste !! L’OS et ses composants sont bien maintenus cette fois par pacman là où avant je devais m’assurer que DNF tournait bien, que les flatpak jamais mis à jour le soit, que les AppImage couinaient “hé faut DL la dernière version” comme des stupides exe à la Windows. Et vu que PackageKit m’avait tanké une upgrade Fedora la seule et unique fois où j’ai voulu l’utiliser pour ça, autant dire que je l’ai remisé.
En fait j’ai retrouvé tout ce que j’ai perdu petit à petit sur Fedora avec cette distrib. Un environnement cohérent et un package manager qui marche du tonnerre (alors que dnf est une bombe).
Microsoft promet de protéger les clients de ses IA d’attaques pour violation du copyright
11/09/2023
Le 11/09/2023 à 16h 11
Presque rien à voir, ce week end en publiant un ebook sur Amazon Kindle, j’ai découvert que la plateforme a rajouté un critère IA depuis le précédent livre que j’ai publié dessus (probablement à cause de tous les bouquins balancés comme ça dessus générés ainsi).
La plateforme demande désormais de préciser si le contenu a été entièrement ou partiellement produit par IA générative et d’indiquer si celui-ci a été plus ou moins altéré ensuite. L’idée serait d’indiquer que l’auteur doit s’être assuré de n’avoir violé aucun copyright.
Problème : les livres que j’ai publié ont été écrits par moi-même (même si parfois j’ai eu un peu d’aide pour organiser le plan projet par ChatGPT, ça s’arrête là). Par contre j’ai généré les couvertures avec StableDiffusion.
Si je dis “Oui j’ai utilisé de l’IA”, je dois indiquer à quel degré pour :
Mais pour chacun d’entre eux, il n’y a aucun niveau disant : “Pas d’IA utilisée pour ce critère”.
Résultat, j’ai mis non… La déclaration reste optionnelle. L’idée a un intérêt, mais il est regrettable de voir qu’ils n’ont pas été assez granulaires.
C’est terminé pour les Pages Perso d’Orange
05/09/2023
Le 11/09/2023 à 05h 20
Pour les photos tu peux regarder du côté d’une instance Pixelfed. Après je ne sais pas si ça a les mêmes travers d’usage que Instagram comme tu cites, n’utilisant ni l’un ni l’autre.
Niveau hébergement gratuit, perso j’en connais plus depuis longtemps. Je suis au full payant que ce soit à une époque via un serveur dédié / VPS, et depuis quelques temps j’ai tout repassé en managé chez Infomaniak.
Mon blog photo est produit avec Hugo et hébergé dessus. J’ai l’offre standard d’Infomaniak à quelques 80€/année qui permet jusqu’à 20 sites et 250GB de stockage. Ah tiens en revérifiant le prix de l’offre, ils ont une offre Starter gratuite. Mais pour un besoin photo c’est mort, c’est spécifiquement réservé à une page perso simple type CV vu que y’a que 10MB de stockage
#Flock a des coups de chaleurs et ressuscite la Hadopi
09/09/2023
Le 10/09/2023 à 16h 23
Le 10/09/2023 à 12h 26
Un album de Metallica aurait été encore plus dans le ton vu que c’est eux qui avaient porté plainte contre Napster à l’époque
Reload peut faire l’affaire.
Détection des contenus pédosexuels : le « projet de loi européen le plus critiqué de tous les temps »
08/09/2023
Le 09/09/2023 à 20h 42
Ou alors la méthode va être différente. Car c’est pas possible qu’ils retirent la possibilité de mettre ses propres certificats. Ca serait perdre la possibilité d’utiliser une PKI pour les applications internes d’une entreprise, ce qui est insensé.
Le 09/09/2023 à 13h 25
J’ajouterai à ça l’entre deux, où le protocole de communication chiffre la donnée malgré un tuyau en clair sans recourir à un échange de clés. C’est une méthode relativement faible, mais c’est par exemple un des moyens de chiffrement du flux pour la connexion à une DB Oracle pour éviter de faire un échange de certificats entre le client et le serveur. C’est le client Oracle qui gère le chiffrement des requêtes et le déchiffrement des données reçues par le serveur.
Après, il y a aussi un détail qu’on oublie dans le chiffrement type TLS avec certificat : pendant longtemps, ces certificats ont coûté (et c’est toujours le cas) une blinde. On pouvait (et peut) évidemment faire de l’auto-signé, mais ça n’était viable que pour un cas d’usage privé sinon on retombait dans le travers de l’échange de clés. Sans un Let’s Encrypt, je doute qu’on serait en quasi full HTTPS sur le Web de nos jours. C’est d’ailleurs sur ça que repose les certificats gratuits de la plupart des hébergeurs Web que je connais.
Bref, plutôt que des intentions X ou Y, pour moi c’est avant tout le fait que les solutions de chiffrement de données s’adressaient aux entreprises et aux gouvernements (car prohibitives pour un particulier) qui fait qu’on a mis du temps à voir ça se généraliser.
Le 09/09/2023 à 10h 47
Le chiffrement de la donnée reste une problématique qui a été travaillée depuis longtemps, le DES d’IBM date du début des années 1970 (ainsi sur le HSM). C’est surtout le développement de SSL/TLS avec sa première publication en 1995 qui a beaucoup accéléré les choses (HTTPS a été spécifié pour ainsi dire en même temps). Mais pour le coup, la sécurisation de l’échange restait bien une chose déjà considérée à l’époque.
DES, c’était une demande du gouvernement US au début des années 1970.
Quant à SMTP, au même titre que HTTP il est étendu pour supporter SSL/TLS (STARTTLS).
La fuite de LastPass pourrait avoir causé plus de 35 millions de dollars de vols en cryptoactifs
07/09/2023
Le 09/09/2023 à 07h 55
Merci pour ces confirmations
Le 08/09/2023 à 15h 24
Oups, je n’avais pas vu la question.
Parce que le fichier kdbx synchronisé me convient amplement. Je n’ai plus envie d’avoir à maintenir d’outils auto hébergés, cf #21.
De plus, la base de passwords est un fichier critique qui requiert une très forte disponibilité. C’est la raison pour laquelle sur le smartphone elle est synchro en mode offline pour rester disponible en cas d’absence du réseau (et sur mes différents PC, c’est le dossier qui est systématiquement activé en synchro). Je ne sais pas si Bitwarden propose un cache offline.
Le 08/09/2023 à 12h 21
Mmmh je pense voir le principe, ça ressemble à ce que rclone peut faire en synchronisant et chiffrant à la volée un storage en ligne, mais en mieux managé.
J’essayerai d’y jeter un oeil, merci pour le partage.
J’ai juste une crainte à vérifier, c’est si l’upload ne serait pas bloqué par une éventuelle protection anti ransomware. Je n’ai pas vu d’élément dans la FAQ Infomaniak qui en parlait, mais vu que leur backend semble très proche de Nextcloud (le client de synchro est un fork de celui de NC ou OC, je sais plus) et que celui-ci a ces options..
C’est ce que je faisais aussi à l’époque où j’avais encore NC en auto hébergé (chez moi, puis sur un serveur OVH). L’extension Keeweb était très pratique.
Mais par la suite j’ai fait le choix de passer sur kDrive pour ne plus avoir à manager Nextcloud. L’une des raisons était que le serveur OVH avait été migré dans le Cloud de manière un peu trop forcée, à Strasbourg. Même si j’ai pu jouer un DRP assez facilement (en gros : resynchro le local sur la nouvelle instance, après l’avoir upload en urgence sur un object storage chiffré “au cas où”), c’est quelque chose pour lequel je ne veux plus consacrer de temps à titre perso.
J’ai fini par tout basculer en SaaS et PaaS, majoritairement chez Infomaniak (que je connais depuis …. 20 ans et en qui j’ai confiance) et OVHCloud pour des usages ponctuels.
Le 08/09/2023 à 10h 59
Je n’ai pas ce cas d’usage, c’est bien pour ça que je parlais d’évaluation à sa propre situation.
Dans tous les cas, le partage de mots de passes est insensé pour moi. Trop de risques de fuite et de perte de maîtrise. Le mot de passe c’est comme un slip. J’ignore si l’espace client EDF permet de créer plusieurs identités pour consulter un contrat, j’imagine que c’est possible en rattachant le contrat à l’espace personnel de plusieurs personnes. Mais j’ai de forts doutes dans la mesure où bon nombre de services en ligne ignorent les rudiments de la sécurité IT…
Le 08/09/2023 à 09h 31
Pour moi, y’a pas de meilleur ou moins bien, juste des choix et une évaluation propre à soit-même.
Perso, je préfère KeepassXC synchro sur kDrive et cet outil le supporte à merveille. Oui, c’est la même problématique avec les mêmes risques qu’un service en ligne, on est d’accord. Cela dit, KeepassXC supporte une intégration navigateur et avec l’agent SSH qui permettent d’éviter de sauvegarder des clés privées ou des secrets dans des outils tiers. Côté smartphone, KeepassDX (un autre compatible kdbx) est capable d’utiliser un schema d’authent pour déverrouiller la base au lieu de taper la clé sur ces claviers de merde, et il s’intègre aussi en “MagicKeyboard” pour la saisie. Et comme je n’ai aucune confiance dans les smartphones qui sont trop obscurs dans leur fonctionnement, celui-ci est spécifiquement configuré pour ouvrir la BDD en lecture seule.
Mais dans tous les cas, cela fait partie d’une hygiène plus globale : le MFA est utilisé systématiquement, les données de la base Keepass régulièrement modifiées, la base est sauvegardée en 3-2-1 au même titre que le reste de mes données sur kDrive. Et j’aimerais bien qu’Infomaniak se sorte les doigts pour mettre en oeuvre le BYOK pour le chiffrement car ça commence à être un gros manque. En attendant je fais sans et les données les plus importantes et confidentielles pour lesquelles j’ai besoin d’une synchro sont sur un container VeraCrypt. Côté chiant, resynchro un container de 5GB (j’ai préféré voir large) ça prend du temps. Là aussi, c’est un choix.
L’autre différence qui fait que je n’aime pas un service en ligne spécialisé : le principe commercial du Cloud est de prendre en otage des données du client et de lui faire subir un vendor lock-in. Un changement dans les offres, une offre gratuite qui va se retrouver plus bridée subitement, perte de fonctionnalités qui demandent à payer, offre payante qui peut bouger (la mode du premium++++ chez les Cloud provider bat son plein). A l’inverse, si kDrive reste du Cloud, son seul et unique but est d’être un stockage en ligne synchronisé sur mes différentes machines. Si demain Infomaniak fait de la merde, je peux me barrer comme un rien sans rien perdre de mes usages car tout le contenu de mon kDrive est synchronisé en local.
Là où j’ignore quelles sont les capacités de réversibilité d’un LastPass et équivalent.
Le 08/09/2023 à 06h 48
D’ordre général, il faut se dire que tout service en ligne peut être exposé à une fuite de données. Donc le considérer comme vulnérable et prendre les précautions adéquates pour limiter le risque.
La Grande-Bretagne renonce à la surveillance proactive des messageries chiffrées
08/09/2023
Le 08/09/2023 à 06h 56
Dans la mesure où c’est chiffré de bout en bout, un tel dispositif ne pourrait être mis en oeuvre que du côté client. Sinon ce serait détruire la confidentialité de l’échange.
Mais bon, à force de surveiller le “high tech”, les personnes ayant besoin de confidentialité dans leurs échanges vont finir par revenir à quelque chose de plus “low tech”, genre un courrier papier. Certes plus lent, moins facile de garder un relatif anonymat mais pas impossible, mais pour le coup, jamais inquiété par toutes ces volontés de détruire la confidentialité des échanges au nom de Bonne Intention Numéro 21.
L’autre moyen entre deux était aussi les échanges via clés USB cachées dans des endroits publics. Mais là dessus c’est une pratique qu’on pourra qualifier de à risque. Il faut mieux le faire avec une machine sacrifiable.
Petite histoire du CAPTCHA : création, évolutions et dérives
04/09/2023
Le 08/09/2023 à 06h 39
C’est déjà ce qui est fait pour le mode “clic sur une case à cocher”.
Pour ma part, dans la mesure où ces dispositifs ont ironiquement servi à entraîner de l’IA, il ne m’étonne pas de voir celle-ci savoir les déjouer de nos jours. Et vu sa progression, je pense qu’il va être difficile de trouver un bon équilibre dans le domaine.
Le 07/09/2023 à 20h 39
C’est là où je ne suis pas vraiment d’accord car c’est très subjectif et propre à l’intellect de chacun.
Et dans tous les cas, je le redis : un LLM va réussir.
Premier test avec ChatGPT en listant simplement les possibilités, il a analysé chaque réponse.
Version moins verbeuse : donne moi le meilleur choix.
Le 07/09/2023 à 19h 01
Ce test peut-il être facilement résolu par un attardé dans mon genre ?
Je dis ça car ça me fait déjà bien suer de cliquer sur des toilettes pour chiens ou moyens de locomotion de donneurs d’organe sur des images. Répondre à des questions pièges digne d’une certification de Cloud Provider à rallonge risque d’être un sacré blocage pour tout le monde.
Après, en début d’année il y avait eu une petite frénésie sur le fait que GPT-4 aurait passé le test de Turing, même chose récemment pour le modèle de Google. Mais trop d’infos contradictoires pour distinguer le vrai du bullshit dans cette histoire (GPT-5 serait prévu en fin d’année et plus proche de l’Artificial General Intelligence que le sont GPT-3 et 4 qui sont considérés comme “narrow AI”).
Donc au vu de la progression des LLM, j’ai des doutes que de l’analyse de texte soit une bonne barrière vu que ces modèles excellent de plus en plus dans le domaine. Et rendre trop compliqué la question exclurait une partie de la population.
Le 07/09/2023 à 15h 59
Justement, de mon point de vue non, avec un LLM comme GPT établir une question / réponse ne permettrait pas de bloquer une machine. J’ai cité Auto-GPT car c’est exactement ce qu’il fait. Il s’agit d’une implémentation de GPT qui a pour but de résoudre un problème en utilisant d’autres LLM. De ce fait, Auto-GPT génère des prompts et des challenges pour les autres outils jusqu’à ce qu’il considère le problème comme résolu et sans intervention de prompt humain.
En résumé : Auto-GPT est un modèle GPT qui utilise d’autres LLM pour travailler.
De plus, il faut éviter que la question soit impossible à répondre pour un humain lambda. Des tests de robots purement textuel, il en existe qui sont très simple : résoudre une opération mathématique basique (genre 4 + ? = 6, 7 + 3 = ?, etc). Sauf que de nos jours, les modèles de language savent résoudre ces problèmes.
Pour l’exemple de complexité, j’ai demandé à ChatGPT de générer une question de culture générale aléatoire.
Bah perso à chaud je sais pas que c’est Van Gogh. Et si pour rentrer sur un site faut aller se taper une recherche sur Wikipedia, merci mais non merci. Là où le LLM n’aura aucun mal à répondre.
Ou alors j’ai mal compris là où tu veux en venir.
Pour reprendre un meme sur les CAPTCHA : une demande avec plusieurs partitions de musiques extrêmement fournies disant de sélectionner celle qui provoque telle émotion.
Le 07/09/2023 à 14h 53
Ben je le subis tout autant, et je trouve ces CAPTCHA tout simplement abominables. Je ne faisais qu’expliquer la raison du bruit numérique sur les images.
Le 07/09/2023 à 13h 24
Je doute que ce soit efficace, c’est justement le fonctionnement d’Auto-GPT.
Quant aux images pixellisées, c’est justement fait exprès. Le bruit numérique rend la lecture par l’IA difficile… Et l’humain aussi d’ailleurs.
Un manque d’espace disque sur un serveur a bloqué temporairement la production de Toyota au Japon
07/09/2023
Le 07/09/2023 à 12h 00
EDF qui coupe le mauvais bâtiment : vécu aussi. Ce fut un beau défilé d’admins dans le bureau du pilotage (qui était le seul à avoir des PC ondulés) pour arrêter la salle serveur. Et une belle nuit blanche aussi après que l’électricité ait été rétablie.
En vrac :
dd
sur la mauvaise partition. DRP express bonjourLe 07/09/2023 à 08h 32
Ah oui, du classique aussi
Cela dit, de la base de données qui s’arrête pour cause de capacité mal estimée ou sur activité que le système derrière ne peut encaisser, ça arrive. Après, sans connaître l’infra il est difficile de dire autre chose que du yaka faukon. Et si ça arrive trop tard, les actions de remédiation à la hâte peuvent engendrer de véritables catastrophes allant jusqu’à la corruption des données. Comme indiqué dans le communiqué, leurs back-up semblaient aussi avoir été impactées par l’incident.
Perso dans mon expérience, je n’ai pas connu une seule instance de DB Oracle qui n’a pas pétée en archivelog full lors de sa mise en service. La désactivation des archivelog pour les init de base de données était systématiquement oubliée. Et c’est d’autant plus con quand la remontée d’alerte vient des utilisateurs de l’ERP parce qu’il affiche une stack avec un gros ORA-00257 (de mémoire) tout rouge à l’écran.
Le 07/09/2023 à 06h 42
En industrie, un arrêt d’une chaîne de production ça chiffre très très très vite car il y a un tout un effet de cascade. Surtout quand elle marche en flux tendu.
C’est con de se dire qu’après toutes ces années, le classique incident des espaces disques remplis qui stoppent l’IT se produisent encore. La supervision semble un peu défaillante là bas.
Emmanuel Macron voudrait bannir les cyberharceleurs des réseaux sociaux, sans juge
06/09/2023
Le 07/09/2023 à 08h 57
En soit, bloquer une personne toxique n’est-il pas déjà une bonne chose ? A défaut d’avoir une sanction globale sur cette personne, la bloquer permet déjà de réduire son impact sur soit-même.
D’ailleurs, est-ce que ces sites permettent de définir différents niveau pour pouvoir recevoir des messages ? Genre ne pas autoriser les messages d’une personne inconnue, etc.
Sur Mastodon on peut bloquer les notifications ou messages directs de personnes qu’on ne suit pas ou qui ne nous suivent pas. Dans le second cas, un profil peut activer le fait de valider qui peut le suivre.
Le 06/09/2023 à 15h 40
Encore une demi mesure.
Supprimons la Justice en France : c’est lourd, c’est lent, ça coûte cher, c’est laxiste, ça met 500 ans à condamner quelqu’un de déjà condamné dans l’opinion publique, ça n’empêche pas les récidives, et pire encore ça peut rendre une décision contraire à la ce que la vindicte populaire a déjà prise à l’avance sans avoir tous les tenants et aboutissants et donc c’est corrompu et acheté.
Bref, dégageons tout ça, laissons la société vivre par l’arbitraire et les décisions unilatérales administratives sans recours. Ca fera des économies dans le budget de l’Etat après tout.
Airbnb viole le RGPD, la CNIL irlandaise lui inflige une simple « réprimande »
07/09/2023
Le 07/09/2023 à 08h 44
Le délai de réponse des autres autorités de contrôle lorsque le chef de file soumet une demande d’assistance est de quatre semaines (article 60(4) du RGPD). Si une objection est soumise par une autorité de contrôle, le délai de révision de la décision est de deux semaines (article 60(5)).
Dans le cas de cette procédure, l’article 60(6) se traduit par “qui ne dit mot consent” : en l’absence d’objection, les autorités de contrôle sont réputées approuver le projet de décision.
Le marketing de l’IA « ouverte »
06/09/2023
Le 07/09/2023 à 06h 31
Si le développement de l’IA manque d’ouverture, ainsi que l’entraînement par les grandes entreprise (ce qui est clairement un souci), il ne faut pas oublier l’existence de tout un monde open source dans le domaine.
Notamment présent sur Hugging Face où l’on peut retrouver les sources de nombreux datasets et modèles que ce soit pour du texte ou de l’image. Hugging Face qui a récemment encore eu une forte levée de fonds et beaucoup d’investissement de la part des grosses entreprises de l’IT.
Entreprise fondée par trois français à New York, accessoirement.
Cela dit, ça ne m’étonnerait pas qu’ils finissent pas se faire racheter, probablement par Microsoft vu que le service est similaire à GitHub car essentiellement basé sur Git.
Après la bulle des cryptos, celle de l’IA générative ?
05/09/2023
Le 06/09/2023 à 19h 50
Ravi qu’on se soit compris
Le 06/09/2023 à 18h 11
C’est effectivement un des défauts de cet outil que j’avais constaté assez rapidement quand j’ai commencé à l’utiliser. Il ne sait pas dire “je ne sais pas” car c’est pas son but : il est là pour poursuivre l’écriture d’un texte et c’est ce dans quoi il excelle. Il n’est pas fait pour répondre à des questions, c’est un travers de la comm’ d’OpenAI qui m’a fortement agacé tellement elle a propagée de fausses idées sur l’utilisation de GPT.
Si on veut utiliser GPT en mode assistant de recherche d’information, il faut lorgner du côté des implémentations où le modèle est alimenté par une recherche d’information. Typiquement quand on regarde sur Bing (et comme feu le mode Web de ChatGPT), il va lancer une recherche avec des mots clés reprenant les éléments les plus importants du contexte (car c’est comme ça que GPT raisonne pour faire simple), puis il synthétise les résultats obtenus.
Et sur ce cas d’usage, c’est tout simplement génial pour dégrossir un sujet avant d’aller en profondeur. Je l’ai fait plusieurs fois pour avoir des comparaisons rapides d’infos publiques sur des solutions techniques, ça fait gagner un temps fou. Le problème, c’est que ces implémentations sont bridées soit à cause de restrictions type légal (Bing m’a déjà craché plusieurs fois “je peux pas copyright toussa”) ou encore contexte trop lourd qui fait que la requête est trop coûteuse et échoue ou est incomplète.
Je le dis depuis un bail sur NXI : GPT n’est pas Oracle-qui-sait-tout-et-voit-tout. Il ne sait rien, il n’a pas de mémoire, il n’apprend pas non plus. J’ai plusieurs fois parlé de “base de connaissances”, mais c’est plus une image pour illustrer le fait que ses connaissances sont issues de connexions entre des mots.
Quand je dis qu’il comprend le contexte de la requête, c’est parce que son modèle de raisonnement agit par déconstruction du prompt et analyse de celui-ci pour produire la suite. Chaque mot est analysé unitairement par rapport à celui qui le précède avec une attention déterminée par un jeu de poids et de probabilités, vérifiant les concordances de mots en fonction des clés qui les lient, les valeurs obtenues sont mixées ensemble et derrière il produit la prédiction finale du prochain mot. GPT utilise 12 ensembles par mot pour évaluer le contexte (c’est l’étape du decoder), concaténer les possibilités et produire le résultat final.
Pour ton propre exemple, cela ne m’étonne pas : dès qu’on demande des choses très précises, le modèle affiche ses limites. Ce qui est normal, c’est pas un moteur de recherche. Il a fait ce qu’il savait faire : poursuivre le texte. Mais comme il a manqué de connexions, il s’est retrouvé à côté de la plaque.
Pour moi, une bonne implémentation de GPT se fait en utilisant un modèle bien entraîné (car mieux il est entraîné, mieux il comprendra les prompts et sera cohérent) et surtout, en lui donnant des inputs pour qu’il puisse lire le contenu, extraire les infos demandées et les restituer.
C’est le genre d’implem pour entreprise qui se propose de plus en plus où le client a une instance du modèle à qui il ajoute un entraînement complémentaire pour ses données (de préférence des données qui ne bougent pas, si ce sont des données vivantes il vaut mieux que le modèle aille les chercher auprès du référentiel adéquat) et qui permet ainsi de faire interface avec des clients ou du personnel. Utiliser le modèle seul n’a aucun sens car il atteindra vite ses limites.
Le 06/09/2023 à 06h 51
Dans la mesure où ce débat existe aussi au sein de la recherche sur l’intelligence artificielle, on risque d’être difficilement d’accord. J’ai exposé mon point de vue de personne utilisant ces outils depuis le début de l’année (que ce soit ChatGPT, celui de Bing, le Copilot de GitHub, LLaMA sur ma machine, ou encore StableDiffusion aussi sur ma machine) et étudiant aussi leur intégration concrète dans un SI avec leurs forces et faiblesses.
Le 05/09/2023 à 16h 01
Ce qui est ironique, c’est que le T de GPT (Generative Pre-trained Transformer) vient de Google.
Du point de vue de l’utilisateur, un outil basé sur GPT comprend la requête puisque concrètement, GPT poursuit l’écriture d’un texte. Il ne sait pas de quoi il parle, mais il génère quelque chose de cohérent avec le contexte avec plus ou moins d’aléatoire selon la latitude qu’on lui donne. C’est de cette forme de compréhension dont je parle. Là où les chatbots un peu plus standard sont (de mon expérience perso) à côté de la plaque les 3⁄4 du temps.
Tout comme la contextualisation du modèle se fait via un prompt : on donne un ordre principal au modèle du type “tu es un chatbot pour faire X tu ne réponds qu’aux questions relatives à l’enseigne et ne parle pas de la concurrence” (c’est très simplifié). Ce prompt est injecté dans le contexte des discussions avec l’utilisateur final pour garder cet ordre. Et d’un certain point de vue, cet ordre est compris par le modèle et associé à la requête de l’utilisateur. Les hallucinations sont notamment causées par le contexte lorsqu’il devient trop gros. C’est l’une des raisons pour lesquelles le chatbot de Bing est limité à 30 échanges, pour éviter de partir en couille comme ChatGPT peut le faire quand on travaille sur le même contexte depuis 6 mois.
Même si derrière c’est que du compute et de la statistique (c’est d’ailleurs ce qu’on appelle le “AI effect”), il n’en demeure pas moins que l’outil comprend la requête utilisateur puisqu’il a justement pour but d’être cohérent avec le contexte. Il ne comprend pas le sens des mots qui lui sont envoyé, ni même celui de ceux qu’il génère, mais il comprend la corrélation de ceux-ci, leur contexte, et génère la meilleure suite possible. C’est bien une forme de compréhension, au même titre que tu peux comprendre ce qu’on te dit dans une langue étrangère sans même savoir la parler car les infos contextuelles t’ont aidé (et perso je l’ai plus d’une fois vécu dans la mesure où je travaille beaucoup dans des contextes internationaux, des cas de conversations entre les personnes où je n’avais aucune idée de ce qu’ils disaient, mais je comprenais quand même).
Le 05/09/2023 à 09h 58
L’hallucination des LLM n’est pas un dysfonctionnement.
Bien sûr, et l’IA générative n’est rien de plus que l’évolution d’une discipline aussi vieille que l’informatique elle-même.
Après, si évidemment il y a une forte hype des investisseurs sur le sujet, je trouve qu’il y a quand même une grosse différence entre les cryptomonnaies et l’IA générative. Les cryptos n’ont jamais été concrètes à mes yeux, peut-être aussi parce qu’elles ne m’ont jamais vraiment intéressées non plus. Je leur ai jamais vu aucune utilité ni incidence dans la société. A part pour la spéculation autour d’elles, j’en entendais jamais réellement parler. Pareil pour les NFT ou encore le metavers où j’ai pu assister à diverses présentations sur le sujet de la part de boîtes qui avaient des trucs à vendre. Dans le concret, pas grand chose à apporter.
L’IA générative, elle est concrète, elle est utilisée, elle produit (des offres de low code / no code sont basées dessus), et elle a un impact sur la société (d’où les questions de l’emploi / remplacement de personnel, propriété intellectuelle, etc). Il y a des cas d’usage où elle est appliquée, elle est utilisée, et elle apporte un gain significatif en matière de qualité des interactions humain/machine (chatbots qui comprennent de quoi on parle et dialoguent de manière plus naturelle, les assistants vocaux qui vont se baser dessus, le niveau 1 de prise d’appel client qui est en train d’arriver, etc).
Mais dans tous les cas, il y a un fort engouement, des boîtes qui se créent, vont se créer, et se vautrer comme à chaque ruée vers l’or.
IA : un nombre croissant de sites web bloquent les robots d’indexation d’OpenAI
04/09/2023
Le 05/09/2023 à 20h 34
Les moteurs de recherche exploitent aussi les contenus qu’ils indexent.
Le 05/09/2023 à 06h 51
ChatGPT ne permet pas de faire ça, ce n’est pas un moteur de recherche et le mode Web a été supprimé pour des problèmes de copyright. Sachant que le mode Web donnait la source des informations, comme le fait Bing.
La CNIL rend visite au hub parisien de Worldcoin
05/09/2023
Le 05/09/2023 à 06h 54
Cela dit, si la politique de vie privée de Worldcoin indique que l’antenne parisienne est responsable du traitement des données, cela rend la CNIL tout autant en capacité d’agir que son homologue allemand.
Google vient de souffler sa 25e bougie
05/09/2023
Le 05/09/2023 à 06h 46
Merci Google pour avoir verrouillé le Web dans son propre intérêt, puis continué de tenter de le DRMiser, ainsi que persister de faire de la surveillance de masse des personnes.
Ironique quand on voit que c’est le premier acteur de la publicité en ligne.
À Marseille, le délégué à la transition écologique appelle à un moratoire sur les datacenters
05/09/2023
Le 05/09/2023 à 06h 41
L’hébergeur suisse Infomaniak avait communiqué il y a quelques mois sur le sujet. Son data center va alimenter le canton de Genève en chaleur à partir de 2024, il est fait avec des composants au maximum issus d’industriels suisses/européens, et tourne à l’énergie renouvelable.
Evidemment cela reste un gonflage de torse, mais ça contraste beaucoup avec les discours alarmistes peu crédibles comme celui-ci.
L’ESA réussit la mise à feu statique de l’étage supérieur d’Ariane 6
04/09/2023
Le 05/09/2023 à 06h 33
Ouais les animaux ont tendance à moins se compliquer la vie
Le 04/09/2023 à 15h 24
D’après Ariane Group le programme Ariane était nommé en référence au fil pour le lien entre la Terre et l’espace.
Mais d’autres sources vues lors de la recherche indiquent aussi que l’un des choix du nom était que le projet avait pour ambition de sortir le programme spatial européen de l’impasse, après l’échec d’Europa (hasard ou pas, Europa, ou Europe, en français est aussi la grand mère d’Ariane dans la mythologie).