pymaldebaran

IA

[Algorithmique 2/6] Biaisé comme l’IA

IA

09/10/2024

7

Le 10/10/2024 à 09h 21

O_O mais a ton avis il s'est développé comment le goût ? Influence de l'éducation, de l'environnement, etc donc des éléments systémiques… croire que le "goût" de qqn pour qqch est un truc intrinsèque c'est quand même un peu nier des décennies de sociologie.

Le "goût" est le résultat du biais systémique de la société.

Internet

[Màj] Une vaste fuite met en lumière le fonctionnement de la recherche Google

Internet

29/05/2024

18

Le 29/05/2024 à 21h 17

Est-ce qu'on peut alors espérer que la partie E-A-T aura alors plus de poids ? ^^'

Bah c'est pas pour rien que Google lui donne peu de poids : c'est ultra difficile à évaluer... on peut facilement fabriquer très truc écrire "comme" des articles respectables (IA mon amour génère moi de l'article de presse dans le style du Monde stp ! Oui chérie tout de suite !), pour la notion d'autorité là c'est le problème de la reconnaissance de telle ou telle autorité qui est nécessairement politique et très facile à biaiser et la thrustworthicess alors là c'est le jeu n°1 des SEO de pourrir ça. Donc on est purement dans une partie ou Google doit lutter contre des force qui vont elle pousser dans le mauvais sens pour leur intérêt. C'est la situation typique que Google déteste : il faut se placer politiquement (ça fait des ennemis), il faut participer à une escalade technologique contre des gens qui cherche à tout tromper (IA, SEO) et en plus c'est quasi invisible.

Le tout sur fond de recherche en IA (car il va falloir investir à mort pour détecter les contenu généré par IA pour les flagger) domaine où Google est à la traine face à ses concurents et donc ne va pas mettre ses sous dans cette sous catégorie de l'IA.

Bref c'est la merde technologiquement, politiquement et stratégiquement...

Donc faut pas espérer une remontée massive des critères EAT selon moi

Le 29/05/2024 à 11h 43

Je pense que ayant des données bien précise, ça va surtout permettre d'industrialiser/automatiser le SEO (en particulier pour les faux site généré par IA qui sont friand de ce type d'info) qui va encore pourrir la qualité des résultat favorisant les contenu "poussé" par rapport aux contenus utiles

Le 29/05/2024 à 11h 41

"Ce serait particulièrement le cas avec les liens internes dans les pages, dont le nombre d’utilisations alimenterait la popularité et donc le classement des sites dans les résultats."

Rien de nouveau, non ? Ça s'appelle le page-rank, ou je me trompe ?

Eh non justement : le page rank prend avant tout en compte les lien externe et surtout les lien d'autre site vers le site évalué (plus on pointe vers toi, plus tu es important... d'où la tendance à créer des faux site qui pointe vers toi à une époque et de nouveau maintenant avec des site générés à la volé par IA).

Alors qu'ici on parle de lien interne (pas ou peu pris en compte par Page Rank) et on ne parle pas de leur structure mais de leur utilisation : si ils sont beaucoup utilisé ou pas (c'est là que les données fournie par Chrome rentre en jeu). Plus les lien interne sont utilisés, plus la page est considérée comme "active" et ça permet aussi de renvoyer préférentiellement vers telle ou telle partie du site.

IA

Stack Overflow face à une révolte contre son accord avec OpenAI

IA

15/05/2024

36

Le 15/05/2024 à 15h 58

Bing Chat le fait plutot bien je trouve.
Dans ses réponse il met des ^1 ² ³ avec en bas les liens pour étayer ses propos.

Et si je me souviens bien il le fait de manière assez... détournée (mais je ne retrouve plus ma source... grrrr) c'est à dire qu'il génère une réponse puis fait une requête interne Bing pour déterminer si ça ressemble à des trucs qu'il aurait crawler (il tape uniquement dans ce qui lui a servi de base d'entrainement). Puis il ajoute les ref... car eux aussi n'ont pas accès au lien entre entrainement et machin ressorti au final.

Et ouais le bilan carbon de ce genre de truc est déplorable tellement c'est sous optimisé juste parce que les modèles ont pas été pensé pour prendre en compte le concept de paternité mais juste "produire du résultat".

Le 15/05/2024 à 15h 54

Si OpenAI n'est pas capable de respecter une partie de la licence, c'est simple, ils n'utilisent pas l'œuvre. Ça, c'est pour la partie théorique.

Ensuite, en pratique, ici, je ne sais pas dire si la licence oblige à une attribution individuelle pour chaque partie de l'œuvre. Je ne sais même pas si tout le site StackOverflow doit être considéré comme une œuvre unique ou bien chaque page ou encore chaque contribution à une page. Si c'est l'ensemble qui est une œuvre (ils parlent de "Creative Commons Data Dump"), une attribution citant l'ensemble des contributeurs devrait suffire. Mais dans ce cas, OpenAI doit faire cette attribution en utilisant tous le pseudonyme de ceux qui ont participé.

Le truc c'est que avec une licence CC-BY-SA, le BY c'est l'auteur qui a rédigé le texte.

Mais en terme d'attribution, dire que "Whenever Whatever" est de "Shakira et George Brassens" est aussi peu légal que de ne pas créditer Shakira. Car il ne s'agit pas d'une œuvre collective puisque chaque élément à un auteur déterminé (alors que par exemple une chanson "des Beatles" c'est une œuvre collective si elle a été signée par le groupe en entier <-- ouais ya des cas plus compliqué comme la chanson "Back in Black" d'AC/DC où on a jamais bien pu déterminer si elle avait été écrite en partie par le chanteur du groupe décédé avant l'enregistrement et donc si ses descendant avait droit de toucher des droits dessus...).

Mais clairement juste dire "nan mais on peut pas on peut pas" c'est débile (mais un tribunal a déjà validé des trucs plus con en matière de licence/peternité/etc) et mettre juste la commu StackOverflow comme auteur c'est cracher à la gueule des contributeurs tout en étant là-aussi ultra borderline sur la licence (once again va falloir qu'on attende le procès).

Le 15/05/2024 à 15h 46

En effet, une vue juridique manque à cette article. À quel point, la CC By SA s'impose lors du réemploi?

Pour moi, si StackOverFlow propose des données sous CC BY SA, le modèle d'IA devient sous CC BY SA automatiquement.

C'est assez compliqué car le modèle lui-même on ne peut montrer qu'il contient le contenu ou une partie du texte initial... par contre en regurgitant du texte quasi identique (genre en réponse à une même question) alors là le texte produit est beaucoup plus ambigu

L'équipe de stackOverflow a d'ailleurs semi-anticipé le truc : ils ont demandé à OpenAI de bien mentionné que la réponse vient de "la communauté StackOverflow" sauf que... le "BY" de la CC-BY-SA ne pointe pas vers StackOverflow mais bien vers l'auteur du commentaire/de la réponse/de la question et pas vers "la communauté". L'équivalent musical ça serait de pomper une chanson de Shakira et de créditer "la communauté de la chanson colombienne" comme si ça suffisait à référencer l'auteure...

Le 15/05/2024 à 12h 30

Le souci étant qu'OpenAI a déjà dit qu'il ne pouvait pas remonté pour un texte généré à la/les sources car le système est en boite noire (ce qui les arrange bien au niveau légal eux et leur clients qui aimerait pas voir leur code devenir GPL car d'un coup leur "aide au code" injecte du code qui vient de Emacs...)

Le 15/05/2024 à 12h 26

A un petit détail près : ici la licence des contenus est CC-BY-SA (et c'est imposé par StackOverflow pour toutes les question et réponses) donc toute réutilisation, par exemple par OpenAI devrait mentionner les auteurs du code ou de l'explication originale... ce qu'OpenAI dit "techniquement pas possible" car on ne peut pas remonter à la source.

Qu'on utilise ton texte/code pour nourrir une IA qui n'est pas capable de dire que c'est tes texte et ton code qu'elle régurgite (après l'avoir mélangé à plein d'autre).

En fait c'est un pb proche du "remix" en musique : il faut citer les morceaux d'origine quand on les sample. MAis bon si OpenAI le fait pour du contenu CC-BY-SA ça voudrait ire qu'il doit respecter les autres licences des code qu'il pompe... et pour les code GPL ça va poser des grooooooooos pb pour les zozo qui utilise les "aide au code" si ça rend leur code GPL automatiquement.

Économie

Xavier Niel cède ses parts dans le groupe le Monde à un fonds de dotation

Économie

24/04/2024

22

Le 26/04/2024 à 19h 15

J'ai du mal à y croire. La philanthropie est une chose bien rare. Cela sert même de costume aujourd'hui. Mais sous le costume...

Bref : à suivre.

Comme dit plus haut, un don à un fond de dotation donne des avantage fiscaux... ça peut suffire à mitiver qqn qui est déjà pro indépendance de la presse (et pour lui ça fait aussi une bonne image ce qui est non négligeable).

Droit

L’Union européenne se dote d’une directive sur les violences numériques faites aux femmes

Droit

25/04/2024

20

Le 26/04/2024 à 19h 05

Comme dit plus haut c'est parce que la compétence de l'UE ne s'étend qu'aux femmes et enfants dans ce cas. Et que comme la Hongrie veut faire sauter le truc par tout le moyen, il faut parfaitement rester dans les clous juridiquement. Il s'agit ici d'une directive (donc pas d'un réglement qui a force de loi) qui dit aux pays de l'UE le minimum qu'ils doivent faire. Évidemment tlm espère que les pays retranscriront sans faire de distinction... mais l'UE ne peut pas les y forcer.

Il n'y a donc pas de volonté de diviser, juste une limite juridique à ce que peut imposer l'UE au pays.

Mais tout ça CharlesP l'explique bien mieux que moi au dessus.

Droit

« European Law Moot Court » : suivez en direct le concours de plaidoiries à la CJUE

Droit

12/04/2024

2

Le 12/04/2024 à 14h 32

C'est oublier bien vite le rôle du ministère public (procureur ou équivalent selon les pays). si celui-ci sait bien présenter les faits alors il faut que la défenses (les avocats) puisse en faire de même. Et c'est encore plus vrai dans le cas des jurys populaires (cours d'assise en France) où il faut savoir convaincre des non spécialistes.

Autre point qui nécessite de l'éloquence : les affaire n'ont pas toujours des preuves légale totalement probantes dans un sens ou dans l'autre. Dans un tel cas il faut savoir mettre les forme pour convaincre le juge/les juré de pencher d'un côté ou de l'autre.

Tout ça en oubliant pas que chaque partie a des intérêts qui lui sont propre : les procureur doivent avoir un taux de résolution élevé et les avocats un taux acquittement élevé. C'est comme ça qu'ils progressent, qu'ils sont reconnus. D'où opposition, débat contradictoire et qualité de plaidoirie. Ceux qui doivent rester objectif et fournir des faits non biaisé, en théorie c'est les enquêteurs (mais en pratique ils ont généralement un biais à charge du fait de leur hiérarchie et d'une culture policière qui amène à des trucs comme "je suis là pour trouver des coupable, pas innocenter des accusés".

Internet

Les LIDD sont de retour sur Next !

Internet

11/11/2023

62

Le 13/11/2023 à 15h 33

Je trouve que le lien wikipedia sur la citation attribuée apocryphement à B. Franklin sur la liberté et la sécurité donné par Jean de Tolbiac mériterait de figurer dans les nouveau LIDD :
Next INpact

Parce que c’est vraiment presque devenu un mème cette citation mais toujours mal citée, hors contexte et en lui attribuant un sens qu’elle n’a jamais eu (sans parler des erreurs de trad !)

C’est un super exemple d’argument d’autorité en plus (c’était d’ailleurs le sujet initial de la discussion dans les com’ de la new Adobe fausses image de la guerre Israel-Hamas)

Flock

#Flock se demande si c’était mieux avant ? Il a des arguments en tout cas…

Flock

11/11/2023

18

Le 13/11/2023 à 15h 32

Sorry erreur de fil, ça devait être dans les LIDD…

Le 13/11/2023 à 15h 29

Je trouve que le lien wikipedia sur la citation attribuée apocryphement à B. Franklin sur la liberté et la sécurité donné par Jean de Tolbiac mériterait de figurer dans les nouveau LIDD :
Next INpact

Parce que c’est vraiment presque devenu un mème cette citation mais toujours mal citée, hors contexte et en lui attribuant un sens qu’elle n’a jamais eu (sans parler des erreurs de trad !)

C’est un super exemple d’argument d’autorité en plus (c’était d’ailleurs le sujet initial de la discussion dans les com’ de la new Adobe fausses image de la guerre Israel-Hamas)

Logiciel

Mozilla revoit la politique de traduction de MDN, le français préservé

Logiciel

09/12/2020

18

Le 09/12/2020 à 12h 30

Le français est relativement connu en informatique pour être une des langues qui soit à la fois assez répandue et utilisant un alphabet occidental mais posant énormément de problème sur l’utilisation de caractères voir l’encodage parfois : on utilise des caractère accentués en pagaille, on a des caractères “accentués rares” comme le ç ou œ… mais surtout les règles typographique française sont un cauchemar par rapport aux autres langues européenne répandues (je ne dit pas qu’il n’existe pas d’autre langues qui soit dans ce cas… mais moins répandue que le français) : les guillemets français « et », l’utilisation de l’apostrophe tantôt avec une simple quote anglosaxonne (apostrophe dactylographique) ‘ (parce que c’est toléré) tantôt avec la vrai apostrophe (apostrophe typographique) ’, on a plein de tiret différents : — – et - qui sont tous différent du “moins” dispo sur un clavier (le “tiret du 6” comme disent les gens qui méritent la mort) et ont chacun des règle typographique ultra précise d’utilisation. Ajoute à ça des éditeur WYSIWYG qui font des remplacement automatique de ces signes typographique… et tu obtiens un français impossible à écrire en ASCII avec des caractère pas connu de plein de dev, des edge case étranges.

Donc les retours sur tous ces problèmes sont hyper fréquent de la part des dev français (relativement actifs). Et cela bénéficie beaucoup à la communauté hors fr car ça résoud plein de petits problèmes (moins fréquents) rencontré par d’autres langues. Bref il y a des problèmes très spécifiques au français (comme pour les langues “reposant sur des caractères spécifiques” cités dans l’article) qui sont souvnt remonté et résolu par la communauté francophone et qui bénéficie à pas mal de monde en dehors de celle-ci.

(le facteur “on est des grosses grosses quiche en anglais n’a que peu de chance d’avoir joué un rôle majeur… oui il y a encore plein de dev français qui ont du mal avec l’anglais, mais c’est de plus en plus rare et le pire clairement c’est à l’oral. À l’écrit c’est moins pire)

Note : je n’ai pas été vérifier dans la mailing list les fins de discussion mais initialement c’était ça les arguments

Internet

Hébergeons (gratuitement) un site statique avec accès sécurisé

Internet

19/09/2020

44

Le 23/09/2020 à 12h 14

Disons que j’ai fait comme ça pour cette partie pour éviter d’avoir à l’expliquer

Dans ce cas, il est sans doute plus simple de mettre le script dans l’en-tête mais en lui mettant l’attribut defer et ainsi être sûr qu’il sera exécuté une fois l’ensemble de la page chargée. Et ça évite la complexité de de voir spécifier un onload à la main.

C’est moderne et plutôt considéré comme une bonne pratique car on centralise les dépendance en en-tête tout en assurant l’ordre de chargement (l’ordre de déclaration) et que tout ce qui doit être chargé en fin de load le sera vraiment.

«explicit is better than implicit»

Droit

Alone in the Dark : après 13 ans de litige, Atari et Frédérick Raynal trouvent un accord

Droit

19/09/2018

15

Le 19/09/2018 à 09h 29

Faudrait voir combien valent “39250 actions Atari”…

Bon à 0,391€ l’action ça fait 15346,75€ donc que dalle par rapport à la somme reçue et encore moins par rapport à la somme demandée (sauf à pwnser que l’action Atari va s’envoler bientôt…).

Logiciel

Signal Desktop s’ouvre aux utilisateurs de l’application iOS

Logiciel

27/09/2016

33

Le 27/09/2016 à 08h 37

On peut tout de même noter que Telegram n’exclue pas la possibilité de passer en mode “fédération” à la façon d’IRC (donc décentralisé) dans le futur Telegram FAQ : Can I run Telegram using my own server?

Ça reste de la déclaration d’intension mais les autres (si on continue de parler des “gros” de la messagerie) sont simplement contre. Par contre les problèmes (techniques) qu’ils soulèvent chez Telegram

sont réel : il est difficile de faire un système de de cloud à la fois décentralisable et permettant l’interconnexion et le partage facile…

Sciences

Projet FireSat : des satellites pour surveiller incendies et explosions en quasi-temps réel

Sciences

20/11/2015

29

Le 20/11/2015 à 16h 57

Comme ici on parle de détection infrarouge (très utile pour voir les feu et de manière plus générale les variations de chaleur), les hydrocarbures ne renvoient pas les infrarouges de la même manière que l’eau de mer “non souillée”.

En fait on peut voir plein de trucs avec les infra rouge(IR), par exemple si on film une forêt ou un champ en IR on peut voir si en dessous il y a des ruines car la végétation sera moins développée la et renverra différemment les IR.

Catégories

Nous Suivre

À propos

Bio

Site personnel

20 commentaires

[Algorithmique 2/6] Biaisé comme l’IA

[Màj] Une vaste fuite met en lumière le fonctionnement de la recherche Google

Stack Overflow face à une révolte contre son accord avec OpenAI

Xavier Niel cède ses parts dans le groupe le Monde à un fonds de dotation

L’Union européenne se dote d’une directive sur les violences numériques faites aux femmes

« European Law Moot Court » : suivez en direct le concours de plaidoiries à la CJUE

Les LIDD sont de retour sur Next !

#Flock se demande si c’était mieux avant ? Il a des arguments en tout cas…

Mozilla revoit la politique de traduction de MDN, le français préservé

Hébergeons (gratuitement) un site statique avec accès sécurisé

Alone in the Dark : après 13 ans de litige, Atari et Frédérick Raynal trouvent un accord

Signal Desktop s’ouvre aux utilisateurs de l’application iOS

Projet FireSat : des satellites pour surveiller incendies et explosions en quasi-temps réel

S'abonner à

Bio

Site personnel

20 commentaires