Connexion Abonnez-vous

40 médias demandent le blocage de News.dayFR, le site GenAI qui plagie 6 000 articles/jour

Serial plagieur

40 médias demandent le blocage de News.dayFR, le site GenAI qui plagie 6 000 articles/jour

40 médias français demandent à la Justice d'ordonner aux FAI le blocage du site news.dayfr.com. Ce dernier, le plus bourrin du millier de sites d'informations générés par IA que nous avons identifiés, plagie de 5 à 15 articles... par minute, et jusqu'à plus de 6 000 par jour.

Le 07 février à 11h32

Au printemps dernier, l'auteur de ces lignes animait une formation consacrée au fact-checking auprès de journalistes professionnels. L'un d'entre eux s'était excusé de devoir, en urgence, finaliser et mettre en ligne un article. Ce qu'il fit, tout en tentant de garder une oreille (plus ou moins) attentive pour suivre la formation, jetant un œil de temps à autre aux sites et pages web présentés.

Afin d'illustrer pourquoi et comment il convenait d'apprendre à identifier les articles et sites d'information générés par des IA (GenAI), je prenais comme exemple la page d'accueil de News.dayFR. Je l'avais déjà identifié comme le principal plagieur GenAI en français. Mais je ne m'attendais pas à ce que le journaliste découvre, stupéfait, que ce site venait de publier un copier-coller de son article, mis en ligne une demi-heure plus tôt seulement.

Le site, qui existe depuis (au moins) décembre 2021, et qui a utilisé également le nom de domaine france.dayfr.com entre 2022 et 2023, est probablement le plus productif de la centaine de sites reposant sur du plagiat et faisant partie du millier de sites d'info GenAI que nous avons identifiés. Jusqu'à mentionner, dans le corps voire le titre des articles qu'il plagie, le nom du média qu'il copie-colle, comme le montrent ces captures d'écran.

Il republie depuis, en très léger différé, des dizaines de milliers d'articles émanant tout autant de la presse quotidienne régionale (PQR) que de la presse nationale française. Il s'agit généralement de simples copier-coller d'articles qui viennent d'être indexés sur Google Actualités, parfois (très) légèrement modifiés, notamment dans le titre.

Libération a ainsi constaté que le site passait les articles plagiés dans un traducteur automatisé, au point, par exemple, de renommer le nom de son service de fact-checking « CheckNews » en « VérifierActualités ».

Ironie de l'histoire, l'article de Libération titré « Quarante médias saisissent la justice pour bloquer “News Dayfr”, un des multiples “sites parasites” générés par IA » a lui-même été copié-collé sur News.dayFR, qui va jusqu'à rajouter « – Libération » dans le titre de l'article plagié.

L'AFP, qui précise que « la procédure entamée contre News.DayFr.com est la conséquence d’une enquête journalistique réalisée par Libération et le média spécialisé Next », a en outre remarqué que le plagiat de l'article du Monde consacré à cette plainte est quant à lui émaillé d'erreurs provenant de mauvaises traductions : « le média Next y était ainsi renommé "Suivant" (la traduction française de son nom) » :

« La plainte fait suite à une enquête Libération et les médias en ligne spécialisés Suivant. [...] Nom des nouvelles. Jour. EN apparaît dans une enquête en plusieurs composants publiée depuis jeudi Libération et à Suivant qui note l’existence d’au moins un millier de ces sites d’information automatisés ou dopés par l’IA générative. »

Une demande de blocage, d'ici 15 jours

D'après Libé, qui fait partie des plaignants, les groupes de presse La Dépêche du Midi, Sud Ouest, PubliHebdos, La Montagne, le Télégramme et la Nouvelle République du Centre, représentant une quarantaine de titres de presse, viennent en effet de saisir la Justice pour qu'elle oblige les FAI à bloquer l'accès à News.dayFR.

Il reste 84% de l'article à découvrir.

Déjà abonné ? Se connecter

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (37)

votre avatar
Merci pour l'article.
Google ne se bouge quand même pas beaucoup...
votre avatar
Il n'ont rien à gagner à se bouger ils ne sont pas victimes des ces actions...
votre avatar
Pire que ça : ils ont tout à perdre à bouger. C'est ça, quand on est à la fois le premier moteur de recherche et la première régis régiE publicitaire...
votre avatar
Et Régis est un con, ce qui n'arrange rien à nos affaires :francais:
votre avatar
C'est corrigé ^^
votre avatar
Ce régis là ?
votre avatar
Absolument d'accord, Google a tout intérêt à faire monter au plus haut ces sites dans les résultats de recherche surtout si ces sites utilisent des pubs Google. Par exemple, un site sans pub comme Next n'a aucun intérêt pour Google.
votre avatar
En fait c'est simple: il faut juste arrêter de s'informer et vivre dans sa petite bulle, plus de souci d'AI, de fakenews, et autres joyeusetés :p
votre avatar
En fait c'est simple : il faut taper, fortement, sur les publicitaires du web, qui profitent allègrement de ce type de situations (et des fake news plus largement).

Sinon ta proposition marche aussi :D
votre avatar
Très belle enquête, merci.

Je note que l'automatisation est assez impressionnante et je me pose la question : comment font-ils pour pomper un article sur un site comme Libération où la majorité des articles sont payants ?
Ou alors ils ne pompent que ceux en accès libre ?
Ou bien ils utilisent un compte (moyen éventuel de les repérer donc peut probable) ?
votre avatar
oui ils doivent avoir des comptes abonnées
votre avatar
J'en dirai pas plus, mais leur paywall est une passoire
votre avatar
Pour Libé peut être (ils vont être contents de savoir ça 🤣), mais les autres sites avec abonnements ?
votre avatar
Beaucoup de paywalls ne sont pas très efficaces. Et si un site a un paywall qui bloque vraiment, les plagieurs vont simplement voir ailleurs, le Web est grand
votre avatar
Sur beaucoup de site d'actualité, un "clic droit->inspecté" ou "clic droit->code source de la page" suffit largement pour avoir l'article en entier.
votre avatar
Ou le mode lecture du brouteur suffit aussi à passer les paywall / cookie wall / whatever-else-shitty-idea wall.
votre avatar
Ou encore modifier le User-Agent pour apparaitre comme le robot d'indexation de Google (ou autre). Sur certains média, ça fonctionne.
votre avatar
Et pour plus de crédibilité, tu fais exprès d'échouer au CAPTCHA Cloudflare :mdr:
votre avatar
Sauf que l'on est baisé, un bot fait mieux que nous sur les tests de CAPTCHA...
votre avatar
En effet, avec les CAPTCHA faits pour bloquer les connexions automatisées qui ont servi in fine à entraîner des modèles d'OCR et perception visuelle pour ensuite les lâcher dans la nature et what-could-go-wrong :D

C'est fou comment la capacité de notre espèce à créer des solutions à des problèmes qu'elle s'invente qui engendre de nouveaux problèmes me surprendra toujours.
votre avatar
il se contente de copier-coller la partie gratuite (cf l'ex de l'article du jour de CheckNews de news.dayFR)
votre avatar
Il semble effectivement, je viens de comparer, je crois qu'ils utilisent le texte qui est dans un JavaScript de la page (qui je pense sert à la synthèse vocale de l'article). C'est le seul endroit où sont les mots "huissiers" ou "APIG" dans le code source de la page de Libé (donc pas visibles) alors qu'ils apparaissent dans le rendu HTML de l'article piraté (dernier paragraphe non présent sur le site de Libé sans compte abonné).

Sinon si l'article a été passé dans une IA pour produire ça, cette IA est une grosse daube, c'est plein de fautes de grammaire et d'orthographe (qui ne sont pas dans l'article d'origine).
votre avatar
Merci pour l'enquête.
Vous êtes cités par lemonde :
https://www.lemonde.fr/pixels/
votre avatar
Et déjà piraté : https://news.dayfr.com/technologie/15588.html

Ah et Next vous devenez Suivant !
votre avatar
Tout nu, dans ma serviette, qui me servait de pagne, j'avais le rouge au front et le savon à la main.
votre avatar
Le site se pourris lui-même, j'adore ! ^^
votre avatar
J'ai lu son plagiat ; il se pourrissait déjà rien qu'avec la qualité déplorable du texte. C'est illisible.
votre avatar
Ils s'en fichent, tant que l'indexation fonctionne et que l'argent rentre...
votre avatar
Perso, ce site je n'y retournerai pas
votre avatar
Vu leur bourrinage, je pense que nous, lecteurs de Next, ne sommes pas leur coeur de cible. ^^
votre avatar
N’hésitez pas à aller les voir chouiner sur twitter sous le thread de Jean Marc c’est priceless.
votre avatar
Il faut un compte X pour voir les réponses ? Pour une fois j'aurais bien voulu voir ça, mais je vais pas créer un compte X pour ça.
votre avatar
Avec une réquisition judiciaire il doit pourtant avoir moyen de remonter jusqu’à la personne physique.
Si les paiements des domaines / Cloudflare / hébergements n'a pas été fait depuis un paradis fiscal.
votre avatar
Ou via WordPress (wp.com) car ils copient les images des sites chez WordPress (les URL des images commencent par https://i0.wp.com, https://i1.wp.com, etc. suivi du nom du site d'origine).

Je pense donc qu'ils ont un compte étant donné les giga octets d'images qu'ils doivent avoir. Et là il est sans doute envisageable de faire jouer les droits autour des images, ils n'en n'ont pas la propriété et sur une demande à WordPress, il est peut être possible d'obtenir qui est derrière où à minima de faire supprimer les images ou faire fermer le compte.
votre avatar
Je viens de tester, en moins de 18 minutes un article d'un site passe en article piraté sur News.dayFR !
votre avatar
Cette enquête et la série d'articles qui en découle sont passionnantes et c'est remarquable qu'un média comme Next aie pu la mener, s'associer et même l'outiller.

Je trouve que cela éclaire bien votre travail sur l'IA que j'ai parfois jaugé déséquilibré, alarmiste et surfant sur une sorte de conservatisme sceptique défensif face au changement.

Félicitations et merci.
votre avatar
On a quand même des perles sur le site : "Drame dans un bâtiment en Suisse: deux morts mortels"

40 médias demandent le blocage de News.dayFR, le site GenAI qui plagie 6 000 articles/jour

  • Une demande de blocage, d'ici 15 jours

  • De 6 000 à 7 000 articles plagiés toutes les 24 heures

  • Un bouton pour rapporter les articles « copiés de mon site »

  • Une nébuleuse de sites, ciblant de nombreux pays

  • « 404 خطأ » (erreur, en arabe) & pictogrammes clonés

  • Vous voulez entrer sur Google News sans payer de journalistes ?

  • Un CMS égyptien utilisé dans une guerre de l'information en Libye

  • 614ᵉ au classement des éditeurs d'actualités et médias en France

  • Des demandes de « nudes » et un chauffeur routier

  • 4 300 articles en 24 h (un dimanche), soit 3 par minute

Fermer