Connexion
Abonnez-vous

40 médias demandent le blocage de News.dayFR, le site GenAI qui plagie 6 000 articles/jour

Serial plagieur

40 médias demandent le blocage de News.dayFR, le site GenAI qui plagie 6 000 articles/jour

40 médias français demandent à la Justice d'ordonner aux FAI le blocage du site news.dayfr.com. Ce dernier, le plus bourrin du millier de sites d'informations générés par IA que nous avons identifiés, plagie de 5 à 15 articles... par minute, et jusqu'à plus de 6 000 par jour.

Le 07 février à 11h32

Au printemps dernier, l'auteur de ces lignes animait une formation consacrée au fact-checking auprès de journalistes professionnels. L'un d'entre eux s'était excusé de devoir, en urgence, finaliser et mettre en ligne un article. Ce qu'il fit, tout en tentant de garder une oreille (plus ou moins) attentive pour suivre la formation, jetant un œil de temps à autre aux sites et pages web présentés.

Afin d'illustrer pourquoi et comment il convenait d'apprendre à identifier les articles et sites d'information générés par des IA (GenAI), je prenais comme exemple la page d'accueil de News.dayFR. Je l'avais déjà identifié comme le principal plagieur GenAI en français. Mais je ne m'attendais pas à ce que le journaliste découvre, stupéfait, que ce site venait de publier un copier-coller de son article, mis en ligne une demi-heure plus tôt seulement.

Le site, qui existe depuis (au moins) décembre 2021, et qui a utilisé également le nom de domaine france.dayfr.com entre 2022 et 2023, est probablement le plus productif de la centaine de sites reposant sur du plagiat et faisant partie du millier de sites d'info GenAI que nous avons identifiés. Jusqu'à mentionner, dans le corps voire le titre des articles qu'il plagie, le nom du média qu'il copie-colle, comme le montrent ces captures d'écran.

Il republie depuis, en très léger différé, des dizaines de milliers d'articles émanant tout autant de la presse quotidienne régionale (PQR) que de la presse nationale française. Il s'agit généralement de simples copier-coller d'articles qui viennent d'être indexés sur Google Actualités, parfois (très) légèrement modifiés, notamment dans le titre.

Libération a ainsi constaté que le site passait les articles plagiés dans un traducteur automatisé, au point, par exemple, de renommer le nom de son service de fact-checking « CheckNews » en « VérifierActualités ».

Ironie de l'histoire, l'article de Libération titré « Quarante médias saisissent la justice pour bloquer “News Dayfr”, un des multiples “sites parasites” générés par IA » a lui-même été copié-collé sur News.dayFR, qui va jusqu'à rajouter « – Libération » dans le titre de l'article plagié.

L'AFP, qui précise que « la procédure entamée contre News.DayFr.com est la conséquence d’une enquête journalistique réalisée par Libération et le média spécialisé Next », a en outre remarqué que le plagiat de l'article du Monde consacré à cette plainte est quant à lui émaillé d'erreurs provenant de mauvaises traductions : « le média Next y était ainsi renommé "Suivant" (la traduction française de son nom) » :

« La plainte fait suite à une enquête Libération et les médias en ligne spécialisés Suivant. [...] Nom des nouvelles. Jour. EN apparaît dans une enquête en plusieurs composants publiée depuis jeudi Libération et à Suivant qui note l’existence d’au moins un millier de ces sites d’information automatisés ou dopés par l’IA générative. »

Une demande de blocage, d'ici 15 jours

D'après Libé, qui fait partie des plaignants, les groupes de presse La Dépêche du Midi, Sud Ouest, PubliHebdos, La Montagne, le Télégramme et la Nouvelle République du Centre, représentant une quarantaine de titres de presse, viennent en effet de saisir la Justice pour qu'elle oblige les FAI à bloquer l'accès à News.dayFR.

Leurs avocats, maîtres Christophe Bigot et Emmanuel Soussen, ont déposé ce jeudi auprès du Tribunal judiciaire de Paris une assignation demandant aux quatre principaux FAI français (Bouygues Telecom, Orange, Free et SFR) de mettre en œuvre « toutes les mesures propres à empêcher l’accès au site à partir du territoire français », « dans un délai de quinze jours » et « pour une durée de 18 mois », mesure dont le coût « sera à la charge » des FAI.

En outre, et « compte tenu de l‘adaptabilité de tels sites », les plaignants demandent qu’ « en cas d‘évolution du litige [...] de modification des noms de domaine ou chemins d'accès », ils puissent en référer « afin que l’actualisation des mesures soit ordonnée ».

Les plaignants ont en effet constaté que, « depuis plusieurs mois », le site republie de nombreux articles « quasiment intégralement reproduits », et « sans que la moindre autorisation ni cession n'ait été bien évidemment accordée au préalable » :

« Il s'agit d'une exploitation illicite manifeste, le site internet http://news.dayfr.com pillant sans vergogne et sans bourse délier les droits d'auteur des sociétés éditrices. […] Le site en question repose d'évidence sur un modèle économique qui est celui du pillage de la propriété intellectuelle d'autrui. »

En outre, les articles contrefaits « disparaissent très rapidement afin d'être remplacés par d'autres plus récents, et ceci afin de camoufler l'ampleur des faits de contrefaçons ».

Pour l’Alliance de la presse d’information générale (Apig), qui fédère les quatre syndicats historiques de la presse nationale, régionale et départementale, cette première réaction collective sert « avant tout à établir un cadre juridique clair face à l’émergence de sites utilisant l’intelligence artificielle pour reproduire massivement des contenus protégés par le droit d’auteur ».

De 6 000 à 7 000 articles plagiés toutes les 24 heures

Les « journalistes » de News.dayFR sont si productifs qu'ils sont capables de publier quatre articles en moins de 8 minutes, une dizaine par heure, jours et nuits, week-ends et jours fériés compris, sans jamais s'arrêter. Le site peut piller et plagier de 5 à 15 articles par minute, soit l'équivalent d'une publication toutes les 4 ou 12 secondes.

Sa rubrique archive permet de calculer le nombre d'articles publiés, par jour, à raison de 62 articles par page. Les archives des articles mis en ligne sur News.dayFR le 3 décembre dernier comportaient 99 pages, indiquant qu'il avait donc plagié plus de 6 000 articles en 24 heures, soit plus de 250 par heure, ou 4 à la minute.

Les archives des articles publiés le 8 janvier 2025 comportaient 113 pages, soit plus de 7 000 articles en 24 heures, 292 par heure, ou 5 par minute. À titre de comparaison, une rédaction comme BFMTV, l'une des plus productives en France, publie aux alentours de 250 (le dimanche) à 500 articles par jour.

La productivité de News.dayFR est telle qu'il ne se passe pas une seule journée sans que l'une de nos Google Alertes ne nous renvoie à l'un de ses articles, parfois accompagnée de la mention de l'article plagié. Ironie de l'histoire, Google Actu est si pollué par les sites et d'articles générés par IA (GenAI) qu'il arrive parfois à News.dayFR de plagier d'autres sites GenAI, comme ce fut le cas avec ces articles sur les GAFAM :

News.dayFR inondait littéralement Google Actualités depuis des mois, au point que l'on se demande pourquoi, et comment, il n'avait pas été jusqu'alors identifié par le moteur de recherche, sinon pour plagiat, tout du moins pour spam.

« Nos systèmes excluent la grande majorité des contenus de faible qualité et de type spam de Google Actualités », a répondu un porte-parole de Google à CheckNews : « Nous agissons rapidement contre les pages qui ne respectent pas nos règlements, notamment en matière de spam ou de comportements trompeurs », rajoute-t-il, en réponse à nos questions, adressées mi-décembre, et après plusieurs relances.

Le site a beau avoir été depuis désindexé de Google Actualités, le moteur de recherche n'en répertoriait pas moins, la semaine passée, « environ 133 000 » de ses « pages » (et donc articles). Plus de 500 000 pages mentionnent son nom ou son URL.

Un bouton pour rapporter les articles « copiés de mon site »

Le site, qui propose depuis 2023 des éditions en anglais, italien, espagnol et en allemand, n'a pas de mentions légales. Il propose certes un n° de téléphone pour le contacter via WhatsApp, mais la messagerie indique que le numéro n'est pas (ou plus ?) utilisé.

News.dayFR se borne tout juste à proposer un bouton rouge « report » permettant de l'alerter au motif que l'article pâtirait d'une « erreur de formatage », qu'il contiendrait des « images inappropriées », du « contenu adulte », des « nouvelles incorrectes », ou qu'il aurait été « copié de mon site »... signe que son ou ses responsables reconnaissent que leurs articles relèvent du plagiat.

Un site au moins s'en est publiquement plaint, et les articles plagiés ont été effacés. Les avocats des médias français ont par ailleurs constaté que les demandes de retrait des articles plagiés effectuées par e-mail étaient elles aussi suivies d'effet.

Une nébuleuse de sites, ciblant de nombreux pays

Étrangement, les Privacy Policy des sites non-francophones de dayFR.com font référence à un site intitulé « Russia Posts English ». Ce dernier, dont on retrouve la trace sur archive.org, ressemble trait pour trait à la nébuleuse des sites *.dayFR.com. On y retrouve également trace d'un autre site « Brazil Posts English », et de nombreuses autres déclinaisons, ciblant de nombreux pays.

Archive.today a par exemple sauvegardé une trentaine de déclinaisons internationales du site, ciblant autant de pays, du Bangladesh au Vietnam en passant par la Suède, la Pologne, le Japon et la Chine, notamment.

La page « Advertise with us » du site brésilien comportait une adresse : 4108 Red Hawk Road, Minneapolis, MN, 55401, USA. L'adresse n'existe pas sur Google Maps. Une recherche sur Google nous renvoie à plusieurs sites qui la mentionnent eux aussi. S'ils ne sont plus en ligne, ils ont quand même été indexés par le moteur de recherche.

On découvre aussi que l'adresse à Minneapolis figurait également sur euro.dayFR.com, le pendant anglais de news.dayFR.com, et que son ou ses responsables avaient créé une autre nébuleuse de sites ciblant, cette fois, l'Italie.

La mention de l'adresse à Minneapolis sur AlKhaleejToday remonte à 2019, avant le lancement de News.dayFR et de sa nébuleuse. Le site semble avoir tiré son nom d'Al Kaleej, le principal journal (en arabe) émirati, et republie des articles en anglais au sujet de l'Arabie Saoudite et des Émirats arabes unis.

« 404 خطأ » (erreur, en arabe) & pictogrammes clonés

Autre point commun : sur les deux sites, les pages d'erreur affichent : « 404 خطأ » (erreur, en arabe), quand bien même News.dayFR se présente comme un site en français. Et les prénoms des prétendus auteurs des articles plagiés par News.dayFR sont précédés de la mention « كاتب » (rédacteur, en arabe).

L'identifiant publicitaire d'AlKhaleejToday est par ailleurs utilisé par cinq autres sites d'informations, lancés en 2024, tous arabophones. Leur mise en page s'apparente grandement à celle du serial plagieur, et les pictos de deux d'entre eux (à gauche) sont la copie conforme de ceux de News.dayFR (à droite).

« Et pendant ce temps au Moyen Orient, @lemondefr se fait allègrement pomper et traduire sans autorisations », se plaignait déjà, en 2020, l'une des chevilles ouvrières du quotidien, qui découvrait alors qu'un article du Monde avait été traduit et plagié par Al Khaleej Today. Étrangement, c'est la seule mention que nous avons identifiée d'une accusation de plagiat de sa part.

Vous voulez entrer sur Google News sans payer de journalistes ?

Jacques Pezet, journaliste à CheckNews, a par ailleurs remarqué la mention d'un CMS (pour content management system, ou système de gestion de contenu) dans le code source de News.dayFR :

<meta name="generator" content="Www.Mubashier.Com [1.8.0]" />

Le site n'est plus en ligne, mais via archive.org, on découvre qu'il s'agit d'un CMS optimisé pour entrer dans Google Actualités, sans pour autant avoir besoin de payer des journalistes pour écrire des articles, comme le suggère sa « baseline » publicitaire :

« VOUS VOULEZ ENTRER DANS GOOGLE NEWS ET VOUS N'AVEZ PAS DE RÉDACTEURS POUR ÉCRIRE DES NOUVELLES ? »

Mubashier se présentait même comme « le plus puissant en matière d'extraction de contenu sur des sites Web arabes en particulier ». Il arguait que « Google Arabic News n'a pas de règles aussi strictes que l'anglais » en matière de « contenus dupliqués » (« duplicate content », en anglais). Il ne le mentionnait pas explicitement, mais laissait entendre que son CMS pouvait permettre de plagier des articles écrits par d'autres sur son propre site, sans risquer d'être pénalisé, comme c'est le cas dans les pays occidentaux.

En juin 2020, le site précisait que son CMS permettait de gérer « tout type de site d'information, qu'il repose sur une équipe éditoriale ou sur une transmission instantanée à partir d'autres sites web », mais ajoutait un message d'alerte, demandant à ses clients de cesser le plagiat :

« Tous les clients doivent mentionner explicitement la source de l'information avec un lien direct, et répondre en arrêtant la récupération ou en supprimant toute source qui communique avec eux. »

Un CMS égyptien utilisé dans une guerre de l'information en Libye

En mai 2019, un rapport consacré à une « guerre de l'information en Libye », relayé dans un article d'Il Fatto Quotidiano, avait révélé que le CMS, créé par un développeur égyptien, avait été utilisé par un Saoudien pour créer six sites ayant copié-collé 15 000 articles en 15 jours.

Ces articles auraient eu pour objectif de présenter les forces du maréchal libyen Khalifa Haftar comme un « porteur de l'ordre » en Libye, « rempart contre le terrorisme » de Daech et d'al-Qaïda. Le fait que cette nébuleuse ait été administrée par un Saoudien s'expliquerait du fait que l'Arabie Saoudite faisait partie des premiers soutiens économiques du maréchal, précisait le quotidien italien.

À l'époque, le chef de guerre avait en outre lancé un appel à marcher sur la capitale du pays, déclenchant la « Bataille de Tripoli », guerre civile qui allait faire plus de 2 500 morts, dont près de 250 civils, et 147 000 déplacés.

Une recherche au sujet de mubashier.com renvoie à de très nombreux sites (en arabe), mais également à un site au design similaire à celui de News.dayFR (picto rond noir et blanc compris), et dont l'adresse de contact est support@mubashier.com.

On retrouve d'ailleurs ces pictos sur une archive de mubashier.com qui, en outre, proposait un formulaire (en arabe) permettant de l'alerter et proposant les mêmes motifs que celui proposé sur News.dayFR : « erreur de formatage », « images inappropriées », « contenu adulte », « nouvelles incorrectes » et « copié de mon site ».

614ᵉ au classement des éditeurs d'actualités et médias en France

Sur la centaine de sites d'information GenAI dont nous avons identifié qu'ils reposaient en tout ou partie sur du plagiat, News.dayFR est le moins discret (ou, plutôt, le plus bourrin) par son industrialisation du copier-coller. Les autres cherchent plus ou moins à passer sous les radars, par exemple en paraphrasant les articles, ne serait-ce que pour éviter d'être identifiés comme plagiaires.

Une chose est d'avoir identifié l'éditeur du CMS, et découvert qu'il aurait disparu. Identifier la ou les personnes qui administrent News.dayFR en est une autre. Si ce faisceau d'indices laisse entendre qu'il émanerait d'un éditeur arabophone, deux autres pistes pointent vers deux personnes résidant en France.

Or, le site figurait en 966ᵉ position au classement des Éditeurs d'actualités et médias (en France) de Similarweb en octobre dernier, passant à la 614ᵉ position en décembre. Il aurait engrangé plus de 140 000 visites ce mois-là. Si le site se monétise grâce à la publicité, nous n'avons pas été en mesure d'estimer ses revenus.

Des demandes de « nudes » et un chauffeur routier

En revanche, nous avons découvert que des comptes liés à News.dayFR.com et lesnouvelles-dujour.com (un autre site d'actus GenAI, considéré par le classement Similarweb des éditeurs d'actualités et médias en France comme son « principal concurrent », car « présentant le score de similarité le plus élevé avec news.dayfr.com ») envoyaient des... demandes de « nudes » associées au compte Snapchat d'un jeune homme qui venait d'avoir 18 ans.

Il est impossible à ce stade de savoir s'il s'agit de tentatives de polluer ses DM et de lui pourrir la vie (ou la réputation), ou s'il aurait fait lui-même ces demandes de « nudes ». Reste qu'il est improbable, incompréhensible et pour le moins intrigant que des comptes associés à des médias automatisés et générés par IA puissent envoyer des demandes de « nudes » personnalisées, renvoyant au compte d'un post-adolescent.

Les archives de nouvelles-dujour.com permettent par contre de remonter jusqu'à un entrepreneur de « marketing numérique » qui, s'appuyant sur une « équipe de sorciers spécialisés dans le référencement, les médias sociaux et la création de contenu », visait il y a quelques années « à vous faire découvrir en temps réel et en même temps toutes les dernières actualités en France et à l’international ». Ce qui correspond à la promesse éditoriale de la nébuleuse des sites liés à News.dayFR.

En 2022, il se vantait aussi d'avoir créé une dizaine de sites (GenAI) optimisés pour Google News, en anglais, français, arabe, allemand et espagnol. Tout en précisant qu'ils étaient gérés par une entreprise dont il donnait l'adresse, ainsi que ses numéros de téléphones portables. Ces derniers nous ont permis de remonter à… un chauffeur routier habitant en France.

À défaut d'être parvenu à identifier le ou les responsables de News.dayFR, il semble possible de pouvoir remonter à certains de leurs intermédiaires. Et ce, via des identifiants que nous ne partagerons pas publiquement.

Il n'en reste pas moins qu'un vieux logiciel égyptien de republication automatisée de plagiats, pas mis à jour depuis des années, « piratait » Google Actualités depuis décembre 2021, sans que les algorithmes du moteur de recherche parviennent à l'identifier comme spammeur et plagiaire.

4 300 articles en 24 h (un dimanche), soit 3 par minute

Ayant été désindexé fin janvier de Google Actualités suite aux questions de Next et CheckNews à son sujet, News.dayFR tente un « come-back » en s'offrant un petit lifting et migrant sous WordPress. Pied de nez à Google, il se décline désormais en dix nouveaux sites.

Sa version en anglais a en effet été revue et corrigée ce 29 janvier, celle en français le 1ᵉʳ février. Les deux proposent en outre des sous-noms de domaines thématiques « lifestyle », « sport », « today » et « trend ».

News.dayFR se présente désormais comme « votre source fiable pour les dernières nouvelles et mises à jour d’Italie et du monde entier », sans que l'on comprenne bien ce que vient y faire l'Italie. Le site ne cible que des pays francophones, au vu de la liste des catégories : France, Canada, Belgique, Sénégal et, étrangement, « Morocco » et « Swiss ».

Sa « vision » ? « Nous croyons au pouvoir de l’information pour façonner les perspectives et susciter des changements positifs. Notre objectif est d’être une source d’informations fiable qui permet à notre public de disposer de connaissances et d’informations sur les événements mondiaux et locaux importants ».

Le site arbore même plusieurs « engagements » :

  • « Exactitude et intégrité : nous privilégions les reportages factuels et respectons les normes journalistiques les plus élevées.
  • Impartialité : Notre contenu est exempt de tout parti pris et nous nous efforçons de présenter des points de vue divers.
  • Transparence : Nous nous engageons à faire preuve d’ouverture dans nos reportages, afin de garantir que nos lecteurs puissent avoir confiance dans les informations qu’ils reçoivent.
  • Engagement : Nous encourageons l’interaction des lecteurs et valorisons leurs commentaires pour améliorer notre couverture et nos services. »

Le site, pour l'instant, ne permet pas à ses lecteurs de commenter les articles qu'il continue de plagier. Mais sur le seul dimanche 2 février, il en a mis en ligne 1 300, soit près d'un article par minute... plus 3 000 autres sur les quatre sous-sites thématiques. Soit 4 300 en 24 heures, 180 articles par heure, ou 3 par minute, 24 h/24.

Les profils de ses autrices (il n'y a aucun pseudo masculin ni aucune photo), dont les « prénom.nom » fleurent bon la France – contrairement au Newsday.FR d'avant – sont en outre dotés de comptes sur Facebook, Twitter et Instagram, pour renforcer l'impression qu'il s'agit bien d'êtres humains.

Mais plutôt que de passer du temps à les créer, l'éditeur du site s'est contenté de faire des liens vers facebook.com/prenom.nom, x.com/prenomnom et instagram.com/prenomnom, quitte à renvoyer vers des erreurs 404 lorsque ces profils n'existent pas.

Toujours pour complaire aux règles de Google, le site, qui prétend avoir son siège social aux États-Unis et des bureaux au Canada, en Italie et en France, fournit aussi désormais leurs adresses postales et téléphoniques. Toutes fictives, évidemment.

Enfin, alors qu'il se contentait jusque-là de copier-coller les articles qu'il plagiait, il les paraphrase désormais (mal), pour éviter d'être accusé de « plagiat » et de « contenu dupliqué », pratiques dûment pénalisées par Google.

LES FEMMES DEFIENT LES PREJUGES SOCIAUXLes femmes définissent les préjugés sociaux
Au Sénégal, la place de la femme est très souvent circonscrite dans le foyer. De ce fait leur pratique de sport est mal vue. Sur les plages dakaroises, de jeunes filles ont réussi à imprimer leurs marques dans le surf. A travers leur persévérance, elles sont devenues des modèles de réussite.Au Sénégal, le lieu des femmes est très souvent circonscrit à la maison. En conséquence, leur pratique sportive est mal vu. Sur les plages de Dakar, les jeunes filles ont réussi à imprimer leurs marques de surf. Grâce à leur persévérance, ils sont devenus des modèles de succès.
À gauche, l'article original, à droite, sa version plagiée et paraphrasée par News.dayFR

Contactée par CheckNews, la régie publicitaire ukrainienne MGID a décidé de « bloquer le site web sur [sa] plateforme en raison de violations des droits d’auteur ». Si Google a désindexé le site de son service Google Actualités, réduisant sa visibilité, il n'a pas désactivé son compte publicitaire. La nouvelle version du site continue donc d'afficher des publicités Google, les contenus Criteo ayant succédé à ceux de MGID.

Commentaires (37)

votre avatar
Merci pour l'article.
Google ne se bouge quand même pas beaucoup...
votre avatar
Il n'ont rien à gagner à se bouger ils ne sont pas victimes des ces actions...
votre avatar
Pire que ça : ils ont tout à perdre à bouger. C'est ça, quand on est à la fois le premier moteur de recherche et la première régis régiE publicitaire...
votre avatar
Et Régis est un con, ce qui n'arrange rien à nos affaires :francais:
votre avatar
C'est corrigé ^^
votre avatar
Ce régis là ?
votre avatar
Absolument d'accord, Google a tout intérêt à faire monter au plus haut ces sites dans les résultats de recherche surtout si ces sites utilisent des pubs Google. Par exemple, un site sans pub comme Next n'a aucun intérêt pour Google.
votre avatar
En fait c'est simple: il faut juste arrêter de s'informer et vivre dans sa petite bulle, plus de souci d'AI, de fakenews, et autres joyeusetés :p
votre avatar
En fait c'est simple : il faut taper, fortement, sur les publicitaires du web, qui profitent allègrement de ce type de situations (et des fake news plus largement).

Sinon ta proposition marche aussi :D
votre avatar
Très belle enquête, merci.

Je note que l'automatisation est assez impressionnante et je me pose la question : comment font-ils pour pomper un article sur un site comme Libération où la majorité des articles sont payants ?
Ou alors ils ne pompent que ceux en accès libre ?
Ou bien ils utilisent un compte (moyen éventuel de les repérer donc peut probable) ?
votre avatar
oui ils doivent avoir des comptes abonnées
votre avatar
J'en dirai pas plus, mais leur paywall est une passoire
votre avatar
Pour Libé peut être (ils vont être contents de savoir ça 🤣), mais les autres sites avec abonnements ?
votre avatar
Beaucoup de paywalls ne sont pas très efficaces. Et si un site a un paywall qui bloque vraiment, les plagieurs vont simplement voir ailleurs, le Web est grand
votre avatar
Sur beaucoup de site d'actualité, un "clic droit->inspecté" ou "clic droit->code source de la page" suffit largement pour avoir l'article en entier.
votre avatar
Ou le mode lecture du brouteur suffit aussi à passer les paywall / cookie wall / whatever-else-shitty-idea wall.
votre avatar
Ou encore modifier le User-Agent pour apparaitre comme le robot d'indexation de Google (ou autre). Sur certains média, ça fonctionne.
votre avatar
Et pour plus de crédibilité, tu fais exprès d'échouer au CAPTCHA Cloudflare :mdr:
votre avatar
Sauf que l'on est baisé, un bot fait mieux que nous sur les tests de CAPTCHA...
votre avatar
En effet, avec les CAPTCHA faits pour bloquer les connexions automatisées qui ont servi in fine à entraîner des modèles d'OCR et perception visuelle pour ensuite les lâcher dans la nature et what-could-go-wrong :D

C'est fou comment la capacité de notre espèce à créer des solutions à des problèmes qu'elle s'invente qui engendre de nouveaux problèmes me surprendra toujours.
votre avatar
il se contente de copier-coller la partie gratuite (cf l'ex de l'article du jour de CheckNews de news.dayFR)
votre avatar
Il semble effectivement, je viens de comparer, je crois qu'ils utilisent le texte qui est dans un JavaScript de la page (qui je pense sert à la synthèse vocale de l'article). C'est le seul endroit où sont les mots "huissiers" ou "APIG" dans le code source de la page de Libé (donc pas visibles) alors qu'ils apparaissent dans le rendu HTML de l'article piraté (dernier paragraphe non présent sur le site de Libé sans compte abonné).

Sinon si l'article a été passé dans une IA pour produire ça, cette IA est une grosse daube, c'est plein de fautes de grammaire et d'orthographe (qui ne sont pas dans l'article d'origine).
votre avatar
Merci pour l'enquête.
Vous êtes cités par lemonde :
https://www.lemonde.fr/pixels/
votre avatar
Et déjà piraté : https://news.dayfr.com/technologie/15588.html

Ah et Next vous devenez Suivant !
votre avatar
Tout nu, dans ma serviette, qui me servait de pagne, j'avais le rouge au front et le savon à la main.
votre avatar
Le site se pourris lui-même, j'adore ! ^^
votre avatar
J'ai lu son plagiat ; il se pourrissait déjà rien qu'avec la qualité déplorable du texte. C'est illisible.
votre avatar
Ils s'en fichent, tant que l'indexation fonctionne et que l'argent rentre...
votre avatar
Perso, ce site je n'y retournerai pas
votre avatar
Vu leur bourrinage, je pense que nous, lecteurs de Next, ne sommes pas leur coeur de cible. ^^
votre avatar
N’hésitez pas à aller les voir chouiner sur twitter sous le thread de Jean Marc c’est priceless.
votre avatar
Il faut un compte X pour voir les réponses ? Pour une fois j'aurais bien voulu voir ça, mais je vais pas créer un compte X pour ça.
votre avatar
Avec une réquisition judiciaire il doit pourtant avoir moyen de remonter jusqu’à la personne physique.
Si les paiements des domaines / Cloudflare / hébergements n'a pas été fait depuis un paradis fiscal.
votre avatar
Ou via WordPress (wp.com) car ils copient les images des sites chez WordPress (les URL des images commencent par https://i0.wp.com, https://i1.wp.com, etc. suivi du nom du site d'origine).

Je pense donc qu'ils ont un compte étant donné les giga octets d'images qu'ils doivent avoir. Et là il est sans doute envisageable de faire jouer les droits autour des images, ils n'en n'ont pas la propriété et sur une demande à WordPress, il est peut être possible d'obtenir qui est derrière où à minima de faire supprimer les images ou faire fermer le compte.
votre avatar
Je viens de tester, en moins de 18 minutes un article d'un site passe en article piraté sur News.dayFR !
votre avatar
Cette enquête et la série d'articles qui en découle sont passionnantes et c'est remarquable qu'un média comme Next aie pu la mener, s'associer et même l'outiller.

Je trouve que cela éclaire bien votre travail sur l'IA que j'ai parfois jaugé déséquilibré, alarmiste et surfant sur une sorte de conservatisme sceptique défensif face au changement.

Félicitations et merci.
votre avatar
On a quand même des perles sur le site : "Drame dans un bâtiment en Suisse: deux morts mortels"

40 médias demandent le blocage de News.dayFR, le site GenAI qui plagie 6 000 articles/jour

  • Une demande de blocage, d'ici 15 jours

  • De 6 000 à 7 000 articles plagiés toutes les 24 heures

  • Un bouton pour rapporter les articles « copiés de mon site »

  • Une nébuleuse de sites, ciblant de nombreux pays

  • « 404 خطأ » (erreur, en arabe) & pictogrammes clonés

  • Vous voulez entrer sur Google News sans payer de journalistes ?

  • Un CMS égyptien utilisé dans une guerre de l'information en Libye

  • 614ᵉ au classement des éditeurs d'actualités et médias en France

  • Des demandes de « nudes » et un chauffeur routier

  • 4 300 articles en 24 h (un dimanche), soit 3 par minute

Fermer