(Màj) Qwant : des résultats datés, limités (mais répétés)
Dark (pattern) vendor

Marc Longo, « concurrent » de Qwant condamné pour « dénigrement », accusait le moteur de ne pas avoir mis à jour son index depuis 2017. Non seulement il y a bien des résultats datés, mais Qwant limite aussi à 50 le nombre de résultats affichés par mots-clefs. Il les répétait jusqu'à 12 fois, laissant penser qu’il aurait indexé bien plus de pages qu’en réalité. Suite à notre enquête, Qwant a mis fin à ces étranges duplications.
Le 06 août 2019 à 12h17
28 min
Internet
Internet
Après avoir exposé la génèse de ce qui a amené Marc Longo à être condamné pour « dénigrement » par le tribunal de commerce de Paris, pour avoir osé critiquer Qwant (voir le premier volet de notre enquête), restait à vérifier ses accusations.
Pour mémoire, le tribunal de commerce de Paris a en effet rappelé que « la divulgation d’une information de nature à jeter le discrédit sur un concurrent constitue un dénigrement, peu important qu’elle soit exacte, l’exception de vérité n’étant pas admise en matière de dénigrement » (nous avons souligné ce passage, NDLR).
Dans l’enquête du Virus informatique, un développeur de Qwant avait expliqué que « pour le moment, les 4 000 requêtes les plus fréquentes, représentant 40 % des recherches textuelles, sont traitées avec l’outil de Qwant, les autres étant encore sous-traitées à Bing de Microsoft ».
Nous avons donc effectué des recherches sur plusieurs des mots-clefs identifiés par l’huissier mandaté par Marc Longo comme relevant de l’index de Qwant et qui, en avril-mai, ne renvoyaient que des résultats datant de 2017.
Si plusieurs de ceux qui l’avaient renvoyé à des recherches périmées ont été depuis corrigés (parfois nettoyés, de sorte de ne plus avoir l’année 2017 dans le champ « titre » des pages indexées), il en est d’autres dont le contenu continue à dater.
En mai dernier, l’huissier avait en effet effectué un second constat de... 600 pages, portant sur « certains des mots les plus utilisés par les internautes sur les moteurs de recherche (Macron, Brigitte macron, Marine le Pen, SNCF, France 2, France 5, Carrefour, France 3, le Bon coin, BNP, LCI, Airbus, la Banque postale, gmail, etc.) », censés émaner de l'index de Qwant.com, mais dont aucun n'était, alors, « postérieur à 2017 », comme l’atteste cette capture d’écran, que Longo avait tweeté peu de jours avant d’être condamné :
À l'époque, YouTube était associé à 99 occurrences de l’année 2017, contre aucune en 2018 et 2019. La même requête, mi-juillet, était associée à 102 occurrences de 2017, 0 en 2018 et 4 pour l’année 2019. Une recherche YouTube sur Bing révèle par ailleurs que les résultats fournis aujourd’hui par Qwant sont très différents de ceux donnés par le moteur de recherche de Microsoft, et qu'ils émanent donc a priori de l'index de Qwant.
« lol watch this »
La présentation de YouTube sur Wikipedia (« un site web d’hébergement de vidéos »), telle que présente dans le cache de Qwant, figurait sur l’encyclopédie de janvier 2016 jusqu’au 14 mai 2018, date à laquelle elle a été modifiée pour préciser qu’il s’agissait aussi d’un « média social ».
« lol watch this », la bio du compte Twitter de YouTube, telle qu’indexée par Qwant, date quant à elle de 2017 : YouTube l’avait mise en ligne en novembre 2016 et modifiée le 16 janvier 2018, suite au « bad buzz » d’une vidéo montrant le cadavre d’un suicidé japonais, qui avait (re)soulevé le problème de la modération des vidéos sur la plateforme d'hébergement.
La page Facebook de YouTube affiche par ailleurs, sur Qwant, 81,9 millions de J'aime. Or, en mars 2017, elle en dénombrait déjà 82M, et en revendique aujourd’hui 83,6M.
Le 7e résultat, http://youtube-mp3.org/, ne répond plus depuis septembre 2017. La formulation associée au 8e résultat, « Si iTunes ne s’ouvre pas », figurait certes dans le code source de l’Apple Store jusqu’à fin 2017, mais elle n’est plus en vigueur depuis janvier 2018.
Le Tumblr de YouTube, qui figure en 12e position des résultats de Qwant, n’a plus été mis à jour depuis février 2017. gaming.youtube.com, le 13e résultat, avait été actif de juin 2015 à septembre 2018, date à laquelle il a été remplacé par youtube.com/gaming.
Sur Qwant, la dernière vidéo de Scootersystems, l'un des (rares) youtubeurs indexés, affiche 447 716 vues. Sur YouTube, elle en dénombre aujourd’hui 552 635. Sachant, par ailleurs, que cette vidéo date de 2015.
Le titre de la chaîne YouTube de FranceDiploTv, « French Ministry of Foreign Affairs and International Development », aurait certes été utilisé de 2015 jusqu’en novembre 2018, mais il correspond au portefeuille attribué à Jean-Marc Ayrault du temps de la présidence de François Hollande. Depuis mai 2017 et l’élection d’Emmanuel Macron, le périmètre du ministère a été modifié. Archive.org indique que le titre de la page aurait bien été renommé « French Ministry for Europe and Foreign Affairs » en décembre 2018.
L'horodatage associé au blog de YouTube renvoie, de son côté, au 22 novembre 2017, alors que ledit blog a été moult fois mis à jour depuis. Le 15e résultat, « Restez branchés 2015 », était certes le titre de la page consacrée aux réseaux sociaux de la Garde côtière canadienne de 2015 à août 2018, mais la mention de 2015 en a été retirée en octobre 2018.
Les palmarès hebdomadaires des bande-annonce YouTube de Think with Google, son blog marketing, datent tous, par ailleurs, de l'été 2017. De plus, leurs URLs renvoient aujourd'hui à des erreurs 404 : ils ont en effet depuis changé de rubrique, et les nouveaux palmarès ne sont pas répertoriés.
A contrario, une requête YouTube sur Qwant Junior retourne des résultats plus à jour : la page Instagram de YouTube y recense 19,7M de followers et 1 745 posts. Son profil Instagram compte aujourd’hui 20,6M d’abonnés, revendique 1 800 posts, son 1 745e datant d’il y a 8 semaines. Si les chiffres-clefs compilés par WebRankInfo.com sont ceux de 2019, ceux du blog du modérateur datent de 2017 (mis à jour en juin 2018).
Dans la liste des résultats rattachés à la requête « YouTube », on s’étonnera cela dit d’y trouver un site de « musique gratuite », trouveztout.org, permettant d’« écouter les nouveautés 2013 » (il n’a pas été mis à jour depuis « début 2014 »), ou encore un site de streaming hébergé par free.fr (http://www.bes.free.fr/) et... © 2009.
Si Qwant Junior semble plus mis à jour que Qwant web, YouTube est loin d’y être le seul mot-clef daté. Une requête au sujet de Gmail indique ainsi que sa page Facebook aurait 2 088 754 likes, alors qu’elle en dénombrait 2 011 101 en juin 2016, 2 612 937 en mai 2018, et aujourd’hui 2 935 959 (chiffre qui, à l'instar de ceux qui suivent, a pu évoluer depuis la rédaction de l'enquête, mi-juillet). L’article « Gmail et la pub : ce qui va vraiment changer » date, lui, du 5 juillet 2017. Le 25e résultat, un blog publicitaire, n’a pas été mis à jour depuis mars 2013.
En recherchant « google » sur Qwant, la page Facebook de Google France affiche 21 756 835 J’aime, alors qu’elle en revendique aujourd’hui 27 190 240.
Un internaute cherchant Marine Le Pen sur Qwant sera par ailleurs renvoyé à des articles de Riposte laïque datant de 2015, de France Culture de 2016, de Bastamag, du Monde, de BFM, de Polemia et du Figaro datés 2017, à Marine2017.fr, l’ex-site de campagne, cybersquatté depuis (au moins) février 2018, aux comptes YouTube et Twitter du « Front national » (qui n’existe plus depuis juin 2018) ainsi qu’à cinq interviews, datant de 2011 ou 2015, disponibles en replay sur frontnational.com (qui redirige pourtant, depuis juin 2018, vers rassemblementnational.fr).
S’il cherchait SNCF, Qwant l’inviterait à cliquer sur quatre liens renvoyant à voyages-sncf.com, bien qu’il ait été remplacé par oui.sncf en décembre 2017. Sur Qwant, la page Facebook de la SNCF affiche 184 390 J’aime, alors qu’elle en dénombre aujourd’hui 265 921. Celle d’Orange en compterait 22 396 178 d’après Qwant, alors qu’elle en revendique 28 379 277 à ce jour. Celle de Mediapart 766 737, contre 1 070 279 dixit Facebook.
Une requête aux mots-clefs « programme tv » renvoie d’autres résultats étonnants : le 33e, tv-express.com, fait ainsi la promo d’une « Passoire égouttoir magique » vendue par un certain Discount Concept, qui en avait récupéré le nom de domaine en septembre 2018. Progtv.net, 38e résultat, ne répond plus, lui, depuis juin 2018.
Des nettoyages cosmétiques
En tout état de cause, le problème ne concerne donc pas que le seul « Qwant Junior », mais bel et bien le « moteur de recherche » web et principal de Qwant. Et, mi-juillet, il n’était toujours pas corrigé, quand bien même ses crawlers étaient censés, chaque jour, passer « sur plus d’un milliard de pages pour en ajouter, supprimer celles qui n’existent plus, ou mettre à jour toutes les informations qui les concernent ». Éric Léandri a depuis déclaré, sous serment, qu’il en visitait « 2 milliards par jour » (voir plus bas).
Si certaines (rares) pages datent de 2019, de nombreux résultats et sites web n’ont pas été mis à jour depuis 2017, à commencer par Wikipedia, Facebook et YouTube. Ce qui est d’autant plus étonnant que des mots-clefs aussi attractifs et populaires que Le boncoin, YouTube, Gmail, SNCF ou programme tv devraient a priori faire partie des plus régulièrement indexés et mis à jour par un moteur de recherche. Mais également parce que Marc Longo en avait parlé publiquement mi-avril, et que Qwant, non content d’inviter ses utilisateurs à lui faire part des problèmes qu’ils pourraient rencontrer, a d'ores et déjà corrigé ou nettoyé certaines de ces « erreurs ».
En mai, Alexandre Thuriot, architecte SEO (search engine optimization, NDLR) chez M6 Web, remarquait ainsi sur Twitter que les sites de Cdiscount et Darty, notamment, étaient eux aussi truffés de résultats datant de 2017. Ils ont depuis été corrigés… partiellement : leurs pages Facebook, telles qu’elles ont été indexées par Qwant, indiquent là aussi un nombre de « J'aime » bien inférieur à ce qu’il en est réellement.
Début juillet, Benoit Tabaka, directeur des relations institutionnelles et des politiques publiques de Google France, s’étonnait sur Twitter qu'une recherche au mot-clef « Médias » renvoyait, sur Qwant images, à des chaussettes (« medias », en espagnol). Qwant a depuis corrigé le problème (qui émane des résultats de Bing, le moteur images de Qwant n’étant encore qu’en phase beta), ce qui n'a pas empêché Guillaume Champeau de qualifier le tweet du « lobbyiste en chef de Google » de « coup bas ».
Le 11 juin, Stéphane Erard, ancien salarié de Qwant en conflit avec son ex-employeur, partageait de son côté sur Twitter une capture d'écran montrant que, en cherchant « mon ip » sur Qwant, le site monip.org révélait que le crawler de Qwant n'était autre que Bingbot, celui de Microsoft.
Depuis, Qwant a fait le ménage : le site monip.org a disparu des résultats (alors qu'il arrive encore en 14e position sur Bing), les adresses IP ont été remplacées par des x.x.x.x. (de sorte qu’il n’est plus possible de savoir si elles appartiennent à Microsoft ou Qwant), et le « noeud réseau rattaché AS AS199064 » (pour Autonomous System, soit l’ensemble de réseaux IP contrôlés par une entité, cf Wikipedia) enregistré par le service IP de Korben.info, est désormais rattaché à Qwant.
Sauf qu'en cherchant services.korben.info/ip ou « Nœud réseau rattaché » sur Qwant, l'AS associé au crawler de Qwant est bel et bien encore rattaché à Microsoft. La seconde réponse renvoie à ce titre à un blog qui avait démontré, en 2017 et en exploitant le même genre de traces réseaux, que Qwant et DuckDuckGo se fournissaient déjà à l'époque en résultats chez Bing, et que leurs crawlers respectifs étaient ce même Bingbot.
Des résultats répétés jusqu’à 12 fois
Non content de se reposer sur un index daté – ou en tout cas pas bien mis à jour – Qwant les présentait dans une interface que l'on pourrait qualifier de « truquée » (« dark pattern », en VO). Qwant ne répertorie en effet que 7 résultats à la requête « Nœud réseau rattaché ». Les mêmes que Bing.
Mais à la différence de ce dernier, qui d'ordinaire propose de cliquer sur la page suivante tous les 10 résultats (et qui en l'espèce n'en propose que 7), Qwant les répétait en boucle lorsqu'on faisait défiler la mollette, jusqu'à 12 fois (en fonction de la taille de votre écran), laissant entendre qu'il aurait donc indexé bien plus de résultats qu'il n’en présentait en réalité.
Ces étranges répétitions, rencontrées moult fois lors de notre enquête, ont soudainement disparu ce jeudi 1er août, à la veille de la publication de notre enquête, et alors que nous avions plusieurs fois relancé Qwant pour comprendre s'il s'agissait d'un « bogue », ou d'une « fonctionnalité », sans obtenir de réponse jusqu'à ce vendredi après-midi : « C'est une coïncidence. Nous travaillons sans cesse à améliorer notre moteur de recherche et j'imagine qu'une amélioration du système a fait disparaître la chose », nous fait savoir Tristan Nitot (voir ses autres réponses in extenso plus bas).
Par ailleurs, et quels que soient les mots-clefs recherchés, Qwant n'affichait jamais, et tout au plus, que 150 résultats (parfois moins) avant d'afficher, à la fin d'un « scroll down », que « Les résultats suivants sont probablement peu pertinents, veuillez reformuler votre requête ». Et lorsque Qwant avait moins de 50 réponses à proposer, le fait de « scroller » les répétait en boucle 3, 4, 5 et donc jusqu'à 12 fois en fonction du nombre de résultats disponibles (et de la taille de l'écran).
Le 1er août, à la veille de la publication de notre enquête, et alors que nous relancions Qwant pour en savoir plus à ce sujet (voir plus bas) ces deux fonctionnalités ont été modifiées : désormais, et sur les différents mots-clefs que nous avons testés, le moteur n'affiche plus que 50 résultats, que les réponses viennent de l'Index de Qwant ou de celui de Bing. Les étranges répétitions en boucle ont, d'autre part, disparu.
En tout état de cause, et fin juillet, une recherche sur le mot-clef YouTube ne renvoie ainsi qu'à... 45 résultats, répétés 3 fois en boucle, alors que Bing en revendique de son côté 438 000 000, Google 12 750 000 000, et Qwant Junior (qui fonctionne pourtant sur un nombre restreint de sites web mis en liste blanche) 130.
Qwant ne renvoie, de même, que 50 résultats aux mots-clefs google et figaro (répétés 3 fois), 47 pour sncf, 43 pour programme tv et 40 pour gmail (mais répétés 4 fois), ou encore 30 pour corse et 29 seulement pour sexe (répétés 6 fois). Voire : archive.org n’a enregistré aucune page active de sexepoursexe.com, et la dernière archive de sexe-sexe.fr date de… février 2015. Marine Le Pen, de son côté, n’a droit qu’à 26 résultats.
Ce 31 juillet, à la veille de la publication de notre enquête, et alors que nous attendons les dernières réponses de Qwant à nos questions (que nous leur avions fait parvenir il y a près de 15 jours), une recherche aux mots-clefs le bon coin renvoie 60 résultats, contre 35 mi-juillet.
Ce faible nombre de résultats est d’autant plus étonnant qu’en filtrant les résultats pour n’afficher que ceux datant du dernier mois, Qwant renvoie une trentaine (maximum) de résultats plus récents, mais qui ne figurent pas, pour la plupart, dans ceux affichés par défaut. Reste qu’en l’état, et contrairement à Google ou Bing, Yandex ou Baidu – auquel Eric Léandri compare souvent Qwant – il est impossible de savoir combien de pages Qwant a indexé par mot-clef, sinon qu’il n’en affiche jamais plus de 50, et que ces résultats étaient répétés jusqu’à arriver à la limite de 150 résultats.
Des « moteurs » et des « interfaces » de recherche
Auditionné le 12 juin dernier par la commission d'enquête du Sénat sur la souveraineté numérique, Eric Léandri expliquait : « un moteur de recherche, c'est par définition un outil qui permet de savoir où se trouve l'information recherchée. Au préalable, il faut donc qu'il connaisse le maximum d'informations pour pouvoir répondre à la question qui lui est posée. C'est le rôle de l'index ». Avant de préciser : « pour constituer son index, Qwant envoie des logiciels appelés crawlers, ou indexeurs, qui, simulant l'activité d'un internaute lambda, se promène sur internet, regarde le contenu de la page et en note les changements ». Il ajoutait : « aujourd'hui, l'index de Qwant compte 20 milliards de pages, dont 2 milliards sont visitées chaque jour ». Soit 1 milliard de plus par jour qu’en novembre dernier.
Ce qui rend d’autant plus incompréhensible le fait qu’autant de pages datent encore de 2017 d’une part, et que Qwant ne répertorie, d’autre part, que moins de 50 pages par mot-clef lorsqu’il fait appel à son propre index.
Lors de ladite audition, Éric Léandri avait précisé : « dans le monde, il n'existe que huit vrais moteurs de recherche grand public qui disposent à la fois de leur propre index du web et de leurs propres algorithmes : Google et Bing aux États-Unis, Naver en Corée du Sud, Yandex en Russie, Baidu en Chine, Seznam en République Tchèque, Yahoo au Japon, et Qwant en France. Tous les autres sont des méta-moteurs qui utilisent exclusivement les résultats fournis par d'autres moteurs de recherche – la plupart du temps Google ou Bing. Ce sont des interfaces de recherche ». Et de conclure : « Cette différence est décisive. C'est en cela que Qwant est stratégique ».
En exergue de son audition, il n’en avait pas moins reconnu : « nous avons encore beaucoup de travail à réaliser ». « Nous avons parfois pris du retard, ce dont certains profitent d'ailleurs pour nourrir leur entreprise de déstabilisation, à grand renfort de théories du complot », visant implicitement (et notamment) Marc Longo, dont l'objectif serait de « démolir nos travaux et notre entreprise ».
« Il existe un point commun entre toutes ces attaques », soulignait alors Léandri : « ceux qui les relaient refusent systématiquement de s'intéresser à notre travail ». Nous avons d'ailleurs été invités à venir rencontrer l’équipe de Qwant, ce que nous avons décliné. L'enquête porte en effet sur le moteur de recherche, non la start-up. Les utilisateurs de Qwant s'en servent depuis leurs ordinateurs, pas dans les locaux de l'entreprise.
C’est pourtant précisément parce que Marc Longo s’était intéressé, dès son lancement en 2013, à son travail d’indexation du web, qu’il avait ensuite découvert que les résultats de Qwant étaient ceux de Bing, puis payé un huissier pour constater les résultats de l’index de Qwant, qu'il s’était permis de le critiquer.
En l’état, Longo n’a plus le droit, depuis sa condamnation mi-juin, de s’exprimer au sujet de Qwant, en attendant la décision du juge d’exécution qui l’a auditionné le 22 juillet, et qui devrait rendre son jugement le 10 septembre.
Les (nouvelles) explications de Qwant
Contacté il y a 15 jours pour comprendre ce qui relèverait du bug, du choix, de la stratégie, de problèmes techniques ou financiers, de dysfonctionnements ou de fonctionnalités, Qwant, par l’entremise de Tristan Nitot (que nous connaissons depuis longtemps), nous répondait le 26 juillet : « c'est un peu tout cela à la fois (...) et c'est aussi pour ça que Qwant investit toujours davantage qu'il gagne aujourd'hui. Construire un moteur de recherche coûte cher, mais c'est un investissement nécessaire et très profitable à moyen/long terme. Notre volonté est d'être le plus possible indépendants, mais les contraintes sont nombreuses. La techno, le temps, la trésorerie, l'infra, les attentes des utilisateurs, les besoins en scalabilité dues au succès de Qwant et à l'afflux de nouveaux utilisateurs... »
Et ce d’autant que, précise-t-il, « le moteur de recherche de Qwant évolue de façon constante » : « D'une part, nos ingénieurs améliorent les sous-systèmes et en conçoivent de nouveaux, qui viennent remplacer les anciens. Le tout tourne sur une infrastructure de plusieurs centaines de serveurs, ce qui est une contrainte en soi : quand on met un nouveau système en place, on doit en supprimer un autre pour faire de la place. C'est pour cela que le récent partenariat avec Microsoft autour de leur offre de cloud Azure est important pour nous : il nous donne de la flexibilité. Ainsi la génération de l'index commence à se faire sur de nouveaux serveurs basés en région parisienne en complément de ceux de notre infrastructure pour pouvoir indexer plus de pages et aussi augmenter la qualité des résultats. Tout cela fait que les limites que tu signales pourraient changer dans les jours qui viennent. Nous jonglons donc avec ces contraintes du mieux que nous pouvons, et il arrive que des bugs se glissent. Quand on nous les signale, nous les corrigeons aussi vite que possible ».
Nitot reconnaît par ailleurs, concernant le fait que le bug n'aurait concerné que la seule partie « Junior » – comme il l'avait expliqué en avril dernier – que « Guillaume s'est trompé de bonne foi. Il pensait le bogue limité à Qwant Junior, mais en fait il était aussi sur Qwant.com. Je lui ai demandé comment c'était arrivé. Voici sa réponse : »
« Je tweete trop et parfois trop vite. Au moment où je tweete ça, on est sûr que le bug se limite à cet onglet de Junior parce qu'on sait qu'il n'a pas migré comme les autres vers notre nouvelle techno et que ça semble donc logique d'avoir ce bug. C'est après coup qu'on réalise que c'est en réalité plus large et qu'on comprend alors ce qui s'est passé. J'aurais certainement dû prendre le temps de vérifier davantage avant de répondre – voire ne rien répondre du tout – mais sincèrement, quand ce genre de constatation vient d'individus qui passent (et je n'exagère pas) leurs journées à dénigrer Qwant et à chercher à prouver par A+B qu'on mentirait sur la réalité de notre index, alors qu'on est assis juste à côté des gens qui font cet index et qui se sentent insultés, franchement, on fatigue. Mea culpa, errarum humanum est. »
De sorte d’éviter d’avoir à trop couper ou interpréter les réponses de Tristan Nitot, vous trouverez ci-après la suite de nos questions-réponses, quasi in extenso.
Comment expliquez-vous que Qwant retourne plus de contenus datant de 2017 que de 2018 ou 2019, ainsi que des sites ou pages web qui n'existent plus depuis des années ?
Pour des raisons de coûts et de rapidité de réponse, il est vital pour nous de disposer de systèmes de caches à multiples niveaux : on a un cache HTTP classique. Derrière, on a un index « chaud » qui contient les requêtes les plus courantes. Derrière encore, un index "froid", lequel est directement alimenté par les crawlers, donc avec les données les plus à jour.
L'index chaud est une sous ensemble de l'index froid, il répond aux requêtes les plus fréquemment demandées par nos utilisateurs. Il peut arriver qu'il contienne des vieux documents, surtout si la requête ne contient qu'un mot. Cela s'explique par le fait qu'un très grand nombre de documents (plusieurs dizaines de millions) contiennent le mot recherché.
Ainsi, ordonner les 100 premiers documents les plus pertinents parmi les dizaines de millions que l'index remonte est extrêmement complexe et toujours un sujet de recherche, même chez nos concurrents. Quand tu affines une recherche en indiquant plus de mots dans la requête, tu facilites en fait le travail de l'index, qui remonte alors le document plus frais que tu recherches. Cela vient s'additionner avec le problème du cache que j'évoquais dans mon billet sur LinkedIn.
Comment expliquez-vous qu’en filtrant les résultats pour n’afficher que ceux datant du dernier mois, Qwant renvoie quelques dizaines d'autres résultats récents, qui ne figurent pas, pour la plupart, dans ceux affichés par défaut ?
Cela confirme ce que je dis plus haut : on a des résultats frais, nos crawlers fonctionnent, notre index aussi, mais les différents niveaux de cache font qu'il arrive que certains résultats affichés soient issus du cache et non pas de l'index. Nous travaillons à résoudre cela. Nous sommes en train de revoir ce système de cache et nous visons à le moderniser très prochainement, et il est fort possible que les conclusions de ton article ne correspondent plus à la réalité que pourront constater les lecteurs au moment de sa publication ou juste après.
Comment expliquez-vous qu'une requête effectuée sur Qwant ne renvoie que 150 résultats ?
C'est une pratique commune chez les moteurs de recherche, chez Qwant comme chez Google. En effet, il est démontré que 75 % des utilisateurs ne visitent que la première page. Du coup, les quelques pages suivantes sont très rarement visitées et donc suffisantes.
Nous avons pu observer que les seuls utilisateurs qui vont plus loin sont en fait des robots qui tentent de se faire un index à bon compte. Par exemple, voici quels résultats (10 résultats par page) sont cliqués sur une recherche. Dès le 10e résultat (fin de 1ere page), on tombe sous le 1%.
Du coup, mais peut-être ne l'as-tu pas vu, les moteurs de recherche – y compris Google – limitent le nombre de résultats. Quand je cherche "Crédit pas cher" dans Google, il me dit qu'il a près de 30 millions de résultats sur la 1ère page et m'en montre... 170 seulement. Quand je cherche "Macron" dans Google, j'ai 160 millions de résultats... qui tiennent en 9 ou 10 pages (ça dépend des fois).
Comment expliquez-vous que Qwant, qui indexait 20Md de pages en novembre 2018, et en crawlait 1Md par jour, n'en indexe toujours que 20Md aujourd'hui, tout en en crawlant dorénavant 2Md/jour ?
Il faut savoir que notre infra peut indexer jusqu'à 20 Md de pages pour l'instant. La limite ici pour l'indexeur est triple : le stockage, le CPU (traiter cette immense quantité de données) et les temps de réponse qui en dépendent.
Quant au crawl, nous sommes plutôt contraints par la bande passante (autant la notre que de du coté des sites crawlés, voir la notion de "politeness"). La vitesse de crawl est variable. Elle est fonction des phases de découvertes (on va alors vite) et de mise à jour des documents déjà présents (plus fait au fil de l'eau).
Pourquoi Qwant n'affiche-t-il pas, comme le prévoient les CGU de Bing, que tout ou partie des résultats sont fournis par Microsoft ?
C'est compliqué de répondre à ta question parce que les accords entre Microsoft et Qwant sont couverts par un accord de confidentialité que je dois respecter.
Comment expliquez-vous qu'une requête sur l'un des mots présents dans l'index de Qwant n'affiche jamais plus de 50 résultats seulement (contrairement à ceux en provenance de Bing, qui vous en fournit jusqu'à 150) ?
En fait tout cela est réglable et c'est susceptible d'évoluer : nous cherchons sans cesse le meilleur compromis entre l’expérience utilisateur (rapidité, pertinence) et les contraintes de nos systèmes. Comme les systèmes évoluent, ces contraintes évoluent aussi. Je vais me renseigner sur ce sujet.
MàJ reçue ce 2 août après-midi, après parution du premier article : Nous testons plusieurs types de réglages qui sont fonction du niveau de charge sur notre infrastructure, sachant, comme je te le disais, que les gens ne vont quasiment jamais au delà de la troisième page (30 résultats).
Comment expliquez-vous que, lorsque Qwant dispose de moins de 50 réponses, son interface les répète en boucle lorsque l'on défile vers le bas (jusqu'à plus de dix fois lorsque son index répertorie moins de 10 réponses), laissant entendre que son index comporterait donc bien plus de pages qu'il n'en contient réellement ?
Je vais me renseigner : j'ai posé la question en interne, j'attends leur réponse. Je penche pour un bug. Je te transmets ça dès que je l'ai avant mercredi 31/07 au soir normalement.
MàJ reçue le 1er août après-midi : Comme tu le signales sur le mot-clé "Youtube", Il arrive exceptionnellement qu'une requête renvoie plusieurs fois le même jeu de résultats. C'est bien un bug. En l'occurrence, je n'arrive pas à le reproduire immédiatement mais je l'ai déjà vu. J'avais posé la question à mes collègues de la production sur l'origine de la chose, mais comme tu le sais ils étaient très occupés et je n'ai pas obtenu de réponse de leur part.
Comment expliquez-vous que ledit "dark pattern" ait été désactivé ce 1er août, à la veille de la publication de notre enquête ?
MàJ reçue ce 2 août après-midi, après parution du premier article : C'est une coïncidence. Nous travaillons sans cesse à améliorer notre moteur de recherche et j'imagine qu'une amélioration du système a fait disparaître la chose.
MàJ, mardi 6 août : Ce lundi soir, à 21h46, Qwant a publié un fil sur Twitter en réponse à notre enquête (puis un billet sur Medium ce mardi midi), confirmant le « problème de cache » et « une erreur d’adressage qui a en quelque sorte « rebranché » un index de 2017 mis en sommeil ». La « répétition des mêmes résultats dans les 50 résultats proposés sur certaines requêtes » serait « un autre bug » que ses équipes « ont identifié et corrigé grâce à la question posée ».
Qwant ajoute : « sur chaque requête nous avons souvent des millions de résultats crawlés puis indexés mais ce sont bien uniquement les résultats les plus pertinents qui sont affichés » (ce dont nous n'avons jamais douté).
L’entreprise regrette enfin que « les conclusions de l’article laissent entendre que Qwant ment à ses utilisateurs et ne développe pas son index ». Ce que nous n’avons ni écrit ni (a fortiori) voulu laisser entendre.
Eric Léandri, président cofondateur de Qwant, a de son coté – et avec notre accord – mis en ligne nos échanges de mails. Ils montrent notamment que l'auteur de cette enquête n'a pas « refusé » l'invitation de Qwant, mais précisé qu'il n'y répondrait favorablement que lorsque Qwant aurait répondu à nos questions. Or, les derniers éléments ne nous sont parvenus qu'après la publication du premier volet.
En tout état de cause, nous ne pouvons que saluer cet effort de transparence de la part de Qwant.
Commentaires (217)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 03/08/2019 à 09h11
Perso, j’étais convaincu par qwant il y a 2, 3 ans. Je me disais qu’il y avait des bugs des temps en temps, ou lenteurs, ou des résultats moins pertinents… Mais au bout d’un moment ça a déconné, quand tu cherches des résultats en anglais ou des résultats qui concernent un autre pays (par ce que tu es à l’étranger), qwant est une incroyable source de perte de temps. Je ne trouvais jamais rapidement ce que je souhaitais.
Hop, je passe à duckduck go, il y a la possibilité de rechercher des résultats selon le pays. En général la recherche est pertinente et je ne perds pas mon temps. Eux assument le fait de ne pas tracker Les utilisateurs et de n’être qu’un méta moteur.
Quant, ils enchaînent les casseroles et n’assument pas le fait d’être un mi metamoteur - mi moteur de recherche. Ils n’ont aucune transparence, et veulent surtout cacher le plus possible leurs contrats avec Microsoft tout en y utilisant le maximum.
Comme les smartphones Français fabriqués en chine, ça m’étonnerait qu’il y aura beaucoup de souveraineté dans qwant.
Le 03/08/2019 à 09h13
Ils ont peut être les yeux plus gros que le ventre. Je n’arrive pas à comprendre pourquoi ils n’ont pas démarré comme metamoteur français respectueux de la vie privée comme le fait très bien duckduckgo en utilisabt les meilleurs moteurs selon la zone géographique et la réponse concernée ? Une fois l’audience importante et le modèle économique mieux élaboré, ils lèvent des fonds et crowdfund un vrai moteur avec leurs spécificités, leurs innovations et le support de leurs utilisateurs.
Ca aurait été plus cohérent que la situatiin actuelle où le moteur cache les mentions bing.
Le 03/08/2019 à 09h15
Il faut être un concurrent pour tomber dans ce cas de figure. Et attendons la décision en appel.
Le 03/08/2019 à 09h19
Je viens de faire un tour sur Twitter… et c’est pas joli. Cela confirme la stratégie de comm de Qwant.
Tout mon soutien à Jean-Marc Manach qu’on aimerait lire plus souvent sur NI.
Le 03/08/2019 à 09h20
Le 03/08/2019 à 09h21
Merci pour les 2 articles. Très intéressant et sacré travail.
Je suis utilisateur de Qwant depuis presque le début pour plusieurs raisons:
Certes utiliser le moteur Google, c’est sans doute plus de fiabilité mais si on veut que les choses changent, il faut savoir aller de l’avant.
J’ai une utilisation qui concerne ma vie perso mais aussi pour le boulot. Et évidemment quand ça ne marche pas sur Qwant, je bascule sur google. Ca arrive mais c’est finalement rare.
Quelques commentaires:
Le 03/08/2019 à 09h22
Super série d’articles
" />
" />
Le 03/08/2019 à 09h24
Le 03/08/2019 à 09h38
Le 03/08/2019 à 10h10
Le 03/08/2019 à 10h18
Mon boss n’a jamais apprécié qwant à cause de certaines de leurs pratiques côté business que je ne détaillerai pas - devoir de réserve - et je commence à comprendre pourquoi. Je n’en dirai pas plus, juste qu’il en a une très mauvaise opinion. Pour le reste à un moment j’ai hésité à utiliser ce moteur, mais finalement suis content de garder duckduckgo pour l’essentiel de mes recherches.
Le 03/08/2019 à 10h47
Boulot d’info précis, merci
Le 03/08/2019 à 10h52
Non, le dénigrement consiste à dire du mal d’un concurrent pour son propre profit. Et oui, même si c’est une information exacte, ça ne change rien au fait de nuire à autrui dans le seul but d’en tirer profit.
Le 03/08/2019 à 10h59
Le 03/08/2019 à 11h05
Moi, au contraire, j’ai même ouvert un compte sur qwant.com : j’ai lu à plusieurs reprises des gens dire du mal de Qwant sur Linkedin, sur Twitter et aussi sur Next inpact, et je ne tolère pas le mépris gratuit, la facilité de nuire à autrui sans déclarer ses intérêts et ses (mauvaises) intentions. C’est pareil quand une personne m’arrête dans la rue pour me faire signer une pétition et qu’après avoir signé, il me dit qu’il faut faire un don (en espèces bien sûr). C’est un comportement d’arnaqueur (quand bien même Qwant ou qui que se soit d’autre serait la pire des arnaques).
Faire appel à la morale des gens quand on se comporte comme un cuistre, c’est à condamner avec la plus grande fermeté. Ce sont des comportements comme ça qui détruisent la confiance dans la société.
Le 03/08/2019 à 11h43
Après, tout ceci dépend du point de vue de chacun. Dans certains cas, c’est cette même dénonciation qui permet de découvrir des comportements odieux ou même illégal (je pense par exemple à cette affaire où plusieurs fabricants d’appareils électroménagers se sont entendus pour faire gonfler les prix et c’est sur de la dénonciation que cette magouille a été épinglé par la répression des fraudes).
Pour Qwant bien entendu, c’est différent car on est pas dans un cas d’illégalité mais ça soulève quand même un point majeur qui, personnellement, m’empêche de faire confiance à Qwant.
Parce que maintenant, la question n’est même plus de savoir ce que n’est pas Qwant mais plutôt ce qu’il est. Au fil des mois, des ans et des articles de presse, ça met en évidence qu’on ne sait pas vraiment ce que c’est.
Est-ce un moteur de recherche, un méta-moteur, est-il actif ou non, est-il fiable ou non ? On ne peut pas se présenter en alternative si on est pas capable d’apporter une réponse claire à ces questions. Et malheureusement, Qwant n’est absolument pas clair sur ça. Encore moins sur ses intentions.
Alors qu’aujourd’hui, on ne fait que demander de plus en plus de transparence sur tout ce qui nous entoure, Qwant fait exactement l’inverse. Et c’est assez terrible comme situation parce que ça va nuire à la confiance dans ce genre de projets qui se posent en alternative à Google.
Le 03/08/2019 à 22h51
Purée, Qwant ça craint
Le 04/08/2019 à 06h41
J’ai du mal à tirer des conclusions à la lecture de cet article. Qu’est ce qu’est vraiment Qwant, au final ?Aucune des réponses ne m’a convaincu…
Le 04/08/2019 à 07h15
Qwant ça fait quand même depuis le début que c’est louche :
Bref, faute de transparence, ça pue très fort la bonne startup à la française : du vite fait mal fait, de l’accumulaction de dette technique et des objectifs à court terme uniquement basés sur les investisseurs publics ou privés à impressionner pour le mois prochain.
Bref. J’espère sincèrement me tromper, mais ça commence à sonner bien creux.
Quand on à DuckDuckGo en face qui avance tranquillement tout en étant transparent sur leurs pratiques ET leurs partenariats, bah l’argument de souveraineté pèse plus très lourd. Malheureusement.
Le 04/08/2019 à 07h23
Le 04/08/2019 à 08h06
Il suffit de choisir Outils > et changer “Tous les résultats” en “Mot à mot”
Le 04/08/2019 à 08h21
J’étais passé sur Qwant et limite j’encourageais les gens à faire de même.
Mais il est vrai que les résultats n’étaient pas toujours terribles. Même si parfois, ça m’amenait des choses plus “larges” lors de mes recherches.
Mais j’ai vu aussi que le moteur renvoyait sans arrêt les même réponses pour certaines requêtes. Ou de vieux trucs, ce qui fait que je passais sur Google.
Au final, je pense sincèrement que je vais remettre Google par défaut. Au moins en attendant d’avoir un truc viable. Vous allez me dire y a DuckDuckGo (et d’autres), mais ça ne fait jamais que se servir de Google, derrière, aussi.
J’ai vraiment l’impression (mais corrigez-moi si je me trompe) qu’on a pas vraiment de “belle” alternative face à Google, pour le moment.
C’est dommage. Qwant c’était “beau”, c’était “chez nous”, mais comme trop souvent, ça ne se donne pas vraiment les moyens qu’il faut.
Le 04/08/2019 à 09h04
Idem, j’avais essayé Bing et Qwant pendant plusieurs mois mais aucun des deux me convenaient. Obligé de repasser à Google pour 50% des recherches… Je comprend mieux maintenant.
En ce moment j’essaie un peu duckduckgo mais ce n’est pas encore suffisant pour se passer totalement de Google…
A voir ce que donnera Qwant & autres dans le futur 🤔
Le 04/08/2019 à 09h06
Chaque réponse est un évitement : peut-être, ou peut-être pas. Pour moi les deux théories exposées sont plausibles. C’est d’ailleurs là qu’est l’os…
Le 04/08/2019 à 10h03
Ah mais champeau est dans l’histoire ? Ça explique des choses
" />
" />
…
Ça explique que c’est le meilleur moteur de recherche du monde, seulement un peu jeune mais très prometteur et sur la bonne voie
Il faut juste que la BPI et les investisseurs continuent d’arroser et notre souveraineté nationale sera à donf
Le 04/08/2019 à 10h21
Si Duckduckgo c’est du Google derrière, autant passer par lui plutôt que continuer à enrichir Google.
Je vois Qwant comme firefox, il n’est pas parfait et ne dispose pas des mêmes moyens que ses concurrents mais offre au moins la possibilité d’avoir une alternative.
Le 04/08/2019 à 10h43
C’est marrant, je ne perçois pas les choses de la même façon.
“ils évitent les réponses claires sur leur fonctionnement depuis leur lancement. ”
J’ai l’impression que justement, ils souffrent de leur transparence. Là où personne ne sait comment Google ou autre fonctionne, eux décrivent leur fonctionnement et sur quelle techno ils s’appuient (Bing, Azure, OSM et bien entendu leur techno interne) mais ça ne suffit jamais et ça hatise encore plus les “doutes”.
“ils se sont raccrochés à l’argument du respect de la vie privée quand c’est devenu tendance. ”
Comme tous, y compris Google.
‘Ils n’arrivent pas à régler leurs soit-disants bugs d’indexation sur leur produit principal mais trouvent quand même les ressources pour lancer et maintenir Qwant Junior et Qwant Music. ’
Beaucoup ont été corrigés il me semble, mais dans tous les cas, c’est plus facile (du moins, ça ne demande pas les même compétences) de lancer un nouvel index que de modifier le coeur du produit.
“Ils foutent une librairie JS OpenStreetMap en plein écran avec leur logo et communiquent dessus comme si c’était le prochain Google Maps. ”
Ce n’est pas que du JS :). En effet, ils ont préféré s’appuyer sur OSM pour la cartagraphie (ça me semble plutôt pertinent non ?)) et les Pages Jaunes pour les POI. Ca ne couvre pas 100% des usages de Google Map mais ça permet là aussi d’avoir le choix.
“ Ils n’ont aucun business plan affiché, à part gagner de l’argent avec de la pub.”
La pub fait encore vivre une bonne partie du web, mais il est fort probable que d’autres modèles viennent s’y ajouter (sans doute créer d’autres verticales (chacune d’elle peut avoir son propre modèle) et/ou proposer leur techno aux entreprises à l’image de ce que fait Exalead). Au passage, tu connais ceux des autres moteurs ?
Le 04/08/2019 à 10h53
Qu’est-ce qui est alternatif dans Qwant ? L’utilisation qui est faite des données personnelles ? On n’a pas vraiment d’éléments pour en juger, à part la confiance qu’on peu avoir dans les déclarations des dirigeants, dont la crédibilité est émoussée par une communication erratique.
L’imperfection technique est tout à fait pardonnable, c’est la communication qui est désastreuse, et ça c’est impardonnable pour une boîte qui s’érige en défenseur des données personnelles et de la souveraineté. Qwant sera peut-être une belle réussite commerciale (c’est mal parti mais sait-on jamais), mais pour ce qui est de l’image d’entreprise respectueuse de ses engagements, c’est déjà complètement cuit (même les parlementaires de droite, volontiers naïfs dès qu’on parle d’entreprenariat, commencent à se poser des questions).
Le 04/08/2019 à 10h55
Comment voulez-vous que Qwant soit un meta-moteur ET ait un (vieil) index. Ça n’a pas de sens.
Le 04/08/2019 à 11h07
Je ne vais pas donner mon avis sur les parlementaires
" />
Qu’est-ce qui est alternatif dans Qwant ? Ben à ce qu’ils disent, leur index et leur algo. Le côté vie privé est défendu également par d’autres mais ça reste un des critères.
Pour l’index c’est assez facile à prouver, on ne peut pas leur reprocher d’avoir un vieil index ET de n’être qu’un meta-moteur. Pour la vie privé, je dirai le bon sens. Ils ont mis tout un tas de systèmes pour permettre à l’utilisateur de ne pas s’identifier, ça serait assez bizarre que derrière ils essaient de faire le contraire. Mais je suis certain que si tu leur donne un moyen de le prouver, ils seront ravis de le faire. Perso, je n’en voit pas.
La com est impardonnable, carrément ? Elle est sans doute pas parfaite puisque certains y voient le mal incarné mais je trouve aussi qu’il y a un côté irrationnel aux attaques et sans doute un manque de connaissance sur le fonctionnement d’un moteur (qu’ils ont pourtant décrit)
Le 04/08/2019 à 11h28
Il suffirait d’offrir l’option : “utilisateur, vous avez le choix entre deux méthodes de recherche” par l’interface…
Le 04/08/2019 à 12h40
La différence est que l’on sait que Firefox est un navigateur. Mais Qwant est il un vrai moteur de recherche ?
Le 05/08/2019 à 06h24
Le 05/08/2019 à 06h50
C’est passionnant, cet article sur Qwant (et les commentaires aussi). On imagine ces problématiques dans les choix d’infrastructures et d’algorithmes de Google, Yahoo! ou encore Yandex. On ne sait plus à quel saint se vouer. ;-)
Le 05/08/2019 à 06h58
Le 05/08/2019 à 07h10
Le 05/08/2019 à 07h44
Le 05/08/2019 à 07h50
Bien vu parce que Qwant apportait quelques espoirs de se degoogeliser et certains avaient de grandes attentes.
Le 05/08/2019 à 08h35
J’ai l’impression que plus que l’indexation (même si 20 Md de page ça me semble peanuts à l’échelle du web) leur problème c’est le tri des réponses pertinentes. D’ailleurs c’est ce que dit Tristan Nitot.
[quote]L’index chaud est une sous ensemble de l’index froid, il répond aux requêtes les plus fréquemment demandées par nos utilisateurs. Il peut arriver qu’il contienne des vieux documents, surtout si la requête ne contient qu’un mot. Cela s’explique par le fait qu’un très grand nombre de documents (plusieurs dizaines de millions) contiennent le mot recherché.[/qoute]
Là ou Google ou Yahoo ont eut des années et des milliards de clicks pour déterminer les pages les plus pertinentes.
Alors il trichent pour compenser la faiblesse de leur algorithme de tri.
Le 05/08/2019 à 08h42
Le 05/08/2019 à 08h46
Leur git est assez peu bavard sur leur cuisine en effet. Contrairement à Proton Mail pour ne citer qu’eux.
Le 05/08/2019 à 08h48
Sauf qu’on parle de Qwant là, que j’utilise Bing ou Google ça change rien au fait que pour le moment ils peuvent dire ce qu’ils veulent sur la protection des données et faire ce qu’ils veulent derrière.
Ça n’engage qu’eux et ceux qui veulent bien les croire.
Le 05/08/2019 à 11h19
Le 05/08/2019 à 11h41
Le 05/08/2019 à 11h52
Le 05/08/2019 à 12h09
Article nickel bravo, need more !
Le 05/08/2019 à 13h06
Je suis sur la même ligne que toi. Merci pour ton post Vouf, ça m’évite d’écrire ;)
Les 2 articles sur Qwant ont le mérite énorme de déjà établir des faits sur des rumeurs qui courent ces derniers temps. Merci pour ce travail.
Pourquoi ne pas les croire ? Je n’en vois pas particulièrement de raison.
Ce n’est pas parce qu’un huissier constate un truc que ça remet en cause les explications qui sont données par les intéressés derrière. Comme je le disais en commentaire du premier article, rien n’empêche de passer en mode parano dans l’autre sens aussi bien : malgré ses faibles parts de marché, peut-être qu’il existe une mini-campagne de dénigrement pour saper la confiance qu’on peut avoir dans Qwant.
Ce que je lis c’est qu’on a des faits de chaque côté et que rien ne fait pencher la balance, alors je choisis encore d’utiliser Qwant chez moi et au boulot.
Le 05/08/2019 à 13h18
Le 06/08/2019 à 13h06
Tiens un vieux de la vieille.
" /> Salut copain
" />
rien à ajouter
Le 06/08/2019 à 13h13
Du mal partout?
Et c’est Qwant qui voit ici le mal partout, je n’ai pas vu de conclusion négative dans l’article de Nxi…
Le 06/08/2019 à 13h16
Ils me font surtout penser à Gad, niveau com.
“coupables” ou pas, leurs façon les dessert. Ce n’est pas en critiquant un article de Nxi (j’en ai vu beaucoup de très orientés, pas ici) qu’ils feront autre chose que les Calimero.
Le 06/08/2019 à 13h22
En tout cas, on ne peut pas dire que l’arrivée de Manach a été discrète
" />
Le 06/08/2019 à 13h57
Le 06/08/2019 à 13h58
Le 06/08/2019 à 14h30
Le 06/08/2019 à 14h43
Le 06/08/2019 à 14h53
Le 06/08/2019 à 15h14
C’est un peu incohérent tout de même : le cœur de la stratégie et de la comm’ de Qwant c’est de dire “switchez de Google à Qwant car on respecte votre vie privée”. Or comme pour les GAFAM ou logiciels propriétaires très simples, ergonomiques et pratiques à utiliser, cela demande un effort d’adaptation de passer à un service / une alternative libre / décentralisée / non collectrice d’infos.
Twitter
" />
Or eux-mêmes ne s’appliquent pas cet effort et choisissent Medium pour sa simplicité, alors que le site embarque… Google (!!!) Analytics - pas crédible.
Enfin, je ne suis pas un pro de la communication, mais leur ligne est tout sauf lisible : hors les interviews qu’ils donnent à l’extérieur comme ici, un coup Tristan Nitot publie sur LinkedIn ou sur son Standblog, un coup Guillaume Champeau sur son blog perso ou Twitter, un coup Qwant sur leur domaine betterweb, l’autre fois sur Medium… À vouloir toucher le + grand nombre ou cibler tel public, ou faire au plus simple, il devient compliqué à froid de retrouver leurs communiqués et de suivre le fil chronologique - tout devrait être publié chez eux, sur un site qu’ils hébergent et maîtrisent, c’est la moindre des choses quand on se définit comme un moteur de recherche souverain !
Le 06/08/2019 à 15h15
Je trouve que Qwant n’est pas exempt de défauts mais il n’y a une ignorance crasse du monde l’entreprise naissante, des “starts ups” (ou des fameuses… licornes) chez les commentateurs. Pour avoir bossé et avoir de nombreux amis qui bossent dans ce monde de la start-up, je pense qu’il est vraiment temps de se détacher de l’image vendu par le gouvernement et de comprendre qu’il y a un gouffre entre l’image qu’elles renvoient pour attirer investisseurs et clients et ce qu’il y a derrière. Quand on gratte c’est souvent un autre monde, une vraie catastrophe ou rien ou presque ne fonctionne (mauvaise gestion financière, du personnel, deadlines jamais respectées, 90% des projets “grandioses” abandonnés en cours de route, etc.), par rapport au baratin qu’on trouve dans les journaux et diverses interviews à leur sujet.
Dans le cas de Qwant, ça sent l’attaque idéologique de l’intervention gouvernementale dans les projets innovants. Aujourd’hui il est à la mode de vomir sur tout que finance l’état et de trouver toutes les raisons possibles pour dire que l’état fait encore, comme d’habitude, une énorme connerie de mettre des fonds dans tel ou tel projet.
Pourtant je prends le pari que la majorité des starts-ups qui ont fini par décoller ont commencé en étant totalement dans la mouise et en déformant nettement les faits sur pas mal de choses pour renvoyer et attirer de l’argent. Certes la faculté de Qwant à “soigner” son image m’a directement sauté aux yeux avec le choix du logo qui est, on va dire pour être gentil, très proche de celui de google. Ils ont peut-être trop communiqué sur leur image soit disant parfaite (comme le fait toute start-up) ce qui leur a crée une opposition farouche qui a voulu chercher la faille, surtout lorsque le gouvernement a mis des fonds dans le projet.
Bref c’est NORMAL. Il faut arrêter de s’exciter c’est quand même pas le scandale du crédit Lyonnais là. Tout ce qu’il va se passer à la fin, c’est que le projet Qwant va effectivement échouer par la fuite des investisseurs qui vont être refroidit par le bad buzz. enfin au moins les anti-intervention étatique seront contents d’avoir fait couler une boite avec un tel soutien de l’état.
Le 06/08/2019 à 15h20
Ça fait quand même beaucoup de bugs chez Qwant … Puis pas des petits.
Le 06/08/2019 à 16h05
Bon, désolé, mais la réponse sur un site “le medium” demandant un faccebook/google et dont les affichages indiquent être incompatibles avec DoNotTrack activé.
Quand on se vend comme étant un chevalier de la protection de la vie privée, on est un pur guignol incompétent à ce moment-là.
Qwant, vous êtes des guignols. Je ne prendrai même pas la peine de lire cet article tellement il contredit en une action votre soit-disant “engagement”.
Dommage, je vous appréciais. Mais vous avez perdu toute confiance à mes yeux, adios.
Le 06/08/2019 à 16h52
Il y a quand même une grosse tendance chez les défenseurs d’une cause (ici la vie privée et les données personnelles, mais ça marche pour n’importe quelle autre, l’écologie par exemple) à taper plus fort sur les gens qui défendent aussi cette cause (mais pas parfaitement, ou pas comme ils le souhaitent), que sur le réel adversaire (ici, le fait que la recherche est un monopole, détenu par un acteur dont les données personnelles sont la source de revenu principale). Dès qu’il y a un acteur qui commence un peu à sortir du lot, tu as tous les autres qui viennent lui casser du sucre dessus, en exploitant la moindre petite faille. Résultat, il disparaît, et la cause n’avance pas davantage. C’est un phénomène qu’on retrouve beaucoup dans le milieu militant, et j’ai vraiment du mal à le comprendre.
Alors j’admets totalement que Qwant n’est pas parfait, techniquement et dans sa communication. Mais c’est quoi l’alternative au juste ? Et si toute l’énergie que vous mettez à taper sur Qwant, vous la mettiez plutôt à faire quelque chose de constructif, au service de la protection des données par exemple ? Je te réponds à toi, mais tu n’es pas visé en particulier, c’est juste mon sentiment général sur tout cet épisode.
Le 06/08/2019 à 16h56
En tout état de cause, nous ne pouvons que saluer cet effort de transparence de la part de Qwant.
J’ai failli en recracher mon café par le nez, ça aurait fait un bon sous titre à l’article… Après avoir crié à la campagne de dénigrement, de harcèlement en poussant des petits cris de jouvencelles effarouchées sur Twitter, Qwant fini par mettre le nez dans son code et déniche des bugs.GG la comm ! Crédibilité zéro !Next inpact devrait leur réclamer des bug bounty, ça permettrait le financement de la renaissance :)
Le 06/08/2019 à 17h06
Le 02/08/2019 à 22h23
Le 02/08/2019 à 22h29
Pour le côté « public » Marc Longo l’avais relevé sur Twitter.
Le 02/08/2019 à 22h33
Le 02/08/2019 à 22h38
Le 02/08/2019 à 22h40
Très bon article. Hate de lire plus de votre part :)
Concernant Qwant, ce que fait l’article, c’est de soulever des problèmes auxquels les réponses données ne sont pas satisfaisantes.
Y’a un cache, mais un cache pas mis à jour depuis 2017 ? C’est pas normal.
Y’a des pages de résultats qui sont “padded” ? C’est pas normal.
Bing dit dans ses CGU que ses résultats doivent être identifiés, mais vous pouvez pas le faire à cause de NDA ? C’est plus que bizarre.
Vous utilisez les serveurs de MS, et les résultats de Bing, ce qui fait que les données sont PRISM-able, mais vous dites que Qwant est souverain ? C’est du foutage de gueule.
Vous maquillez à la main des résultats pour cacher le fait que vous utilisez bingbot ? C’est du foutage de gueule.
Il y a bien trop de problèmes qui ne sont pas expliqués pour un moteur qui est sensé être ouvert et protecteur de la vie privée.
Ce manque de transparence est suspect.
Le 02/08/2019 à 22h57
Le 02/08/2019 à 23h48
Merci ManHack pour ce boulot d’investigation
Merci NextInpact pour publier ce contenu.
Ca fait plaisir de vous rémunérer au travers de l’abonnement à NextInpact.
Qwant se trompe sur les intentions des gens qui le questionnent sur son index. Beaucoup seraient très contents que Qwant soit un “vrai” moteur de recherche indépendant
Des gens font des métamoteurs sans financement (Searx, … ) et ne cachent pas que cela n’est pas une solution perenne (ca permet l’anonymat et la suppression de la pub néanmoins). Et Qwant arrive en disant qu’il a trouvé des financements pour faire du crawl et de l’indexation. On se dit cool ! (avant de comprendre que le site sera in fine pourri par les annonceurs de publicitéhttps://tuxicoman.jesuislibre.net/2019/06/qwant-et-la-publicite.html )
Mais quand des investigations techniques peu poussées soulèvent des lièvres comme le recours massif à Bing ou des résultats vers des sites qui n’existent plus depuis 2ans, on n’a l’impression de se faire avoir.
Le 03/08/2019 à 00h12
Le 03/08/2019 à 06h04
Ce que je comprends des informations données par le service communication de Qwant, c’est que ça ne fonctionne pas. Leur système de “cache” est bancal, donc tout ce qui vient du cache est périmé. Du coup, une requête plus complète (donc moins populaire) permet de contourner le cache et d’avoir un résultat potable.
Je suppose que s’ils virent le cache, l’infra tombe sous les coups de butoirs de leur myriade d’utilisateurs, donc ils n’ont pas la possibilité d’avoir un service fonctionnel en prod. Ça expliquerait pourquoi ils tiennent tant à faire la démonstration chez eux, dans un environnement contrôlé où le cache est probablement désactivé.
Le tout accompagné d’une communication désespérée et maladroite pour cause de vente de peau d’ours.
TLDR; Qwant est une start-up.
C’est mon analyse, je ne suis ni ingénieur, ni spécialiste des moteurs de recherche, ni concurrent de Qwant.
Le 03/08/2019 à 07h52
Le 03/08/2019 à 08h14
Le 03/08/2019 à 08h35
Dans ces conditions, la meilleure comm serait d’admettre tous les écueils et d’expliquer la stratégie pour les résoudre avec un calendrier réaliste et vérifiable. En effet, la crédibilité auprès des utilisateurs se décrète pas.
Mais là, Qwant tombe dans la victimisation sans avancer de défense crédible et de surcroît utilise la justice pour faire taire. Or Qwant dénonce des attaques infondées sur son indexation depuis plusieurs années mais sans être capable de le démontrer auprès des utilisateurs. Quelle que soit la raison de cette incapacité, cela n’a rien de rassurant pour ceux qui souhaiterait vraiment un moteur de recherche souverain protégeant la vie privée.
Dès lors, quelle sera la stratégie de communication de Qwant à présent? Intenter une procédure juridique en diffamation contre NI? À lire la réponse de Guillaume dans l’article Qwant fait condamner un « concurrent » pour « dénigrement », on devine la stratégie de Qwant à venir.
Le 03/08/2019 à 08h36
Le 03/08/2019 à 08h40
Ça donne l’impression que Qwant a atteint un palier avec leur organisation, leur compétence et leur budget et qu’ils n’arrivent pas à le dépasser… résultat, ils s’enterrent avec leur contrat avec MS et qui doit encore leur pomper plus de budget et en avant le cercle vicieux…
Le 03/08/2019 à 08h50
“Nous sommes en train de revoir ce système de cache et nous visons à le moderniser très prochainement, et il est fort possible que les conclusions de ton article ne correspondent plus à la réalité que pourront constater les lecteurs au moment de sa publication ou juste après.”
C’te blague ! A chaque fois qu’un bug ou une faiblesse de Qwant est signalée, la réponse est toujours la même : c’est déjà en cours d’amélioration, et ce sera mis à jour “très prochainement”.
Tu reviens plus tard, et c’est toujours la même chose.
A la lecture de cet article, je me dis que Qwant a sûrement racheté l’index de Bing en 2017 et l’a mis en cache.
Depuis, ils ne savent rien faire de mieux.
Le 03/08/2019 à 09h02
Perso, indépendamment des turpitudes, bugs, et autres soucis d’un moteur de recherche en gestation, et des discours un peu optimistes (ou politiques) de son responsable , j’hallucine sur “l’exception de vérité n’est pas retenue dans le cadre d’un dénigrement”.
Mais où vit-on ?
Je formule une assertion EXACTE visant à éclairer les utilisateurs sur un aspect particulier d’un service, je peux me faire attaquer en justice, et perdre ?
J’arrête de faire des commentaires sur les restos ! Ou sur les retards récurrents de la SNCF, par exemple…
Le 04/08/2019 à 13h05
Le 04/08/2019 à 13h28
Puisqu’on lui reproche d’avoir eu un index de 2017, par définition : oui
Le 04/08/2019 à 13h40
La question c’est surtout de savoir ce qu’il en est vraiment entre d’un côté la volonté affichée de Qwant d’être un moteur de recherche “souverain” (argument qui lui permet d’avoir une oreille très attentive de l’État) et de l’autre la réalité qui semble montrer que les rares fois où son propre index est utilisé, les résultats sont datés (alors que dans le même temps la société communique sur 2 milliards de page visitées par jour par son robot d’indexation).
Si ce sont des difficultés techniques ça pourrait être acceptable, même si on peut regretter la communication désastreuse et assez agressive qu’a choisi la société. Cependant on peut se demander si le développement d’une indexation en propre est réellement une priorité en interne ou si c’est juste pour la comm, voir même si Qwant ne sait pas dans une impasse sur la question.
TL;DR : Entre dire que l’objectif est d’être un vrai moteur de recherche souverain et non un méta-moteur et réellement faire de cet objectif une priorité, il y a une différence notable.
Le 04/08/2019 à 13h40
Non, il peut avoir un index partiel et utiliser un moteur tiers pour certains résultat.
Le 04/08/2019 à 14h17
Il faut lire les articles avant de répondre…
Dans l’enquête du Virus informatique, un développeur de Qwant avait expliqué que « pour le moment, les 4 000 requêtes les plus fréquentes, représentant 40 % des recherches textuelles, sont traitées avec l’outil de Qwant, les autres étant encore sous-traitées à Bing de Microsoft ».
Le 04/08/2019 à 14h31
Comme d’autres l’ont déjà dit, j’ai également essayé Qwant durant 4-5mois en début d’année 2019.
Cependant, j’ai dû me rendre à l’évidence, les recherches tombaient à côté à plus de 80% avec, a contrario, un résultat rapide et pertinent sur Google.
Certes je fais sûrement parti des utilisateurs qui ont un usage avancé des moteurs de recherches. Le problème est que même des recherches faciles n’aboutissaient pas aux résultats attendus sur la première page alors que le résultat attendu était le premier sur Google.
Je suis donc repassé récemment sur Google et j’ai un peu l’impression que ce travail d’enquête ne fait que mettre des explications sur mes difficultés à me servir de ce moteur.
Comme d’autres, je ne peux qu’espérer qu’un acteur européen se démarque et devienne pertinent en tant que moteur de recherche. Pour le moment, Qwant n’y est pas.
A défaut de réussir à construire un index actualisé(au moins sur les recherches simples), il serait peut-être temps pour Qwant de mieux gérer sa balance entre index interne et Bing.
Je veux bien croire que cela serait un demi-aveu d’échec par rapport à leur communication de moteur de recherche souverain mais il faut se rendre à l’évidence : vaut-il mieux un moteur de recherche qui ne donne pas la bonne information(voire une information erronée car plus à jour) sans profiler ses utilisateurs ou un moteur de recherche qui profile ces utilisateurs mais fournit la bonne information ?
D’ailleurs, il y a toujours moyen de limiter ce tracking de Google(navigateurs différents entre recherche et vie courante, effacement régulier des cookies, pas de compte connecté pour les recherches, DuckDuckGo,…) donc cela réduit d’autant l’impact réel du tracking…
Edit:format
Le 04/08/2019 à 14h33
Les résultats de Duck duck go sont vraiment différents de ceux de google.
Google te sert des résultats selon ton profil (centres d’intérêts, historique de navigation, localisation…) Duck duck go te sert le résultat d’un google “objectif”. Tu peux faire le test : une recherche sur duck duck n’a rien à voir avec celle de google sur le même poste, et évidemment de deux google de deux personnes différentes.
“la terre est-elle plate” :
Google utilise mon profil plutôt cartésien, et ne me propose que des trucs scientifiques ou humoristique démontrant l’inverse.
Sur duck duck go j’ai la vision objective du web, et plus de liens de platistes tenant de démontrer la platitude du monde remontent.
Un platiste faisant la même recherche dans son google, trouvera probablement majoritairement des blogs de congénères.
Le 04/08/2019 à 14h40
Et les 40% autres, ils sont fourni comment selon toi si ce n’est pas le moteur ? + l’article date
Le 04/08/2019 à 14h40
Le 04/08/2019 à 14h43
Si tu veux chercher à partir de Bing, ben tu vas sur Bing. L’idée c’est vraiment de ne pas afficher “aucun résultat” en attendant que l’index se complète. Ils le disent eux-même, on est pas dans un truc caché ou néfaste pour l’utilisateur.
Le 04/08/2019 à 14h44
Ce n’est donc pas qu’un meta-moteur… Puisqu’ils fournissent aussi leur propre résultats
Le 04/08/2019 à 14h58
“Mes résultats sont plus neutres.” moins personnalisé ne veut pas dire plus neutre. Chaque algorithme, que ça soit celui de Google Bing ou Qwant présentent les résultats qui semblent pertinents par rapport à différents critères (fraîcheur, popularité, citations, occurrences, légitimité etc.) et en pondérant chacun d’eux. Mais ce n’est pas neutre, c’est un choix (qui évolue par ailleurs).
Le 04/08/2019 à 15h24
Oui, on peut jouer sur les mots.
A mon niveau, disons que j’essaie d’éliminer les biais qui seraient dus à mon profilage.
Au
final, vu de ma fenêtre, ça veut dire plus neutre, ou en tout cas, plus
neutre par rapport à ce qui est possible de faire avec ce moteur de
recherche(et donc effectivement en subissant ces biais de conception).
Pour Qwant, les seules infos connues sur leurs critères sont présentées là : https://about.qwant.com/fr/legal/modalites-de-referencement-dereferencement-et-de-classement/
Rien de très original, éventuellement, Qwant semble indiquer qu’il ne vend pas les places dans son moteur.
Sans information complémentaire, je ne vois pas pourquoi je devrais avoir plus confiance dans l’algorithme de Qwant qu’en ceux de Google, Bing ou autre.
Le 04/08/2019 à 15h37
Le 04/08/2019 à 16h46
Puisque tu fais preuve de mauvaise foi, je vais te répondre et à ta manière : et les 60% ils sont fournis comment si Qwant n’est pas aussi un méta-moteur?
Le 04/08/2019 à 17h00
C’est une mauvaise foi toute compréhensible : quand on est employé par Webedia, qui a des relations commerciales avec Qwant, ça peut troubler un peu la vue de loin…
Ce commentaire n’est pas sponsorisé par Google, et ne reflète pas la position officielle de Webedia ou de Qwant.
Le 05/08/2019 à 13h26
Le 05/08/2019 à 13h33
Ce qui me surprend mais je peux me tromper n’étant pas économiste ni fiscaliste (ou chose dont j’ignore le titre) mais comment Qwant peut il être encore là en étant déficitaire de plusieurs millions d’euros chaque année et garder ses environ 77 employés :/ (-8.5 en 2017 et -11.2 en 2018, chiffres sur societes.com et wikipedia).
Le 05/08/2019 à 13h38