Pour plus d’accessibilité, arXiv passe au HTML

Le 05 septembre 2023 à 05h09

1 min

Internet

La plateforme historique de preprint arXiv est en train de basculer la mise en ligne des articles qu'elle héberge vers le format HTML au lieu du classique PDF. Jusque-là, les chercheurs et chercheuses qui téléchargeaient leurs articles sur les serveurs du service (hébergé par la Cornell University) pouvaient le faire dans différents formats, mais celui par défaut restait le format PDF. Pour des raisons d'accessibilité, arXiv a lancé son « HTML papers project ».

Le projet n'est pour l'instant qu'en version beta mais, comme l'explique l'équipe, la communauté scientifique demande de ne pas attendre.

La difficulté est que la plupart des articles (90 %) sont proposés en format TeX, format très extensible, ce qui pose des difficultés à retranscrire vers le HTML qui l'est beaucoup moins. La présentation des formules est par exemple un challenge. LATExml est utilisé comme convertisseur.

Dans cette version beta, l'équipe d'arXiv propose déjà une présentation très propre des articles en format HTML mais attend encore des retours de ses utilisateurs. Une liste d'exemples d'articles provenant aussi bien de physique, de mathématiques, d'informatique et d'autres disciplines dans ce format est disponible.

Sébastien Gavois

Le 05 septembre 2023 à 05h09

Commentaires (16)

Xanatos Abonné

Le 05/09/2023 à 06h06

Les crawlers approuvent.
Tant qu’ils gardent le PDF pour la postérité.

TheGreatNothing

Le 05/09/2023 à 07h15

En quoi le HTML est-il plus accessible que le PDF ?

Gamble

Le 05/09/2023 à 08h22

Rien que le copier/coller, c’est un cauchemar avec le format pdf (sélection plus ou moins aléatoire de texte entre le point de départ et le point d’arrivée)

C’est le cas par exemple avec le RIB chez Fortuneo, un pdf qui contient 5 RIB, et quand on veut copier le numéro IBAN, il copie les 5 numéros IBAN mélangés (5x le premier bloc, puis 5x le 2ème, …)

obor2

Le 05/09/2023 à 07h59

Pour les formules mathématiques, les “lectures” de Feynman sur le site du Caltech utilisent MathJax et SVG. Ils pourraient faire pareil ?

This HTML5-based edition features LaTeX equations rendered by MathJax JavaScript, and scalable vector graphic (SVG) figures. Your browser must support javascript and permit scripts from mathjax.org. LocalStorage must be enabled. We recommend using a modern browser; some older browsers may not display this edition correctly. PNG figures (that degrade when scaled) may be served to browsers that do not support SVG. We do not support versions of Internet Explorer older than 9.0. For information about MathJax features and accessibility options, right-click on any display equation.

piwi82

Le 05/09/2023 à 09h08

J’ai directement pensé au format SVG pour pallier au souci de représentation des formules mathématiques (et pas que).
Je me doutais bien qu’une librairie existait déjà.
Merci pour la découverte de MathJax !

Br31zh Abonné

Le 05/09/2023 à 12h26

(reply:2150583:obor2)
Visiblement ils utilisent du MathML pour les formules, ce qui est le standard dans ce cas 👍. C’est géré nativement par Firefox, auquel cas bloquer MathJax n’est pas un problème, normalement.

MathJax ou KaTeX étant alors des fallback pour les autres navigateurs. Mettre du SVG par défaut est une mauvaise idée par contre, ça ne doit être qu’un fallback (et qui sait, ça va peut-être motiver les autres navigateurs à réimplémenter MathML (Chrome l’a supporté pendant un temps)).

Le problème c’est pas le format PDF, c’est Fortuneo qui le génère n’importe comment. Un PDF généré depuis du LaTeX ne pose jamais ce genre de problème, normalement.

Et tu peux faire exactement le même genre de ratés de sélections en HTML d’ailleurs.

obor2

Le 05/09/2023 à 14h39

Oui, c’est vrai qu’il y a également MathML, j’avais oublié. Je crois qu’il est possible de choisir l’un ou l’autre en cliquant droit sur une des formules dans les “lectures”.

Un des soucis, c’est avec des liseuses. Elles ne supportent pas toutes les MathML ou MathJax. Et parfois partiellement. C’est sur ce point que j’avais buté en convertissant les “lectures” HTML en ePub. (Le logiciel de) ma liseuse n’arrivait pas à les afficher correctement. :-/

Mihashi Abonné

Le 05/09/2023 à 22h38

quicky_2000 a dit:

Il y a un convertisseur Latex vers PDF

Oui, c’est le compilateur latex, un peu le principe de base de latex…

mais pas vers HTML ?

Bah non, c’est pas fait pour ça, à la base.

MathML c’est le langage pour afficher des formules en html.
MathJax et LaTeXML sont des convertisseurs de format latex en MathML (entre autres).
Si tu bloques MathJax, tu risques de te retrouver avec du code latex brut.

Br31zh Abonné

Le 06/09/2023 à 16h34

Oui pour LaTeXML qui sert à convertir du LaTeX en HTML (et possiblement les formules en MathML, donc).

MathJax peut en effet le faire à priori (« MathJax is highly modular on input and output. Use MathML, TeX, and ASCIImath as input and produce HTML+CSS, SVG, or MathML as output. »), mais ici le fichier HTML servi à ton navigateur contient bel et bien du MathML et non du TeX brut (on peut le constater en vérifiant les sources, ou simplement avec cURL si on veut être sûr).

Donc le bloquer côté client ne bloque que la conversion du MathML en HTML+CSS ou SVG, ce qui ne pose pas de problème si ton navigateur sait traiter le MathML nativement, donc.

quicky_2000

Le 05/09/2023 à 13h29

Il y a un convertisseur Latex vers PDF mais pas vers HTML ?

danarmk Abonné

Le 05/09/2023 à 17h29

TeX fonctionne fondamentalement différemment de HTML/CSS. Ça rend particulièrement compliqué de traduire l’un en l’autre. En fait, TeX est prévu de base pour sortir une suite de caractères à placer sur une page de taille connue à l’avance. Le format historique que sortait TeX (.dvi) est une suite de commande de la forme “mettre un caractère ici” “commencer une nouvelle page”, etc. Le pdf a un fonctionnement assez proche (pour ce que j’en comprend). Un compilateur LaTeX -> pdf est donc une idée naturelle. Par contre, le HTML ne fonctionne pas du tout de la même manière.

Un autre très gros problème évoqué est qu’en LaTeX, on peut redéfinir toutes les macros qui servent à contrôler l’apparence du document, donc un traducteur TeX->HTML ne peut pas se baser uniquement sur le nom des macros rencontrées pour.

quicky_2000

Le 06/09/2023 à 06h03

Ok merci, ça fait 20 ans que je n en ai pas fait et je croyais me souvenir qu’à l’époque on pouvait générer aussi bien du HTML que du PDF mais c’était pour des compte rendus de TP informatique donc pas de formules de Math.
Merci pour les explications

gouge_re Abonné

Le 05/09/2023 à 19h25

Gamble a dit:

C’est le cas par exemple avec le RIB chez Fortuneo, un pdf qui contient 5 RIB, et quand on veut copier le numéro IBAN, il copie les 5 numéros IBAN mélangés (5x le premier bloc, puis 5x le 2ème, …)

Br31zh a dit:

Le problème c’est pas le format PDF, c’est Fortuneo qui le génère n’importe comment. Un PDF généré depuis du LaTeX ne pose jamais ce genre de problème, normalement.

Je confirme que leur génération de PDF est éclatée… Pour les relevés, quand on ouvre le PDF avec un lecteur qui passe le document en mode “sombre” (couleurs inversées), le texte devient blanc mais le fond reste blanc aussi, chose qui ne m’arrive avec aucun autre PDF.

5francs Abonné

Le 05/09/2023 à 22h52

gouge_re a dit:

Je confirme que leur génération de PDF est éclatée… Pour les relevés, quand on ouvre le PDF avec un lecteur qui passe le document en mode “sombre” (couleurs inversées), le texte devient blanc mais le fond reste blanc aussi, chose qui ne m’arrive avec aucun autre PDF.

Je plus que confirme pour les PDF de fortuneo, même leurs mails en mode sombre sont illisibles. Il faut repasser en mode clair pour pouvoir les lire…

Mihashi Abonné

Le 06/09/2023 à 21h03

Br31zh a dit:

MathJax peut en effet le faire à priori (« MathJax is highly modular on input and output. Use MathML, TeX, and ASCIImath as input and produce HTML+CSS, SVG, or MathML as output. »), mais ici le fichier HTML servi à ton navigateur contient bel et bien du MathML et non du TeX brut (on peut le constater en vérifiant les sources, ou simplement avec cURL si on veut être sûr).

Donc le bloquer côté client ne bloque que la conversion du MathML en HTML+CSS ou SVG, ce qui ne pose pas de problème si ton navigateur sait traiter le MathML nativement, donc.

Ok, je n’avais pas saisi cette subtilité du HTML+CSS.
Il y a beaucoup de navigateurs qui ne gèrent pas MathML (j’ai pas trouvé l’info sur wikipédia) ? Parce que ça date de 1999 quand même…

Br31zh Abonné

Le 07/09/2023 à 08h16

Si j’en crois cette page, Chrome ne le supporte à nouveau que depuis janvier dernier (version 109)… et il en est de même pour tous les navigateurs basés dessus : https://caniuse.com/mathml

Et de façon expérimentale depuis 2022. Ils avaient fait une première implémentation en 2012, mais l’avaient retiré ensuite (parce que pas assez utilisé, de mémoire), je ne savais pas qu’ils l’avaient finalement réintégré.

Et à priori, c’est même pas exactement le standard : « Browsers based on Chromium 109+ specifically support MathML Core. While there is significant support overlap with other MathML implementations there are some differences (see details). »

Firefox quant à lui l’a toujours supporté, et de façon complète depuis 2011 visiblement.

Catégories

Nous Suivre

À propos

Pour plus d’accessibilité, arXiv passe au HTML

Commentaires (16)