Connexion
Abonnez-vous

Microsoft propose un outil en Python pour convertir des documents en Markdown

Le 17 décembre à 09h06

Le Markdown est un langage bien connu de balisage, permettant de formater un texte à l’aide d’instructions claires. Il est très utilisé notamment dans les milieux académiques, de l’édition ou encore dans le développement logiciel. Il y a quelques années, nous avions pris en main une série d’outils dédiés à son édition.

Avec MarkItDown, Microsoft propose justement un outil pour convertir automatiquement des documents et autres fichiers en un équivalent Markdown. L’outil est écrit en Python et se présente à la fois sous forme de bibliothèque (open source, licence MIT) et de page web, dans laquelle on fait glisser son fichier pour le convertir.

Les formats pris en charge sont les PDF, Word (docx), Excel, (xslx), PowerPoint (pptx), Zip (examine l’archive et convertit tout fichier compatible à l’intérieur), HTML ainsi que d’autres formats texte comme les CSV, JSON, XML et ainsi de suite. MarkItDown peut ainsi s’occuper, dans une certaine mesure, des images et fichiers audio. Il convertira alors les données EXIF, OCR et transcriptions de textes.

La bibliothèque peut être utilisée aussi bien dans un projet qu’en ligne de commande pour un usage immédiat. La syntaxe est de type :

markitdown path-to-file.pdf > document.md

L’un des cas d’usage mentionnés est l’IA, plus particulièrement l’analyse d’images par les LLM pour en obtenir des descriptions. Celles-ci peuvent alors être automatiquement transcrites en Markdown.

Le 17 décembre à 09h06

Commentaires (10)

votre avatar
J'ai migré tout mon Onenote sur Obsidian il y a peu, avec un gros volume quand même, des images et des PJ, et bien c'était bien galère...
J'ai trouvé une personne qui avait fait un script sur GitHub, je l'en remercie, heureusement car ca donnait vraiment l'impression que toute était fait pour ne pas pouvoir exporter..

Est-ce que cet outil fonctionne sur du Onenote, bonne question !

J'aurais préféré qu'ils donnent la possibilité de faire du Markdown sur la suite Office, onenote inclus.
votre avatar
Un bon outil de prise de notes, c'est Outline wiki. Bon par contre il faut se monter un serveur.
Mais une fois fait, cest franchement bien.

Et c'est en markdown. Collaboratif, il faut ajouter les utilisateurs donc tu gardes la main sur qui fait quoi. C'est genre de Notion mais en gratuit.
votre avatar
J'avais survolé Outline Wiki, et quelques autres, mais j'ai préféré Obisidian, j'avais aussi testé Notion.
En perso, j'utilise Joplin qui est très bien aussi, en pro Obsidian avec Sync en payant et quelques modules complémentaire, il est très bien.

Mais Onenote en version Windows 10 m'allait très bien aussi s'il prenait en charge le Markdown.
votre avatar
Il y a aussi Joplin, c'est du markdown et il permet l'import / export :
https://joplinapp.org/help/apps/import_export/
votre avatar
Je l'utilise en perso comme je disais, mais l'import ne fonctionne pas bien depuis Onenote. Je ne sais plus ce qu'il bloquait, si c'était la mise en forme ou les images ou Pièces jointes.
Et il fallait aussi réinstaller un Onenote 2016 pour faire l'export. Bref, c'était un echec :D
votre avatar
Hello
Moi je suis toujours à la recherche d’une substitution à OneNote
J’utilise Joplin mais l’éditeur rich texte est juste une blague tellement il a un fonctionnement erratique.
Et on en arrive au cœur de mon problème : perso markdown est un format de stockage, donc un non sujet pour 99% des end users (je me mets dedans), et tous les éditeurs (joplin, obsidian,….) mettent ça en avant comme une fonctionnalité.
Perso j’attends juste un outil de prise de notes multios avec éditeur rich text qui marche… et je cherche encore.
(Ps : par « non sujet » j’entends que le format doit être ouvert, mais que je ne veux pas me palucher la saisie à la main des infos de mise en forme).
votre avatar
L'idée de la page web est bonne mais quid de la réutilisation des données que l'on confie à l'outil ?
Je n'ai vu aucune mention sur la confidentialité, la durée de conservation...
votre avatar
C'est le moment de rappeler le dossier de comparaison de différents éditeurs de Markdown d'ailleurs ;)

Edit : sinon je pense qu'il y a une petite confusion. Le site web https://msftmd.replit.app/ n'a pas de lien avec Microsoft (qui est "juste" l'auteur de la lib Python comme indiqué dans l'article).

La société Replit est a priori un éditeur d'une solution de développement Web en SaaS de ce que j'en ai compris; et le site est fait par un de ses employés comme démonstrateur. Ils ont une offre de développement assisté par IA d'ailleurs.
votre avatar
Si j'en crois la liste de bugs sur Github, il y a beaucoup de limitations: pas d'export des images contenus dans Word/Powerpoint, problème de conversion des PDF (inhérent à PDF, on ne peut pas trop blamer Ms).

Pour convertir du Word, je n'ai pas trouvé mieux que pandoc.
Et pour Excel, je convertis d'abord en CSV.
votre avatar
NON.

Pour paraphraser mon Maître Jean Yanne, le markdown, c'est comme les routes départementales (avancer à 3:18 pour les impatients, les autres prendront le temps de savourer ce hors-d'oeuvre d'exception)...

(C'est tout ce que j'ai à dire pour un très long moment, à part : Bonjour tout l'monde, j'espère que vous swinguez bien, bonnes fêtes, bonne année 2025 et bonne Saint Valentin avec vot' beau-père, @ la r'voiyure ! :byebye: )

Microsoft propose un outil en Python pour convertir des documents en Markdown

Fermer