Microsoft propose un outil en Python pour convertir des documents en Markdown
Le 17 décembre à 09h06
2 min
Logiciel
Logiciel
Le Markdown est un langage bien connu de balisage, permettant de formater un texte à l’aide d’instructions claires. Il est très utilisé notamment dans les milieux académiques, de l’édition ou encore dans le développement logiciel. Il y a quelques années, nous avions pris en main une série d’outils dédiés à son édition.
Avec MarkItDown, Microsoft propose justement un outil pour convertir automatiquement des documents et autres fichiers en un équivalent Markdown. L’outil est écrit en Python et se présente à la fois sous forme de bibliothèque (open source, licence MIT) et de page web, dans laquelle on fait glisser son fichier pour le convertir.
Les formats pris en charge sont les PDF, Word (docx), Excel, (xslx), PowerPoint (pptx), Zip (examine l’archive et convertit tout fichier compatible à l’intérieur), HTML ainsi que d’autres formats texte comme les CSV, JSON, XML et ainsi de suite. MarkItDown peut ainsi s’occuper, dans une certaine mesure, des images et fichiers audio. Il convertira alors les données EXIF, OCR et transcriptions de textes.
La bibliothèque peut être utilisée aussi bien dans un projet qu’en ligne de commande pour un usage immédiat. La syntaxe est de type :
markitdown path-to-file.pdf > document.md
L’un des cas d’usage mentionnés est l’IA, plus particulièrement l’analyse d’images par les LLM pour en obtenir des descriptions. Celles-ci peuvent alors être automatiquement transcrites en Markdown.
Le 17 décembre à 09h06
Commentaires (10)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousHier à 09h19
J'ai trouvé une personne qui avait fait un script sur GitHub, je l'en remercie, heureusement car ca donnait vraiment l'impression que toute était fait pour ne pas pouvoir exporter..
Est-ce que cet outil fonctionne sur du Onenote, bonne question !
J'aurais préféré qu'ils donnent la possibilité de faire du Markdown sur la suite Office, onenote inclus.
Hier à 09h45
Mais une fois fait, cest franchement bien.
Et c'est en markdown. Collaboratif, il faut ajouter les utilisateurs donc tu gardes la main sur qui fait quoi. C'est genre de Notion mais en gratuit.
Hier à 10h04
En perso, j'utilise Joplin qui est très bien aussi, en pro Obsidian avec Sync en payant et quelques modules complémentaire, il est très bien.
Mais Onenote en version Windows 10 m'allait très bien aussi s'il prenait en charge le Markdown.
Hier à 13h11
https://joplinapp.org/help/apps/import_export/
Hier à 14h27
Et il fallait aussi réinstaller un Onenote 2016 pour faire l'export. Bref, c'était un echec
Hier à 21h11
Moi je suis toujours à la recherche d’une substitution à OneNote
J’utilise Joplin mais l’éditeur rich texte est juste une blague tellement il a un fonctionnement erratique.
Et on en arrive au cœur de mon problème : perso markdown est un format de stockage, donc un non sujet pour 99% des end users (je me mets dedans), et tous les éditeurs (joplin, obsidian,….) mettent ça en avant comme une fonctionnalité.
Perso j’attends juste un outil de prise de notes multios avec éditeur rich text qui marche… et je cherche encore.
(Ps : par « non sujet » j’entends que le format doit être ouvert, mais que je ne veux pas me palucher la saisie à la main des infos de mise en forme).
Hier à 13h53
Je n'ai vu aucune mention sur la confidentialité, la durée de conservation...
Modifié le 17/12/2024 à 14h42
Edit : sinon je pense qu'il y a une petite confusion. Le site web https://msftmd.replit.app/ n'a pas de lien avec Microsoft (qui est "juste" l'auteur de la lib Python comme indiqué dans l'article).
La société Replit est a priori un éditeur d'une solution de développement Web en SaaS de ce que j'en ai compris; et le site est fait par un de ses employés comme démonstrateur. Ils ont une offre de développement assisté par IA d'ailleurs.
Modifié le 17/12/2024 à 17h19
Pour convertir du Word, je n'ai pas trouvé mieux que pandoc.
Et pour Excel, je convertis d'abord en CSV.
Aujourd'hui à 00h10
Pour paraphraser mon Maître Jean Yanne, le markdown, c'est comme les routes départementales (avancer à 3:18 pour les impatients, les autres prendront le temps de savourer ce hors-d'oeuvre d'exception)...
(C'est tout ce que j'ai à dire pour un très long moment, à part : Bonjour tout l'monde, j'espère que vous swinguez bien, bonnes fêtes, bonne année 2025 et bonne Saint Valentin avec vot' beau-père, @ la r'voiyure ! )