Connexion Premium

Mistral veut bousculer la gestion des documents avec son modèle OCR 4

Plus de dame du CDI

Mistral veut bousculer la gestion des documents avec son modèle OCR 4

Illustration : Flock

Mistral a lancé la quatrième version de son modèle dédié à l’OCR, la reconnaissance de texte. Mais de simple extracteur de texte, le modèle spécialisé devient un parseur documentaire sémantique, que Mistral présente comme particulièrement adapté aux pipelines de recherche ou au RAG. L’entreprise parle désormais d’intelligence documentaire.

Le nouveau modèle Mistral OCR 4 lancé ce 23 juin vise l’extraction d’informations et la restitution de représentations structurées de documents entiers. Cette nouvelle version va donc plus loin que la seule extraction de données, au point que le nom même du modèle devient peu représentatif de ce qu’il a vraiment dans le ventre.

Selon Mistral en effet, OCR 4 « extrait et structure le contenu d’un large éventail de documents ». Tous les formats courants comme PDF, DOC, PPT et ODF sont pris en charge. « Là où les générations précédentes se concentraient sur la conversion d’une page en texte et tableaux clairs, OCR 4 restitue une représentation structurée du document », avec encadrés « englobants » (bounding boxes), classification par blocs et scores de confiance par page et par mot.

Ce que fait le nouveau modèle

Dans son communiqué, Mistral assure que ces encadrements étaient la fonction la plus demandée. OCR 4 prend ainsi en charge des données de localisation capables de présenter une traçabilité de l’information. Le modèle renvoie ainsi une représentation en couches dans laquelle chaque bloc est localisé dans une boite, classé par type (titre, tableau, équation, signature, etc.) et assorti d’une note de confiance.

Mais à quoi tout cela sert-il ? Sans ces informations, et avec les modèles précédentes, les systèmes en aval ne pouvaient pas retracer un extrait jusqu’à sa source sur une page spécifique. Impossible de demander alors une question simple comme « D’où vient ce chiffre ? ». OCR 4 permet de résoudre ces problèmes selon Mistral.

Autre avantage de cette classification, un texte tagué comme « titre » peut segmenter un document en morceaux hiérarchiques pour une recherche sémantique. En fait, chaque morceau d’un document, une fois étiqueté, peut être acheminé vers un pipeline de traitement spécifique ou non. Si l’on prend le cas des éléments reconnus comme signatures par exemple, ils peuvent alors être repris dans des flux de travail dans un système de conformité.

Mistral indique que ces opérations ne sont pas nouvelles en soi. En revanche, le nouveau modèle les intègre toutes, annulant pour les clients le besoin d’entreprendre eux-mêmes ces traitements et analyses. OCR 4 propose ainsi une fonction triple : localisation spatiale, typage sémantique et confiance. Les zones ayant une confiance faible pourront par exemple être automatiquement routées vers des vérificateurs humains. À l’inverse, les éléments obtenant une note élevée pourront intégrés automatiquement dans les flux de travail.

La reconnaissance de texte est rarement la finalité dans ce type de processus. Le développement de systèmes RAG, des flux de travail agentiques ou tout ce qui touche à une forme d’automatisation avec les documents demande plus de temps que cette étape. OCR 4 veut justement taper dans la fourmilière en proposant une solution capable de faire sauter toute l’étape de reconstruction, avec à la clé des économies, aussi bien sur les coûts de l’OCR proprement dit que sur les heures investies par les ingénieurs chargés du reste. C’est du moins ce qu’affirme Mistral.

Scores à l’appui

Pour prouver le sérieux de sa nouvelle offre, l’entreprise donne plusieurs chiffres. Des annotateurs indépendants auraient ainsi préféré OCR 4 dans 72 % des cas face « à tous les principaux systèmes OCT et IA documentaires testés ». Le modèle de Mistral affiche également un score de 85,20 % sur le benchmark OlmOCRBench, prenant la première place. Le modèle prend en charge 170 langues réparties dans 10 groupes linguistiques, « avec des gains mesurables sur les langues spécialisées et à faibles ressources où plusieurs systèmes concurrents se dégradent ».

Mistral affirme également que son modèle est suffisamment compact pour être déployé dans un seul conteneur. Le Français met ce point en avant, évoquant les gains de confidentialité, de conformité et – bien sûr – de souveraineté. Plusieurs témoignages élogieux sont de la partie dans le billet de blog, de même que sur X.

La tarification proposée via l’API est de 4 dollars pour 1 000 pages, avec une remise de 50 % sur l’API par lots. Si les développeurs passent par Document AI, le tarif passe à 5 dollars pour 1 000 pages. Les cas d’utilisation recommandés sont ceux attendus : analyse et extraction de documents, RAG, flux de travail agentiques, pipelines de données structurées utilisant des scores de confiance, et recherches en bases de connaissances.

Mistral tient cependant à rappeler que son nouveau modèle vise la compréhension, pas l’aide à la décision. « Il n’est pas destiné au diagnostic médical, aux conseils ou jugements juridiques, aux décisions financières à enjeux élevés, aux systèmes critiques pour la sécurité, au traitement en temps réel ou sensible à la latence, ni aux entrées non documentaires (audio brut, vidéo, etc.) », indique l’entreprise.

Commentaires (5)

votre avatar
Ce genre de solution OCR / analyse de document et process automatisé existe déjà, mais ça fait pas de mal d'en avoir un de plus en France.
votre avatar
PDF, DOC, PPT et ODF.

C'est moins que le format du contenant que le contenu.
Que se soit dans les PDF , les DOC les PPT ou les ODF, ils peuvent contenir déjà du textes que des images...
Donc 100% de reconnaissances de texte alors que ce l'est déjà c'est facile :-)
votre avatar
Y'a pas que la reconnaissance de texte ici, mais deux cas d'usages possibles :


  • Le document contient déjà du texte, dans ce cas le modèle se contente de l'analyser (RAG) selon les règles établies

  • Le PDF est un scan (des images), dans ce cas le modèle va faire de l'OCR et ensuite du RAG



Le cas de l'OCR + RAG est déjà utilisé en entreprise, par exemple pour intégrer en compta des factures de fournisseur qui sont du papier scanné.
votre avatar
pour la gestion automatisée des factures via OCR... je me rappelle, il y un peu moins de 20 ans, pour ce faire, on devait scanner par lot avec des codes, gérer le layout individuels... c'était pas la panacée. le service compta des grosses boîtes, où je suis allé en tant que second couteau, était sur les nerfs parce que ça ne fonctionnait pas tip/top, bcp de boulot de correction/rectifications manuelles. et il fallait beaucoup de tuning côté dev (sans compter le CRM derrière, une grosse pointure à l'époque; une grosse usine à gaz difficilement gérable, selon moi :) ).

Aussi, malgré le format structuré (virement), j'avais visité (en tant que dev connexe) le bureau des correctrices d'une très grande banque; une vingtaine de personnes avec une charge de correction inouïe (de mon ressenti ça faisait plus ou moins 40 corrections par minutes) full-time... Le rythme de scan des virements était impressionnant.

aujourd'hui, il faudrait que je vois avec notre propre compta pour le scannage automatique des factures mais j'ai la forte impression qu'il y a encore bcp de suivi manuel (et c'est un logiciel "pro" dont autres entreprises utilisent également).

Mais je me demande comment se passe le "state of the art" actuel....
votre avatar
J'imagine que les poids du modèle ne sont pas publiés ?