Connexion
Abonnez-vous

Microsoft déploie l’upscaling des images et l’OCR dans son application Photos

Le 23 octobre à 12h55

Pour les personnes utilisant actuellement un PC Copilot+ et qui seraient sur une branche Insider de Windows (ce qui réduit d’autant la population concernée), Microsoft déploie deux fonctions attendues pour son application Photos.

La première permet l’upscaling des images via la technologie Super Resolution. Il s’agit donc d’étirer les images jusqu’à une taille maximale de 8 fois celle d’origine, en préservant la qualité. Le NPU est bien sûr sollicité pour cette opération de type IA, qui fonctionne à la manière du DLSS de NVIDIA ou du FSR d’AMD. Microsoft indique dans son billet que la fonction peut être pratique pour agrandir des clichés de mauvaise qualité ou pour faire un cadrage serré sans sacrifier la qualité.

La seconde est l’OCR, la reconnaissance optique des caractères. C’est une fonction désormais courante sur les smartphones, qui peuvent dénicher et analyser tout ce qui ressemble à du texte dans une photo. Selon Microsoft, 160 langues sont reconnues. Le texte trouvé peut être copié puis collé ailleurs.

Plusieurs autres améliorations générales sont disponibles, dont l’utilisation de l’application en clic unique, le redimensionnement automatique des grandes images pour s’adapter à la fenêtre, une meilleure synchronisation entre le curseur de zoom et l'affichage de la sélection, ou encore des corrections de bugs pour les fonctions Image Creator et Restyle Image.

Le déploiement ayant commencé hier soir, la mise à jour dans le Microsoft Store ne sera peut-être pas encore disponible chez tout le monde.

Le 23 octobre à 12h55

Commentaires (15)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
Juste une remarque concernant l'OCR, la fonction est déjà disponible pour tous (sans être insider ni avoir une puce labelisée Copilot+) dès w10 dans toutes vos fenêtres via les PowerToys :raccourci win+ctrl+t je crois, sélectionnez un rectangle, et le résultat est copié dans le presse-papiers. On peut difficilement faire plus simple et ergonomique.
Crtl + win + t ne donne rien chez moi. En revanche, je suis intéressé s'il existe effectivement une fonction OCR facilement accessible pour mieux gérer certains scans... Je n'en ai pour l'heure pas trouvé sans devoir débourser beaucoup d'argent
Pour le ctrl+win+t, il faut installer les powertoys ;)

Et sous W11, le truc de capture d'écran dispose d'une fonction intégrée
Je viens de tester sous win10, c'est win+shift+t
win+ctrl+t permet de bloquer une fenêtre au premier plan
La dernière fois que j'avais testé le powertoys d'OCR, la reconnaissance ne fonctionnait que dans des cas idéaux : police d'écriture basique, sur un fond uni (genre une capture d'écran d'un bloc-note). Dans l'exemple donné ici, je doute qu'il fonctionne.
Dear paren+s,
The daycare will be havi"'
Picture on wednesdagl
Novembe•r 6. Please drop

Je l'utilise fréquemment sur Powertoy, voila ce qu'il donne sur la photo (sans zoomer) :roll:
C'est un peu mieux que ce que j'aurai pensé. L'OCR de powertoys n'est pas fait pour de l'écriture manuscrite, c'est fait pour des captures d'écran.
Par curiosité, j'ai essayé l'OCR de Onenote. Voici ce qu'il reconnait:

Picture Dag
Dear paren4s,
The daycare will be having
picture day on Wednesday,
November 6. Please drop off

Seulement deux fautes de frappe. C'est quand même pas mal.

En alternative aux Powertoys, il y a aussi TextGrab qui exploite également l'OCR natif de Windows:
Dans ce cas-ci Question de candide : l'OCR ce fait en local ou via le NET ?
(image envoyé sur le net traité ; puis rentransmise en local ?)
En local
Comme l'a déjà dit @dvr-x, c'est exécuté en local. C'est justement tout l'intérêt des ordinateurs "Copilot+", c'est qu'ils sont équipés de NPU, leur permettant d'exécuter des modèles de réseaux de neurones en local efficacement.
Comment forcer l'adoption des PC Copilot+ en rendant le NPU obligatoire pour des fonctions pratiques qui pourraient aisément être prises en charge par le CPU (OCR) ou le GPU (upscaling).
C'est quand même un peu beaucoup du foutage de gueule à mon avis...
CPU : non, je ne pense pas que l'OCR qu'ils utilisent soit vraiment agréables/efficace sur un CPU. C'est très certainement un modèle de réseau de neurone qui est derrière, le CPU n'est pas fait pour ça.

GPU : oui, et a priori, d'après ce que j'ai lu, le support des GPU serait prévu, en tout cas des annonces semble avoir été faites pour le support des RTX de Nvidia. Le problème de cette solution, c'est que c'est sortir une tractopelle pour planter un pied de tomate : ce n'est pas forcément l'outil le plus adapté.

Mais sinon, Apple fait déjà ça, mais tout le monde s'en branle (et de toute façon, l'Europe bloque le 3/4).
L'upscaling d'image, j'utilise depuis longtemps celui de Topaz Gigapixel. Et on peut utiliser le Cpu ou un gpu (Intel ou NVIDIA). Ça marche déjà très fort.
Le seul avantage là c'est que c'est intégré à Windows mais seulement si tu as un Npu...
Existe-t-il des softs similaire pour de l'upscaling sous Linux ou MacOS ?

Microsoft déploie l’upscaling des images et l’OCR dans son application Photos

Fermer