PC SOFT

FORUMS PROFESSIONNELS
WINDEVWEBDEV et WINDEV Mobile

Accueil → WINDEV 2025 → Alternative au moteur Legacy pour utiliser les fonctions OCR
Alternative au moteur Legacy pour utiliser les fonctions OCR
Débuté par Olivier Dawson, 30 avr. 2025 12:01 - 2 réponses
Posté le 30 avril 2025 - 12:01
Bonjour,

Savez-vous s'il existe des alternatives un peu plus fiables au moteur Legacy pour utiliser les fonctions OCR ?
Est-il d'ailleurs possible selon vous de plugger ces fonctions à un moteur alternatif.

Le fond de mon problème est que je suis en train de mettre au point un logiciel de reconnaissances de factures pour les transformer en écriture comptable. Pour cela j'ai une sorte de backoffice dans lequel je dessine des zones.

Quand je dois remonter les lignes de factures pour des ventilations particulière, suivant la manière dont j'ai dessiné la zone, je n'obtiens pas le même résultat. Je tiens à préciser que cela se joue au pixel près !
Sur l'image avec les rectangles de différentes couleurs, c'est actuellement le meilleur résultat que j'ai pu obtenir.

J'en déduis, peut-être un peu hâtivement, que le moteur Legacy utilisé par PCSoft est semble un peu faible.

Et vous avez-vous déjà poussé le moteur dans ses retranchements ?

Merci d'avance pour vos retours.






Membre enregistré
189 messages
Posté le 30 avril 2025 - 17:18
Bonjour Olivier,

Je n'arrive pas à voir les images que tu as postées.
J'ai eu à utiliser l'OCR Windev pour un projet dernièrement. C'est vrai que j'ai eu un peu peur au départ sur la qualité, ça s'est finalement très bien passé, il faut que les rectangles laissent de l'espace autour des lettres.
Il me semble que l'OCR Windev est basé sur Tesseract (https://github.com/tesseract-ocr/tesseract)

J'avais aussi fait un OCR sur des documents JPEG pour de l'indexation, ça fonctionne plutôt bien, même si parfois certaines lettres d'un mot sont erronées. Un correcteur orthographique avant indexation améliore le résultat.

Quel que soit l'OCR, il est nécessaire de vérifier le résultat, surtout pour de la saisie comptable.

Jean-Marc
Posté le 30 avril 2025 - 17:41
Jean-Marc a écrit :
Bonjour Olivier,

Je n'arrive pas à voir les images que tu as postées.
J'ai eu à utiliser l'OCR Windev pour un projet dernièrement. C'est vrai que j'ai eu un peu peur au départ sur la qualité, ça s'est finalement très bien passé, il faut que les rectangles laissent de l'espace autour des lettres.
Il me semble que l'OCR Windev est basé sur Tesseract (https://github.com/tesseract-ocr/tesseract)

J'avais aussi fait un OCR sur des documents JPEG pour de l'indexation, ça fonctionne plutôt bien, même si parfois certaines lettres d'un mot sont erronées. Un correcteur orthographique avant indexation améliore le résultat.

Quel que soit l'OCR, il est nécessaire de vérifier le résultat, surtout pour de la saisie comptable.

Jean-Marc


Bonjour Jean-Marc,

Merci pour ton prompt retour. Effectivement c'est bien Tesseract qui est utilisé. Sur GitHub les modèles français ont plus de 8 ans. Après c'est peut-être suffisant. Perso je ne sais pas car je ne suis qu'utilisateur même si j'aimerais pouvoir comprendre comment cela fonctionne derrière.

Pour les images tant pis. Cela montrait ce que tu expliques à propos des rectangles.

Sinon j'ai trouvé une solution alternative à mon problème. Le but pour être un peu précis était de récupérer les références et les désignations produits en face des montants. Pour cela dès que je trouvais un montant, tant que je n'en trouvais pas un deuxième j'agrandissais la hauteur de mon rectangle et je donnais ensuite cette hauteur aux rectangles permettant de scanner les références et les produits. Le problème était qu'en agrandissant la zone, je perdais parfois le montant trouvé. En modifiant ma zone, c'est un autre montant que je perdais. C'est pour ça que je soupçonne le moteur OCR.

La solution que j'ai trouvé est que dès que j'ai une valeur, je stocke le Y de mon rectangle et je continue. Dès que j'ai trouvé une nouvelle valeur, je calcule la différence entre mon nouveau Y et le précédent - un pas entre chaque zone pour déterminer la hauteur de la zone à scanner.

C'était fastidieux, ce n'est pas encore tout à fait au point car je trouve encore des "faux positifs" mais cela fonctionne plutôt bien.

Encore merci ! :merci: