Tesseract-OCR

Tesseract-OCR est un moteur de reconnaissance de caractères. En tant que tel, il ne vise qu'une seule tâche : le traitement d'un fichier image (.tiff) et la reconstitution en caractères ASCII du texte qui y figure.

Certes, les logiciels de Reconnaissance Optique des Caractères (ROC) ont fait bien du chemin depuis les dix dernières années. Ils peuvent retranscrire différents blocs de texte, reconstituer la mise en page, etc... Alors pourquoi Tesseract est-il si intéressant?

Premièrement parce qu'il s'agit d'un projet initié au départ (en 1985) par Hewlett Packard. Après le retrait de HP du marché des ROC, Tesseract n'a connu aucune évolution. La libération récente (août 2006, sous licence Apachev2)) de son code va permettre au monde du libre de compléter le projet et faire émerger d'ici peu de temps d'excellents logiciels de ROC.

Pour donner une idée, d'après le test effectué ici, la reconnaissance des caractères d'une image d'un texte de 266 mots s'est effectuée avec succès avec la bonne reconnaissance de 97.77% du texte. La firme Google se montre actuellement très intéressée par le marché des OCR et a déjà permis de corriger quelques bugs.

Point faible : Tesseract ne restitue pour l'instant qu'en US-ASCII, ce qui signifie que les meilleurs résultats seront obtenus sur des documents de langue anglaise.

Lien(s)

Catégories

Classement des logiciels par activité

Notes

Les logiciels répertoriés ici ne sont pas proposés au téléchargement. Pour chaque notice figure un lien vers le site officiel où vous pourrez trouver toutes les ressources nécessaires.

Liens

Autres logiciels libres