Tesseract-OCR
Tesseract-OCR est un moteur de reconnaissance de caractères. En tant que tel, il ne vise qu'une seule tâche : le traitement d'un fichier image (.tiff) et la reconstitution en caractères ASCII du texte qui y figure.
Certes, les logiciels de Reconnaissance Optique des Caractères (ROC) ont fait bien du chemin depuis les dix dernières années. Ils peuvent retranscrire différents blocs de texte, reconstituer la mise en page, etc... Alors pourquoi Tesseract est-il si intéressant?
Premièrement parce qu'il s'agit d'un projet initié au départ (en 1985) par Hewlett Packard. Après le retrait de HP du marché des ROC, Tesseract n'a connu aucune évolution. La libération récente (août 2006, sous licence Apachev2)) de son code va permettre au monde du libre de compléter le projet et faire émerger d'ici peu de temps d'excellents logiciels de ROC.
Pour donner une idée, d'après le test effectué ici, la reconnaissance des caractères d'une image d'un texte de 266 mots s'est effectuée avec succès avec la bonne reconnaissance de 97.77% du texte. La firme Google se montre actuellement très intéressée par le marché des OCR et a déjà permis de corriger quelques bugs.
Point faible : Tesseract ne restitue pour l'instant qu'en US-ASCII, ce qui signifie que les meilleurs résultats seront obtenus sur des documents de langue anglaise.
Lien(s)
- Tesseract-OCR (Site officiel)
Catégories
Classement des logiciels par activité- Suites bureautiques
- Ecrire
- Communiquer
- Bibliographies, références
- Naviguer
- Web et partage
- Langues anciennes
- Graphisme, présentations
- Cartographier
- Gérer son temps
- Statistiques
- Traitement des sources
- Distributions Linux