« Guano Apes - Discografia [tntvillage.org] | Main | thumbstacks.com : PowerPoint on line »
samedi, juillet 08, 2006
OCRAD : Un OCR (Optical Character Recognition) sous linux
Il m'arrive souvent de lire des articles très interressants dans les revues d'informatique et j'aimerais pouvoir m'y réfèrer facilement. Le meilleur moyen est pour moi de les mettre en ligne. (sur ce blog par exemple ;-)).Mais pour cela il faut au préalable numériser l'article et effectuer une reconnaissance de texte afin que l'image soit convertie en texte et que l'information puisse être exploitée.
Les logiciels d'OCR (reconnaissance de texte depuis une image scannée)
sont généralement très chers.
Heureusement sous linux
il existe un moteur OCR gratuit intégré dans l'application de
numérisation de KDE: kooka . il s'agit d'
ocrad.
Vous pouvez utiliser ocrad directement depuis la ligne de commande
(taper "man ocrad" ou "info ocrad" pour connaitre la syntaxe), mais si
vous êtes sous kde ou avez accès à ses applis le mieux est d'utiliser
kooka !
Pour avoir les meilleurs résultats possible, il est conseillé
de numériser en noir et blanc et d'enregistrer l'image au
fomat Bmp (l'ocr sera plus performant si les caractères ont une hauteur
d'au moins 20 pixels, par contre votre PC risque de ramer si l'image est
trop grosse...)...
Happy scanin'