« Guano Apes - Discografia [tntvillage.org] | Main | thumbstacks.com : PowerPoint on line »

samedi, juillet 08, 2006

OCRAD : Un OCR (Optical Character Recognition) sous linux

Il m'arrive souvent de lire des articles très interressants dans les revues d'informatique et j'aimerais pouvoir m'y réfèrer facilement. Le meilleur moyen est pour moi de les mettre en ligne. (sur ce blog par exemple ;-)).

Mais pour cela il faut au préalable numériser l'article et effectuer une reconnaissance de texte afin que l'image soit convertie en texte et que l'information puisse être exploitée.

Les logiciels d'OCR (reconnaissance de texte depuis une image scannée) sont généralement très chers.
Heureusement sous linux il existe un moteur OCR gratuit intégré dans l'application de numérisation de KDE: kooka . il s'agit d' ocrad.

Vous pouvez utiliser ocrad directement depuis la ligne de commande (taper "man ocrad" ou "info ocrad" pour connaitre la syntaxe), mais si vous êtes sous kde ou avez accès à ses applis le mieux est d'utiliser kooka !
Pour avoir les meilleurs résultats possible, il est conseillé de numériser en noir et blanc et d'enregistrer l'image au fomat Bmp (l'ocr sera plus performant si les caractères ont une hauteur d'au moins 20 pixels, par contre votre PC risque de ramer si l'image est trop grosse...)...

Happy scanin'

Posté par raph à 15:25
Modifié le: samedi, juillet 08, 2006 15:27
Categories: 100% geek