Moteur d’OCR intégré
L’OCR est le processus par lequel le texte d’une image peut être extrait. Cette image peut être le résultat de la numérisation d’un document papier ou de la conversion d’un fichier électronique ou d’un fichier PDF. Les images ne possèdent pas de caractères de texte à proprement parler. Ces images comportent de très nombreux petits points (appelés « pixels ») qui, placés les uns à côté des autres, forment des caractères. Les illustrations suivantes représentent l’image de texte sur une page.
Caractère issu d’une image… |
…. texte éditable |
|
|