Die integrierte OCR
OCR bezeichnet den Prozess, bei dem Text aus einem Bild extrahiert wird. Dieses Bild kann aus einem gescannten Dokument, einer elektronischen Bilddatei oder einer PDF-Datei stammen. Bilder beinhalten keine bearbeitbaren Textzeichen. Sie bestehen aus unzähligen winzigen Bildpunkten (Pixel), die zusammen gesehen die Buchstaben oder Ziffern bilden und den Text einer Seite als Bild wiedergeben.
|
Vom Zeichenabbild … |
zu bearbeitbarem Text |
|
|
|