Die integrierte OCR
OCR bezeichnet den Prozess, bei dem Text aus einem Bild extrahiert wird. Dieses Bild kann aus einem gescannten Dokument, einer elektronischen Bilddatei oder einer PDF-Datei stammen. Bilder beinhalten keine bearbeitbaren Textzeichen. Sie bestehen aus unzähligen winzigen Bildpunkten (Pixel), die zusammen gesehen die Buchstaben oder Ziffern bilden und den Text einer Seite als Bild wiedergeben.
Vom Zeichenabbild … |
zu bearbeitbarem Text |
|
|