fragen stichworte

Werkzeuge zur Automatisierung der OCR von gescannten PDF-Dateien auf ähnliche Weise wie die OCR-Funktion von Acrobat?

Open Source bevorzugt, aber nicht notwendig.

Ich habe Adobe Acrobat 8 ​​und mag die OCR-Funktion, die im Wesentlichen eine unsichtbare Ebene von OCR-Text auf ein gescanntes Dokument setzen kann. Auf dem Bildschirm wird also das gescannte Originaldokument angezeigt, das Ergebnis kann jedoch durchsucht werden.

Was ich suche, ist eine Möglichkeit, diesen Prozess zu automatisieren. Ich habe derzeit ein paar Skripts, die wir für die Verarbeitung und Archivierung gescannter Dateien verwenden, und suche nach etwas, das ich direkt in diesen Batch-Prozess einbinden kann, um OCR auf ähnliche Weise wie mit Acrobat zu tun.

Alle Vorschläge sind willkommen, danke!

antworten

Ich habe dies in einem Projekt zur Archivierung von Dokumenten eines Unternehmens implementiert. Die gescannte Datei ist eine Tif-Datei (einzelne Seite). Dann erstellen Sie mit Cuneiform eine Hocr-Datei des einzelnen TIF. Anschließend können Sie die PDF-Datei mit hocr2pdf ausgeben. Bei mehreren Scanseiten verwende ich gs, um die PDFs in einem einzigen PDF-Dokument zusammenzufassen. Funktioniert sehr gut, OCR ist gut genug für unsere Anforderungen und kann in jedem PDF-Viewer durchsucht werden.

Haben Sie WatchOCR angesehen? Sie können es von http://www.watchocr.com herunterladen. Es handelt sich um einen kostenlosen und Open Source-OCR-Server, der aus einem überwachten Ordner oder einer Netzwerkfreigabe nur pdfs-Bilder in durch Text durchsuchbare pdfs konvertiert.

Ich mag die Klänge von Xeons Antwort, obwohl OCRopus nach viel Spaß klingt.