Fryboyter

PDF-Dateien mit durchsuchbarer Textebene erstellen

Sicherlich hat jeder schon einmal eine PDF-Datei erhalten, deren Text man beispielsweise nicht markieren und kopieren kann. Dies liegt in der Regel daran, dass der eingescannte Text als Bild in der PDF-Datei eingebettet wurde. Der Multifunktionsdrucker, den ich beruflich nutze, macht das zum Beispiel. Das Problem lässt sich allerdings relativ leicht und zuverlässig lösen.

Das Tool OCRmyPDF fügt in die PDF-Datei eine zusätzliche Textebene über dem Bild ein, deren Inhalt man markiere und kopieren sowie durchsuchen kann. Für die Texterkennung wird Tesseract verwendet.

Im besten Fall führt man einfach ocrmypdf input.pdf output.pdf aus. Input.pdf ist hierbei die Originaldatei und output.pdf ist die Datei, die mit der zusätzlichen Textebene gespeichert wird. Weitere Funktionen und mögliche Optimierungsmöglichkeiten kann man in der Dokumentation nachlesen. Je nachdem in welcher Sprache der Inhalt der Originaldatei vorliegt, muss man ggf. vorher noch ein Sprachpaket wie beispielsweise tesseract-data-eng (englische Sprachpaket) installieren. Fehlt diese, gibt ORCmyPDF aber auch einen entsprechenden Hinweis aus und bricht ab.

Getestet habe ich OCRmyPDF mit ein paar einfachen PDF-Dateien mit gut lesbarem Text getestet. Bei diesen wurde die zusätzliche Textebene sehr gut über die Bilddatei gelegt, sodass der Text beider Ebenen sehr genau übereinander lag, sodass das Markieren und Kopieren des Textes kein Problem war. Auch das Durchsuchen der Datei hat funktioniert. Die neue Datei benötigt logischerweise mehr Speicherplatz aber es hält sich meiner Meinung nach in Grenzen. Die originale PDF-Datei mit einer DIN-A4-Seite mit den ersten Zeilen von “Der Rabe” von Edgar Allan Poe ist beispielsweise 49,4 KB groß. Die um die Textebene erweiterte PDF-Datei ist 49,8 KB groß.

OSBN

PDFsam - Grafisches Tool zum Bearbeiten von PDF-Dateien

Ich musste heute diverse PDF-Dateien splitten und aus unterschiedlichen einzelnen Dateien wieder neue PDF-Dateien erstellen. Darauf, dies mit Befehlen im Terminal Emulator zu erledigen, hatte ich aber keine Lust. Also habe ich mir spontan PDFsam installiert.

Bei PDFsam handelt es sich um ein Tool mit grafischer Oberfläche, mit dem man PDF-Dateien bearbeiten kann. Die Basic-Version, die unter der AGPL-3.0 Lizenz veröffentlicht ist und die kostenlos nutzbar ist, unterstützt das Teilen (Seitenzahl, Lesezeichen und Größe), Zusammenführen, Extrahieren, Mischen und Drehen von PDF-Dateien. Die kostenpflichtigen Versionen wie PDFsam Enhanced oder PDFsam Visual bieten noch zusätzliche Funktionen. Allerdings werden diese nur im Abo-Modell angeboten und sind meiner Meinung nach ziemlich teuer. Was alle Versionen gemeinsam haben ist, dass es sich um Java-Programme handelt. Was in meinem Fall kein Problem ist, da ich bereits Java wegen eines anderen Tools installiert habe.

pdfsam

Der Screenshot zeigt die Oberfläche für das Zusammenführen von PDF-Dateien. Meiner Meinung nach ist diese, wie auch die der anderen Funktionen, aufgeräumt und selbsterklärend. Das Tool an sich arbeitet schnell und meiner bisherigen Erfahrung nach zuverlässig. Wer also mal keine Lust hat PDF-Dateien im Terminal Emulator zu bearbeiten, sollte sich das Programm zumindest einmal ansehen.

OSBN