Office: (Office 2003) OCR Erkennung PDF per Batch

Helfe beim Thema OCR Erkennung PDF per Batch in Microsoft Access Hilfe um das Problem gemeinsam zu lösen; Hallo, ich habe ein Dokumentverwaltungsprogramm erstellt. In dieser Datenbank werden die Daten zu den verschiedensten PDF's (Rechnungen, Gutschriften,... Dieses Thema im Forum "Microsoft Access Hilfe" wurde erstellt von Roland1979, 24. Februar 2013.

  1. OCR Erkennung PDF per Batch


    Hallo,

    ich habe ein Dokumentverwaltungsprogramm erstellt. In dieser Datenbank werden die Daten zu den verschiedensten PDF's (Rechnungen, Gutschriften, Verträge, Auftragsbestätigungen, ...) abgelegt.

    Die Datenbank enthält derzeit ungefähr 45.000 Dokumente und läuft als Backend auf einem SQL-Server. Front-End MS-Access 2003.

    In unserer Zentrale haben wir einen speziellen Drucker, der zu den eingescannten PDF's automatisch ein Textfile mit den OCR-Daten dazu erstellt. In unseren Filialen, in denen die Drucker die PDFs ebenfalls in den FTP-Ordner der Zentrale stellen, funktioniert die OCR-Erkennung nicht (geht eben nicht).

    Die Textdateien die in der Zentrale zu den PDFs dazu erstellt werden, lese ich in die Datenbank ein und kann folglich auch danach relativ einfach suchen.

    Nun zu meiner eigentlichen Frage:
    Gibt es eine Möglichkeit per Access VBA den Text einer PDF-Datei mittels OCR zu erkennen und den Text in Access zu verwenden?

    Ich habe ausserdem den Adobe Acrobat X Pro, der eine OCR-Erkennung durchführen könnte. Mir fehlt aber irgendwie die zündende Idee wie!

    Vorgestellt hätte ich es mir so:
    In Access wird die Datei ausgewählt. Über einen Batchbefehl oder ähnlichem wird eine OCR-Textdatei erstellt die ich wiederum mit dem Pfad der PDF-Datei in die Datenbank speichern kann.

    Bei Fragen bitte nochmal melden.

    :)
     
    Roland1979, 24. Februar 2013
    #1
  2. OCR ist doch das Ermitteln von Text aus Bildern und entsprechend Bildqualität, verwendeten Schriften und Softwarequalität fehlerbehaftet.

    Vielfach kann man aber aus PDF-Dateien Text lesen und herauslösen: Eine einfach umzusetzende Lösung mit Freeware ist hier dargestellt:
    Plaintext aus PDF extrahieren

    Also müsste man erst einmal prüfen, wie die PDF's erzeugt werden und welche PDF-Art erzeugt wird.
    Notwendige Daten würde man doch besser gleich aus den ursprünglichen Dateien (Excel, Word, ...) ziehen statt aus Bildern.
     
  3. Danke für die Antwort.

    Dies ist ein toller Lösungsansatz. Jedoch nur für Dateien die ich als durchsuchbares PDF erhalte. Files die eingescannt werden kann ich damit aber auch nicht umwandeln.

    Zur Klarstellung. Es handelt sich dabei nicht um eigene Rechnungen , ... sondern um Fremdrechnungen, Lieferscheine, ... diejenigen die ich von verschiedenen Lieferanten erhalte

    Deine Lösung habe ich bereits für einen Teil der Dokumente eingebaut.

    Ich brauche jetzt aber noch eine Lösung wie ich per shell eine eingescannte PDF-Datei in eine durchsuchbare umwandle, damit ich den Plain-Text wieder aus der Datei extrahieren kann.

    Wie gesagt habe ich den Adobe Acrobat 10 Pro, jedoch finde ich keine Lösung die ich als Batch anwenden kann, wie die oben erwähnte Lösung.

    Ich glaube aber, dass ich hiermit in diesem Forum generell falsch bin.

    Falls trotzdem noch jemand einen Lösungsansatz hat bitte ich ihn mir noch mitzuteilen, andernfalls danke für die Bemühungen.
     
    Roland1979, 26. Februar 2013
    #3
  4. OCR Erkennung PDF per Batch

    Den Trick, aus einem Bild durchsuchbaren Text zu machen, gibt es noch nicht, denke ich. OCR ist da eine Annäherung: Pixelgruppen werden Zeichenmustern gegenübergestellt und dann evtl. als Buchstaben u.ä. Zeichen gedeutet, mit unterschiedlichen Ergebnissen je nach Qualität der Vorlage und Leistung der Anwendung.

    Aus Access solltest Du Acrobat steuern können. Das heißt, wenn Du einen solchen OCR-Vorgang direkt mit Acrobat (von Hand) ausführen kannst, sollte das dann mit einem Verweis auf Acrobat und unter Nutzung des Objektmodells von Acrobat per VBA von Access aus nachstellbar und damit automatisierbar sein.
    Hier kann ich aber keine praktischen Erfahrungen vorweisen, da ich "Armer" noch nie eine Acrobat-Version (abgesehen vom Reader) auf dem Rechner hatte.

    Wenn es wider Erwarten kein ergreifbares Objektmodell gibt, müsste man prüfen, ob Acrobat (oder eine andere Anwendung) per Kommandozeilen steuerbar ist. Dafür hast Du ja im bekannten Link ein Anwendungsbeispiel.

    Nachtrag:
    Einscannen heißt nicht zwangsläufig ein nichtdurchsuchbares PDF erzeugen. Da sollte man Gerät, dessen Einstellungen und Verfahren näher betrachten.
    Ich meine, mit meiner Access-Scan-Spielerei Scannen nach PDF (Demo: TwainScan2PDF) auch durchsuchbare PDF's zu erzeugen.
     
  5. Hat schon jemand eine Lösung mit VBA und Acrobat Pro gefunden? Möchte genau das selbe machen, hab auch schon VBA zugriffe auf die PDFs jedoch finde ich nirgends die Möglichkeit die 'Texterkennung' unter Werkzeuge im Acrobat Pro per VBA auszulösen. Wie in einem obrigen Tread erwähnt bin ich auch der Meinung wenn der VBA Zugriff zu Acrobat da ist und entsprechend auch Dateien geöffnet werden können sollte diese Funktion auch ausgeführt werden können.
     
    Bastler20, 20. Oktober 2020
    #5
  6. Im Adobe Forum solltest du Anleitung finden.
     
    markusxy, 21. Oktober 2020
    #6
Thema:

OCR Erkennung PDF per Batch

Die Seite wird geladen...
  1. OCR Erkennung PDF per Batch - Similar Threads - OCR Erkennung PDF

  2. Zahl in Zelle erkennen, sortieren und dann zählen.

    in Microsoft Excel Hilfe
    Zahl in Zelle erkennen, sortieren und dann zählen.: Liebe Community Ich komme mit meiner Exceltabelle nicht weiter. Ich erstelle eine Tabelle mit Daten (auch als Mehrzahl von Datum gemeint), die sich stetig verändern. Bei der Tabelle geht es um...
  3. Excel Erkennung von Zeiten und Überstunden

    in Microsoft Excel Hilfe
    Excel Erkennung von Zeiten und Überstunden: Moin, Ich habe ein Problem und komme einfach nicht weiter beim erstellen von Stundennachweisen. Problem: Ich möchte das Excel bei einer Zeitangabe/Arbeitszeit z.B. 07:00 bis 18:00 + eine Pause,...
  4. Zusammenhängende Zeiträume in einer Spalte erkennen und Start- sowie Enddatum ermitteln

    in Microsoft Excel Hilfe
    Zusammenhängende Zeiträume in einer Spalte erkennen und Start- sowie Enddatum ermitteln: Hallo zusammen, irgendwie komme ich einfach mit meinem Problem nicht weiter und hoffe sehr auf Eure Hilfe! Ich habe eine Personaldatei, in der je Zeile ein Urlaubstag steht. Die ersten Spalten...
  5. Losnummer erkennen, Gewinner ausgeben

    in Microsoft Excel Hilfe
    Losnummer erkennen, Gewinner ausgeben: [ATTACH] Hallo! Habe leider nur sehr grundlegende Excel-Kenntnisse. In einer Tabelle werden jedem Loskäufer (IDs in Spalte A) die Losnummern (Spalten D bis M) zugeteilt, die er erworben hat. Ziel...
  6. Eine bedingte Formatierung, viele variablen erkennen!

    in Microsoft Excel Hilfe
    Eine bedingte Formatierung, viele variablen erkennen!: Guten Tag zusammen, gibt es möglichkeiten, mit nur einer bedingte Formatierung, viele variablen einzubauen, die allesamt zu den gewünschten Ergebnis führen? Als beispiel: Das Unternehmen...
  7. Zeitüberschneidungen verschiedener Tage automatisch erkennen

    in Microsoft Excel Hilfe
    Zeitüberschneidungen verschiedener Tage automatisch erkennen: Hallo ihr Lieben, meine Mutter trägt ihre Arbeitszeiten regelmäßig händisch in eine Excel-Tabelle ein. Dabei steht in Spalte A das Datum, in Spalte B die Anfangszeit des Arbeitspakets und in...
  8. kyrillische Zeichen aus OCR nicht korrekt in Word eingefügt

    in Microsoft Word Hilfe
    kyrillische Zeichen aus OCR nicht korrekt in Word eingefügt: die kyrillischen zeichen, die beim office tool "document scanning" eines russischen textes nach OCR zwar richtig dargestellt werden ergeben beim einfügen in das word dokument keinen sinn mehr....
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Auf dieser Website werden Cookies für die Zugriffsanalyse und Anzeigenmessung verwendet.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden