nw  

Visitenkartenleser

Schlüsselbegriffe

Java, Apache, CRF++, Named Entity Recognition, Tesseract OCR, Texterkennung

Zielsetzung

Ziel ist es, diesen Visitenkarten-Scanner durch eine eigene Lösung mit Open-Source Komponenten zu ersetzen. Visitenkarten sollen mit dem Handy fotografiert und deren Inhalt als vCard abgespeichert werden können.

Ausgangslage

Das Hauptprodukt von BSI ist BSI CRM, ein Customer-Relationship-Management System, mit dem Kundenbeziehungen bewirtschaftet werden können. Das System unterstützt auch das Erfassen von neuen Kontakten über einen kommerziellen Visitenkarten-Scanner. Dieses Produkt liest eine Visitenkarte ein und gibt die Kontaktdaten im Format vCard zurück. Ziel ist es, diesen Visitenkarten-Scanner durch eine eigene Lösung zu ersetzen. Mit dem Handy fotografierte Visitenkarten sollen in einer ersten Phase in Text konvertiert werden und dann soll darauf aufbauend aus den erkannten Texten semantische Elemente wie Vorname, Nachname, Email-Adresse, Firmenname, Adresse, Webseite etc. extrahiert werden. In dieser Arbeit geht es primär um den ersten Schritt, d.h. die Extraktion der Textelemente aus einem Bild.

Ergebnisse

Im produktiven Einsatz muss eine Doublettenprüfung mit den BSI CRM Servern durchgeführt werden. Das zwingt die Lösung zu einer Client-Server Architektur. Die Frage stellt sich nur noch, welche Aufgaben der Server und welche der Client übernehmen soll. Die BSI AG stellt die zusätzliche Anforderung, dass nichts auf dem Endgerät installiert werden darf. Das führt zur Verlegung das die gesamte Prozesskette auf den Server, womit das Rechenleistungsproblem gelöst wird. Das Endgerät ist nur noch für die Aufnahme eines Bildes zuständig. Das zweite Problem, dass die Bilder von Umweltfaktoren beeinflusst werden, muss mit einer guten Vorverarbeitung gelöst werden. Im IP5 wurde sich vertieft mit Vorverarbeitungsalgorithmen beschäftigt. Mit den eingesetzten Algorithmen erreichen Bilder eines Smartphones eine vergleichbare Qualität wie die des kommerziellen Scanners. Die Optimierung von Tesseract war ebenfalls Teil des IP5, jedoch reichte die Zeit nicht aus um sinnvolle Optimierungen zu erarbeiten. Die Texterkennung ist momentan der Flaschenhals der Arbeit. Hier werden die meisten Fehler begangen.

In dieser Arbeit wurde sich im Wesentlichen mit der Named Entity Recognition auseinandergesetzt. Die Validierung der NER Engine ergab, dass es 80% aller Labels korrekt setzt. Diese Zahl ist auf den ersten Blick sehr gut, es ist aber nur die Güte der NER Engine und nicht der gesamten Lösung. Die Lösung ist in der Lage etwa 30% aller Texte von Visitenkarten-Bilder korrekt erkennen. Diese Zahl ist für einen produktiven Einsatz zu tief.

Projektdaten
Projekttyp Bachelorthesis
Projektdauer 1 Semester
Aufwand in Personenstunden 360 Stunden je Teammitglied
Teamgrössse 2 Personen
Auftraggeber

BSI Business Systems Integration AG

Täfernstrasse 16a, CH-5404 Baden

www.bsiag.com


Betreuer:

Matthias Zimmermann
Projektteam

Fabio Oesch

Jonas Schwammberger

Kontakt

Dominik Gruntz, dominik.gruntz@fhnw.ch

Christoph Stamm, christoph.stamm@fhnw.ch

<< zurück