Pfeil links
Zurück zum Blog

Wie der AI-Builder entstanden ist: ein Deep-Learning-Algorithmus zur Erkennung von Formularfeldern

Wie der AI-Builder entstanden ist: ein Deep-Learning-Algorithmus zur Erkennung von Formularfeldern
Dies ist ein Text innerhalb eines div-Blocks.
9 Minuten

Wenn es um kundenorientierte Prozesse geht, ist die digitale Transformation des Unternehmens ein Muss. Doch für viele traditionelle Unternehmen, darunter Versicherungen und Banken, ist das oft leichter gesagt als getan. 

Wir bei EasySend haben es uns zur Aufgabe gemacht, die Art und Weise zu verändern, wie Finanzdienstleister mit ihren Kunden kommunizieren. Und wir tun dies, indem wir papierbasierte Prozesse (die immer noch oft mittels echten Papier- oder PDF-Formularen abgewickelt werden) in vollständig digitale, reaktionsschnelle und benutzerfreundliche digitale Customer-Journeys umwandeln.

Können wir KI nutzen, um unseren Anwendern zu helfen, jedes PDF in einen digitalen Prozess zu konvertieren – ohne technisches Wissen und vor allem in nerhalb weniger Minuten? Es hat sich herausgestellt, dass wir das können.

Hier sehen Sie, wie wir uns die Macht der KI zunutze gemacht haben, damit sie uns bei unserer Mission unterstützt.

Aufbau einer KI mit Fokus auf dem Benutzererlebnis: Die Argumente hinter dem AI-Builder

Warum wir uns gegen den Black-Box-Ansatz entschieden haben 

Als wir uns daran machten, unsere KI zu entwickeln, war unser erster Ansatz, einen komplett eigenständigen „ BlackBox”-Algorithmus zu bauen, der das Problem einfach ganz ohne Benutzerinteraktion löst. Normalerweise wird dies bei der Entwicklung von Algorithmen als die bestmögliche Option angesehen, nicht wahr?

Anfangs hatten wir Lust, diesen Weg zu gehen, aber wir änderten schnell unsere Meinung, weil wir fanden, dass etwas Grundlegendes fehlte. Nämlich – die Interaktion mit dem Benutzer. Am Ende entschieden wir uns dafür, die Dinge ein wenig anders anzugehen, und wir entwarfen einen Algorithmus, der die Leistung der KI mit einer interaktiven Benutzeroberfläche kombiniert, um den Benutzer in den Prozess einzubinden.  

Benutzerinteraktion als zentrales Designprinzip hinter dem AI-Builder

Ich würde sagen, dass der vollständige Ausschluss des Benutzers aus dem Prozess schwerwiegende Nachteile hat, wenn es um das Benutzererlebnis geht. Vor allem, wenn es darum geht, an Kerngeschäftsprozessen herumzuspielen. Die Einbindung des Anwenders in den Algorithmus ist essenziell – dieses Mantra wurde zu unserem zentralen Designprinzip.

KI-Algorithmen machen immer ein paar Fehler hier und da. Die Frage ist, wie die Benutzer diese Fehler erleben. Unser Ansatz hat uns dazu gebracht, ein ansprechendes Tool zu bauen, das die Aufgabe schnell erledigt und gleichzeitig den Benutzer nicht frustriert und ihm die Kontrolle über die Anwendung lässt. Wir glauben, dass dieser Ansatz zu besseren Ergebnissen führt als ein komplett menschenloser Algorithmus.

Letztendlich muss der Mensch ein Teil des Prozesses sein. Wir brauchen keine Algorithmen, die den Menschen vollständig ersetzen; wir bauen unsere Algorithmen so, dass sie mit dem Menschen zusammenarbeiten und seine Erfahrungen verbessern. Das ist die ganze Idee hinter AI Builder.
Data hat eine bessere Idee | EasySend Blog

Der technische Überblick über den AI-Builder von EasySend

Aufbau des Datensatzes und Vorverarbeitung

Unsere Aufgabe war es, ein System zu entwickeln, das PDF-Dokumente schnell und mit minimalem Aufwand für den Benutzer in interaktive Nutzer-Journeys umwandeln kann. Um die vor uns liegende Herausforderung zu bewältigen, entschieden wir uns, Computer-Vision, maschinelles Lernen und Deep-Learning-Technologien zu nutzen.

Als Erstes mussten wir herausfinden, wie wir einen Trainingsdatensatz erstellen konnten – also beschriftete Daten, mit denen wir unseren Algorithmus füttern konnten. Wir konnten keinen bestehenden Datensatz verwenden, da unser Erkennungsszenario nicht alltäglich ist (also keine Katzen und Hunde hier).  

Zum Glück für uns ist die Feldbeschriftung bereits ein integraler Bestandteil der PDF-Spezifikation. Wir durchforsteten das Internet nach PDF-Dateien und analysierten sie, um nach getaggten Feldern zu suchen. Wenn wir solche Felder fanden, fügten wir sie zu unserem Datensatz hinzu, der nun Positionen und Typen von Formularfeldern enthielt, die bereits getaggt und von Menschen überprüft worden waren. Hervorragende Arbeit, Menschen!

Als Nächstes führten wir einige grundlegende Bildbereinigungen durch, die hauptsächlich die Konvertierung der Bilder in Graustufen und die Invertierung der Farben beinhalteten. Das Ziel war es, den Algorithmus davon abzuhalten, bestimmte Aspekte der Daten zu verallgemeinern, die wir im Vorfeld einfach normalisieren konnten. Wir haben andere Bildbearbeitungsmethoden ausprobiert, aber sie schienen keinen großen Unterschied zu machen.  

EasySend Kadabra Blog

Ein Ausschnitt aus einem PDF-Formular, das für das Netzwerk bereinigt und transformiert wurde. Das blaue Rechteck stellt das Feld dar.

Trainieren des Modells: das Gute, das Schlechte und das Hässliche

Unser erster Ansatz bestand naiverweise darin, alle Bilder und Beschriftungen in ein tiefes neuronales Netz einzuspeisen und es so zu trainieren, dass es die Positionen erkennt und die Typen der gefundenen Felder klassifiziert. Unsere Eingabe bestand aus dem Bild einer PDF-Seite, und die Ausgabe wären dann alle erkannten Felder sowie deren Position, Typ und Größe.

Wir verwendeten einen Sliding-Window-Ansatz, um die signifikante Seite in kleinere Bereiche zu unterteilen, prüften, ob diese Bereiche ein Feld enthielten oder nicht, und speisten diese Daten dann in das Netzwerk ein. Natürlich mussten wir ein Gleichgewicht zwischen der Anzahl der Feld- und derjenigen der Nicht-Feld-Onjekte herstellen. Das Lernproblem war: Enthält ein kleines Bild ein Feld und wenn ja, wo?

Wir wollten, dass unser Netzwerk lernt: (1) ob ein Feld in einem gegebenen Bild existiert und (2) wenn es existiert, was die Grenzen des Feldes sind.

Video-Player

00:00

00:04

Was lernt unser Algorithmus? Der grüne Kasten ist das Ziel; der rote Kasten ist die KI, die Erkennungen vornimmt und verbessert.

Dieser Ansatz schien zunächst vielversprechend, aber wir stießen auf mehrere Probleme:

  1. Felder gibt es in vielen verschiedenen Größen, sodass wir mehrere Größenmuster benötigten. Das Ergebnis war, dass das Trainieren und das Ausführen des Algorithmus ziemlich langsam vor sich gingen und wir nie wirklich den Sweetspot finden konnten. Wir wollten nicht, dass unsere Benutzer zu lange auf die Verarbeitung der einzelnen Seiten warten müssen.
  2. Der Algorithmus lernte anfangs sehr schnell, aber wir konnten nicht die gewünschte Genauigkeit erreichen, was zu Erkennungen führte, die, selbst wenn sie korrekt waren, immer noch „leicht daneben” lagen. In den meisten Objekterkennungsszenarien wäre dies kein Problem, aber in unserem Anwendungsfall muss es auf den Pixel genau passen. Jeder Fehler wird sehr deutlich wahrgenommen. Wir waren mit diesem Problem nicht allein; Amazons Textract scheint ähnliche Probleme zu haben.
Unsere KI hat das Feld erkannt, aber die Pixelgenauigkeit ist frustrierend.
Amazons Textract hat das gleiche lästige Problem.


Als wir über unseren nächsten Schritt nachdachten, wurde uns klar, dass wir viel teure Rechenzeit für die Erkennung der genauen Position des Feldes aufwenden und unseren Algorithmus zwingen, sowohl den Status als auch die Klassifizierung zu lernen. Wir wussten, dass es Deep-Learning-Algorithmen gibt, die für die Erkennung von Grenzen entwickelt wurden, aber wir wollten eine einfachere Lösung, die weniger Blackboxen enthält. Am Ende wählten wir einen klassischen Ansatz für die Suche nach Kandidaten, gefolgt von einer einfachen Feld-ja/Feld-nein-Klassifizierung.

Suchen & Klassifizieren

Unser Problemraum ist einzigartig, weil wir grob wissen, wie ein Feld aussieht – es ist ein Kasten, eine Linie, eine gepunktete Linie oder etwas Ähnliches. Es hat einige geometrische Eigenschaften, die wir immer in einem Feld finden können, und es wurden bereits hervorragende Computer-Vision-Algorithmen erfunden, um diese Formen zu finden.  

Also benutzten wir OpenCV, um Linien und Rechtecke zu finden, und stimmten unseren Code so lange ab, bis wir jede im ursprünglichen Datensatz vorhandene Form erkannt hatten. Natürlich erhielten wir auch viele weitere Linien und Rechtecke, die keine Felder waren, aber das war beabsichtigt – jetzt wollten wir, dass unser Algorithmus lernt, wie er zwischen diesen beiden Gruppen unterscheiden kann. Unser ursprüngliches Lernproblem wurde geändert in: Ausgehend vom Bild einer Linie oder eines Rechtecks – handelt es sich um ein Formularfeld? Dies ist ein viel einfacheres Problem, das trainiert werden kann, und es wird uns in Bezug auf die Pixelgenauigkeit nie im Stich lassen.

Unser neuer Ansatz erwies sich als äußerst zufriedenstellend

Die Bedeutung des Benutzererlebnisses

Wir wollten nun den Algorithmus feinstimmen, um das bestmögliche Benutzererlebnis zu schaffen. Wir wissen, dass es für einen Benutzer viel einfacher ist, ein fälschlicherweise als solches erkanntes Feld zu entfernen, als ein nicht erkanntes Feld per Drag-&-drop-Funktion zu markieren. Also haben wir den Algorithmus so optimiert, dass er mehr Vorhersagen generiert, auch wenn einige davon falsch sind, da dies immer noch die Benutzerfreundlichkeit für den Endnutzer verbessert. Derartige Gedanken brachte uns zu unserer nächsten Aufgabe. Wir standen noch ganz am Anfang des Projekts AI-Builder.

Gut gelesen?
Holen Sie sich
die neuesten
über die Digitalisierung
Vielen Dank für Ihr Abonnement!
Ups! Beim Absenden des Formulars ist etwas schiefgelaufen.
Sehen Sie, wie Sie mit EasySend digital werden können
Demo buchen

Über EasySend

Verwandeln Sie komplexe Formulare in einfache digitale Erlebnisse - mit EasySend, dem die Fortune-500-Finanzunternehmen vertrauen. Unsere leistungsstarke No-Code-Plattform revolutioniert komplexe Formulare und wandelt Datenerfassungsprozesse für Kreditanträge, Kontoeröffnungen und Rückbuchungen nahtlos in mühelose digitale Erlebnisse um.

Über EasySend

Verändern Sie mit EasySend den gesamten Lebenszyklus einer Police, vom Angebot bis zur Erneuerung. Unsere No-Code-Plattform, der Fortune-500-Versicherungsunternehmen vertrauen, revolutioniert die Datenerfassungsprozesse. Erfassen Sie mühelos Kundeninformationen, erstellen Sie Angebote, erleichtern Sie die Beantragung von Policen, optimieren Sie das Schadenmanagement und vereinfachen Sie die Erneuerung von Policen, um eine nahtlose, benutzerfreundliche Erfahrung zu bieten.

Asaf Geva
Asaf Geva

Asaf Geva ist der VP R& bei EasySend.