Blog PIKON Deutschland AG
Search
blank

Künstliche Intelligenz (KI) im CRM-Migrationsprojekt

In Customer-Relationship-Management-Systemen (CRM) werden Kundenbeziehungen mit Kontaktdaten gepflegt. Auch Aufgaben der Vertriebsmitarbeiter wie z.B. das Versenden von Informationen an einen Kunden oder die Kontaktaufnahme werden hier hinterlegt. In vielen Unternehmen ist das CRM-System ein wichtiger Teil der Wertschöpfungskette.

Daten über Kunden sind nicht statisch, sie ändern sich stetig. Durch die laufende Pflege dieser Daten gibt es einen kontinuierlichen Fluss an Informationen zu bereits bestehenden Kunden und Kontakten. Auch die Zusammenhänge zwischen Kunden und Ansprechpartnern verändern sich. Wenn viele Mitarbeiter am gleichen CRM-System arbeiten, kann es passieren, dass die Rigidität der Daten mit der Zeit abnimmt. Datenfehler und Dubletten können entstehen. Das macht auch die Auswertungen schwieriger.

In diesem Blogartikel beschreiben wir unsere Erfahrungen von einem CRM-Migrationsprojekt, das auch das Ziel hatte, die Dateninkonsistenzen aus dem alten System zu bereinigen, bevor sie in das neue System überführt wurden.

Ein dynamisches CRM-System mit vielen Nutzern

Trotz des großen Nutzens von Stammdaten, können sie große Herausforderungen für Unternehmen darstellen:

Eine Vielzahl von Nutzern im selben System führt zu einem uneinheitlichen Pflegegrad der Daten, und damit zu unvollständigen Daten oder zu Redundanz.

Werden mehrere Stammdatenquellen zusammengeführt, können die gleichen Kunden in mehreren Quellen existieren und müssen zusammengeführt werden.

Vor diesen Herausforderungen stand unser Projektteam in einem Migrationsprojekt von Daten aus einem CRM-System von Salesforce und von externen Dienstleistern in ein Jira-basiertes CRM-System.

Ziel war es, nur saubere Daten in das neue System zu migrieren und den manuellen Aufwand bei der Datenbereinigung zu minimieren. Hierfür wurde ein Migrationsprogramm aufgebaut und eine Künstliche Intelligenz trainiert, um sowohl Dubletten in den Daten zu erkennen als auch die Daten zu vervollständigen.

Da ein CRM-System für den produktiven Ablauf im Unternehmen essenziell ist, stellte die Downtime des CRM-Systems eine große Challenge dar. Dafür wurde das Migrationsprogramm modular aufgebaut und mit Schnittstellen für den Input der Data Owners ausgestattet. Auch die Zuordnung von Werten wurde über Tabellen gesteuert.

Datenbereinigung mit Künstlicher Intelligenz
Grafische Darstellung des Datenbereinigungsprogramms.

Was meinen wir mit Intelligenz bei der Datenbereinigung?

Ist eine Firma zweimal mit identischem Namen angelegt, dann können wir Dubletten über einen direkten Abgleich des Namens oder der Adresse erkennen. Oft ist dies aber nicht der Fall. Firmen werden mit unterschiedlichen Namen, Schreibweise oder Abkürzungen angelegt. Hier kommt die künstliche Intelligenz zum Einsatz: wir können Modelle trainieren, die automatisch ähnliche Objekte erkennen und durch Feedbackschleifen sogar besser werden.

blank
Dublettenerkennung und hierarchische Einordnung. Das KI-Modell erkennt namentliche Verwandtschaft der Firmen und ordnet sie hierarchisch ein

Die Künstliche Intelligenz identifiziert Dubletten automatisch und diese werden der verantwortlichen Person zur Kontrolle präsentiert. Das Feedback läuft wiederum in das Training der künstlichen Intelligenz ein, sodass die Identifikation von Dubletten mit der Zeit noch präziser wird.

Neben der Dublettenerkennung kann die KI auch für andere Aufgaben nützlich sein:
Aus Trainingsdaten können Regeln gelernt werden, die wiederum bei der Erkennung von Datenfehlern verwendet werden können.

blank

Außerdem lassen sich KI-Methoden sehr gut für das automatisierte Auslesen von Freitextfeldern verwenden.

Und wie haben wir das technisch umgesetzt?

1.         Vervollständigung der Stammdaten

In verschiedenen Tabellen des CRM-Systems fehlten Informationen über Datenpunkte. Besonders Firmenadressen wiesen oft fehlende Informationen auf. Unternehmen mit fehlenden Adressen(-teilen) wurden aus dem Internet automatisch durch einen Webcrawler gesucht. Sofern Teile der Adresse vorlagen, wurden diese mit der gecrawlten Adresse abgeglichen. Für den Vergleich der Adressdaten wurden NLP-Methoden (NER-Modell) trainiert, um Adressen in ihre Bestandteile aufzuspalten, unabhängig von der Reihenfolge und dem Landesformat. Bei Übereinstimmung der gepflegten Adressteile wurde die neue Adresse übernommen.

Ein anderes Beispiel für fehlende Informationen stellten die Kontaktinformationen dar. Besonders Social-Media-Profile wie LinkedIn und Xing-Accounts waren fast nie vorhanden, sind heute für den Vertrieb aber eine wichtige Information. Auch hierfür wurde ein Webcrawler programmiert, um die Social-Media Profile der Kontakte zu finden. Über ein regelbasiertes System wird sichergestellt, dass die gecrawlte Adresse korrekt ist. Mit einer größeren Vielfalt an Kontaktdaten können schnell vertriebliche Anfragen gelöst werden und der Kontakt aufrechterhalten werden.

Neben der Vervollständigung wurden die Daten gesäubert und Formate vereinheitlicht.

2.         Dublettenbereinigung

Wenn mehrere Mitarbeiter im gleichen System Daten pflegen entstehen Dubletten, insbesondere wenn das System über viele Jahre verwendet wird. Im Migrationsprozess sollten dazu auch Daten von einem externen Dienstleister überführt werden. Dadurch entstehen auch Dubletten, denn der externe Dienstleister kennt nicht alle Kunden, die im Unternehmen bereits im CRM-System gepflegt sind.

Eine Dublette ist ein Datensatz in einer Datenbank, der redundant ist und dessen Redundanz aber aufgrund abweichender Schreibung nicht durch Prüfung auf gleiche Inhalte erkannt werden kann. Daher ist es zeitaufwendig diese zu finden.

Für die Identifikation von gleichen Firmen wurde eine KI trainiert, die gleiche Unternehmen identifiziert. Dafür wurden Differenzen zwischen den Namen durch unterschiedliche Distanzmaße repräsentiert. Außerdem flossen Gesellschaftsformen (z.B. GmbH, AG usw.), Branchen (z.B. Automotive, Finance) und geographische Bezeichnungen (Deutschland, Europe, …) in das Modell mit ein. Diese wurden ebenfalls aus den Firmennamen extrahiert. Dadurch konnten nicht nur gleiche Firmen identifiziert, sondern auch Relationen (Parent-Child) zwischen Firmen festgestellt werden (Konzernstrukturen). Mit dieser Datengrundlage wurden mit Clusteringmethoden potenzielle Dubletten identifiziert. In einer Feedbackschleife zum Data Owner wurden die Labelings qualifizert. Dadurch wurde auch eine Datengrundlage zum Training eines präziseren Klassifikationsmodell geschaffen. Damit nahm die Präzision der Dublettenfindung laufend zu.

Gerne unterstützen wir auch Ihr Projekt mit einer intelligenten Stammdatenbereinigung. Sprechen Sie uns an:

Daniel Schneider-Ortscheit
Daniel Schneider-Ortscheit
Customer Success Manager

TAGS
Teilen Sie diesen Beitrag
LinkedIn
XING
Facebook
Twitter
Über den Autor
Leon Wolber
Leon Wolber
Leon Wolber (M.Sc. Business Intelligence) war Junior Data Scientist bei PIKON Deutschland AG.

Schreibe einen Kommentar

Weitere Blog-Artikel zu diesem Thema