Live-Q&A-Sitzung mit Douglas Laney zur Automatisierung der Datenextraktion

By |2022-07-29T11:18:09+00:00June 8th, 2022|

Die Automatisierung verändert die moderne Unternehmenslandschaft und hilft Unternehmen, schneller zu werden und die Leistung zu verbessern. Es ist keine Überraschung, dass dies vom globalen Markt für künstliche Intelligenz (KI) erwartet wird 500 die 2023-Milliarden-Dollar-Marke knacken. KI hat die Macht, die Geschäftseffizienz zu revolutionieren, und es ist höchste Zeit, dass sich Unternehmen immer noch auf manuelle, archaische Methoden zur Verarbeitung von Dokumenten verlassen.

In unserem letzten Webinar hatten wir das Privileg, mit Douglas Laney zu sprechen. Mit 35 Jahren Branchenerfahrung ist Herr Laney ein führender Daten- und Analyseexperte. Derzeit arbeitet er als Data and Analytics Strategy Innovation Fellow bei West Monroe, wo er Unternehmensleiter bei der Konzeption und Implementierung neuer datengesteuerter Wertströme berät.

Douglas Laney war zuvor als Vice President und Distinguished VP Analyst bei Gartner tätig und wurde dreimal mit dem Thought Leadership Award von Gartner ausgezeichnet. Er hat auch das „Field of Infonomics“ ins Leben gerufen und Methoden entwickelt, um den wirtschaftlichen Wert von Informationen zu quantifizieren und Asset-Management-Praktiken auf Informationsbestände anzuwenden.

Im Webinar sprachen wir mit Herrn Laney, um tiefere Einblicke in die wichtigsten Werttreiber zu erhalten, die machen Datenextraktion aus unstrukturiertem Dokument Quellen eine wichtige Aufgabe und wie sie dabei helfen kann, die Dokumentenverarbeitung zu rationalisieren.

Host: Moderne Organisationen produzieren mit der Zeit immer mehr Daten. Es wurde immer wieder gesagt, dass Daten die Währung der Zukunft sind, was denken Sie darüber? Welchen Wert bringen Daten einem Unternehmen?

Douglas Laney: Das ist eine gute Frage! Wissen Sie, interessanterweise waren Informationen schon immer eine Art Währung. Könige zahlten z. B. für Informationen über die Truppenbewegungen ihrer Feinde großzügig. Sogar der Begriff Business Intelligence wurde vor fast anderthalb Jahrhunderten von Richard Devins und Sinclair Hamilton in ihrem Buch The Encyclopedia of Commercial and Business Anecdotes von 1865 geprägt, in dem sie erzählen, wie ein Gentleman namens Sir Henry Furness ansehnlich belohnt wurde, einschließlich Sein erhielt von König William einen Diamantring, weil er ihm die Nachrichten über Schlachten in ganz Holland, Flandern und Frankreich überbracht hatte. Die ersten Kreditauskunfteien wurden Anfang des 1900. Jahrhunderts von Banken dafür bezahlt, dass sie Informationen und Anekdoten über die Rückzahlungsneigung von Geschäftsleuten zusammenstellten.

Heute haben wir dies jedoch wirklich auf die nächste Stufe gebracht. Kodifizierung und Automatisierung und sogar Steuerung der Praxis des Sammelns und Monetarisierens von Daten. Ich denke an die Analogie zwischen Daten und Währung, wo sie bei einigen der einzigartigen wirtschaftlichen Eigenschaften von Daten zu kurz kommt. Wenn Sie einmal einen Dollar oder einen Euro ausgegeben haben, können Sie ihn nicht mehr ausgeben. Sie können es jeweils nur auf eine Weise ausgeben. Daten hingegen sind eher das, was Ökonomen als nicht erschöpfende, nicht konkurrierende Risikoanlage bezeichnen. Sie können es immer wieder ausgeben, ohne dass es aufgebraucht wird. Sie können es ausgeben oder auf mehrere Arten gleichzeitig verwenden. Die Unternehmen, die diese Eigenschaften von Daten genutzt haben, sind also wirklich diejenigen, die in der heutigen digitalen Wirtschaft gewinnen.

Moderator: Würden Sie sagen, dass Daten eine Schlüsselrolle im Produktionsprozess spielen?

Douglas Laney: Ja! Tatsächlich bin ich zu dem Schluss gekommen, dass Daten der fünfte Produktionsfaktor sind. Wissen Sie, Wirtschaftswissenschaftler identifizierten um die Jahrhundertwende [ich glaube damals] vier Schlüsselfaktoren der Produktion; Land, Arbeit, Kapital und Unternehmertum, und zunehmend waren Daten sogar ein Ersatz für fast alle diese [Faktoren].

Zum Beispiel brauchen Hersteller keine riesigen Lager mehr, weil Just-in-Time-Bestandsverwaltungssysteme Lieferketteninformationen durch Vor-Ort-Bestand ersetzen, und natürlich haben wir gesehen, dass Daten und Analysen Zahlenverarbeitung und andere Wissensarbeiter ersetzen, und Heute bezahlen Unternehmen Waren und Dienstleistungen mit Daten.

Betrachten Sie also Ihre eigenen Erfahrungen im Lebensmittelgeschäft. Daten und Analysen werden sogar verwendet, um neue Geschäftsmodelle, Produkte, Medikamente usw. zu entwickeln. Ich behaupte also, dass Daten als fünfter Produktionsfaktor betrachtet werden sollten.

Host: Wir wissen, dass viele der Daten, die Unternehmen und Organisationen erhalten, in einem unstrukturierten Format vorliegen. Warum werden diese unstrukturierten Daten im Vergleich zu strukturierten Daten tendenziell zu wenig genutzt?

Douglas Laney: Ich denke nur, weil es unstrukturiert ist. Unstrukturierte Daten findet sich in Dokumenten wie PDFs, E-Mails, sozialen Medien und Multimedia. Es sind nur Daten, die nicht in ordentliche kleine Zeilen und Spalten organisiert sind. Unstrukturierte Daten müssen verarbeitet werden, um diskrete Informationen und Erkenntnisse zu extrahieren. Ich habe oft gesagt, dass unstrukturierte Inhalte nur so lange geteilt, bearbeitet und gelesen werden können, bis Sie tatsächlich einen bestimmten Wert oder eine bestimmte Struktur daraus extrahieren oder hinzufügen.

Da steckt viel Fleisch drin, und aufgrund von Launen und Nuancen und Dingen wie Sprache und Semantik ist diese Art der Kennzeichnung unstrukturierter Daten oder des Extrahierens schwierig, geschweige denn effizient und konsistent. Da die Leute jedoch sagen, dass heute zwischen 80 und 90 der Daten unstrukturiert sind, denke ich, dass dies ein wirklich fruchtbares Gebiet für diejenigen ist, die einen Wettbewerbsvorteil erzielen möchten.

Vor ein paar Jahrzehnten oder so kam ich auf das Konzept der drei Vs von Big Data: Volumen, Geschwindigkeit und Vielfalt. Wir sprechen daher auch oft von unstrukturierten Daten mit einem erheblichen Volumen. Natürlich tut es das von Natur aus, aber es hat auch eine große Vielfalt an Datenquellen, die für jede Organisation unstrukturiert sind.

Host: Wir haben festgestellt, dass rund 90 Prozent der Unternehmensdaten, wie Sie sagten, unstrukturiert sind. Haben Sie Einblicke, wie Unternehmen diese unstrukturierten Daten in ihre bestehenden Datenpipelines und Data Warehouses integrieren können?

Douglas Laney: Ja. Sie wissen, dass es nicht ausreicht, unstrukturierte Inhalte direkt in unsere Data Warehouses oder Data Lakes zu verschieben. Ich schlage vor, dass Sie zuerst wirklich Daten aus diesem Inhalt extrahieren oder ihn markieren und auf eine Weise darauf verlinken müssen, die ihn abfragbar macht. Sogar das Verknüpfen von Konzepten über Inhalte hinweg, um einen Knowledge Graph zu erstellen, hat sich für einige Organisationen als vorteilhaft erwiesen, insbesondere für diejenigen, die Dinge wie die Identifizierung von betrügerischem Verhalten oder schlechten Akteuren tun möchten.

Gastgeber: Wir wissen, dass unstrukturierte Dokumente einen enormen Wert haben. Was sind die Beispiele dafür, dass unstrukturierte Daten verwendet werden, um innovative Wertströme für Unternehmen zu generieren?

Douglas Laney: Ja. [Hier ist ein Beispiel]. Diese Versicherungsgesellschaft erkannte, dass sie auf einem Archiv von Sachverständigenberichten saß. Jemand reicht also einen Anspruch ein, die Versicherungsgesellschaft untersucht diesen Anspruch, der Ermittler erstellt einen Bericht, und dieser Bericht wird verwendet, um einen individuellen Anspruch zu bearbeiten.

Sie erkannten jedoch, dass sie den Inhalt dieser Sachverständigenberichte durchsuchen konnten, um die Neigung oder Hinweise auf eine betrügerische Sprache, die verwendet wurde, oder Auslassungen oder Inkonsistenzen zu identifizieren. Als sie diesen Text-Mining-Algorithmus gegen diese Daten einsetzten, konnten sie Millionen von Dollar an zuvor ausgezahlten betrügerischen Forderungen abtreten oder zurückerhalten und dieses Modell auch in ihr Forderungsbearbeitungssystem integrieren.

Ein weiteres Beispiel ist der Hersteller Lockheed Martin, der Kampfjets und andere militärische Ausrüstung herstellt. Sie nahmen eine Idee auf, die ich ihnen gegeben hatte, um Frühindikatoren für Projektprobleme wie Umfang oder Budget oder Personal oder technologiebezogene Probleme zu identifizieren, indem sie die Projektkommunikation für das Personal in den Projekten durchsuchten, anstatt nur die alte Statusberichtsmethode zu verwenden.

Sie suchten nach Frühindikatoren für Projektprobleme und fügten dabei Projektproblemen dreimal mehr Weitblick hinzu als früher und sparten Hunderte von Millionen Dollar an Kostenüberschreitungen. Ich habe auch erst gestern in einem Gespräch mit einem Berater in der Ukraine erfahren, wie sie Gesichtserkennung verwenden, um Saboteure zu identifizieren, und Karten und Satellitenbilder verwenden, um dabei zu helfen, sich ständig ändernde Lieferketten und Evakuierungsrouten zu identifizieren und bekannt zu machen.

Gastgeber: Da wir gerade beim Thema der Verwendung dieser unstrukturierten Daten sind, können Sie uns einige häufige Probleme nennen, mit denen Unternehmen konfrontiert sind, wenn sie die Daten aus diesen unstrukturierten Quellen extrahieren?

Douglas Laney: Tolle Frage! Es ist großartig, sich dessen bewusst zu sein und sich diesen Problemen zu stellen. Ich habe vorhin das Problem mit mehreren Sprachen erwähnt, und selbst Mehrdeutigkeiten innerhalb einer Sprache sind schwierig. Das Erstellen von Glossaren und Synonymen und das Identifizieren von Stimmungen durch Stimmungsanalysen ist ebenso eine Kunst wie manchmal eine Wissenschaft. Indexieren und klassifizieren sowie Taggen von Inhalten, um festzustellen, was relevant ist oder nicht. Verarbeitung natürlicher Sprache – Wir haben es normalerweise auch mit großen Datenmengen zu tun.

Was behalten wir oder nicht? Aufbewahrung ist wichtig. Wie vergessen wir etwas, wenn wir etwas gelernt haben? An welchem ​​Punkt mindern wir seinen Wert im Laufe der Zeit? Es ist auch schwierig, die Qualität von unstrukturierten Inhalten einzuschätzen. Es ist viel einfacher, die Qualität von strukturierten Inhalten zu bestimmen. Dann sind natürlich auch Sicherheit, Datenschutz, Zustimmung und das Maskieren persönlich identifizierbarer Informationen weitere technologiebezogene Schlüsselthemen.

Moderator: Können Sie etwas Licht in die Automatisierung bringen? Automatisierung als Zukunft. Warum ist es ein so wichtiger Aspekt auf dieser Reise?

Douglas Laney: Schauen Sie sich einige der Herausforderungen an, die ich zuvor erwähnt habe. Die meisten Formen unstrukturierter Inhalte sind zu umfangreich, um sie manuell zu taggen, zu indizieren oder zu extrahieren, selbst unter Verwendung von Crowdsourcing-Methoden. Die [Verwendung] mehrerer Menschen zum Crowdsourcing dieser Art von Aufwand führt tendenziell auch zu einem hohen Maß an Inkonsistenz. Wir schauen uns zum Beispiel an, wie Facebook Posts markiert, die ihren Kriterien und Standards nicht entsprechen.

Die Art und Weise, wie sie das tun, ist, wissen Sie, dies neigt dazu, inkonsistent zu sein. Es gibt auch eine Latenz dabei. Um also nutzbare Erkenntnisse in Echtzeit oder nahezu in Echtzeit aus unstrukturierten Inhalten nahezu beliebiger Menge oder Geschwindigkeit zu erhalten, müssen Sie diese wirklich automatisieren

Moderator: Was würden Sie als Ratschlag sagen? Würden Sie Organisationen vorschlagen, [mit Automatisierung] an Bord zu gehen? Welche Vorteile können sie aus der Automatisierung ihres Extraktionsprozesses ziehen?

Douglas Laney: Ich würde vorschlagen, klein anzufangen. Identifizieren und testen Sie Möglichkeiten zur Nutzung unstrukturierter Inhalte. Führen Sie vielleicht einige Workshops durch, um die potenziellen Wertströme zu identifizieren, die damit verbunden sind. Das ist etwas, was ich die ganze Zeit mit Kunden mache – diese Ideenworkshops leiten. Und wir betrachten nicht nur strukturierte Inhalte, sondern auch unstrukturierte Inhalte, und dann sollten Sie sich dieser Herausforderungen bewusst sein und sicherstellen, dass Sie bereit sind, mit all diesen Herausforderungen umzugehen, die ich mit unstrukturierten Inhalten erwähnt habe.

Selbst nachdem Sie das Pilotprojekt durchgeführt und festgestellt haben, dass es wahrscheinlich nicht skalierbar ist, wenn Sie es manuell als Teil des Pilotprojekts durchgeführt haben, wird dieser Grad des manuellen Aufwands nicht skalieren. Es sollte Sie also wirklich dazu zwingen, es sich anzusehen Möglichkeiten zu automatisieren.

Moderator: Also, um auf das Erste zurückzukommen, was wir besprochen haben, [dass] Daten die Währung der Zukunft sind. Wo sehen Sie die Datenextraktion in der Zukunft?

Douglas Laney: Ich denke, wir haben beim Aufbau von Datenextraktionsfunktionen für strukturierte Datenbestände großartige Arbeit geleistet. Und ich denke, dass wir in Zukunft aufgrund des Volumens und des potenziellen Werts, der in unstrukturierten Daten steckt, offensichtlich sehen werden, dass immer mehr Unternehmen die Extraktion, Kennzeichnung und Klassifizierung unstrukturierter Daten zu einem Kernbestandteil machen werden ihrer Datenmanagementfähigkeiten und ihres Portfolios an Tools.

Eine automatisierte Datenextraktionslösung für moderne Unternehmen

Astera ReportMiner ist eine Datenextraktionslösung für Unternehmen, mit der Benutzer die Dokumentenverarbeitung vereinfachen und optimieren können. Durch die Kombination der Leistungsfähigkeit von Automatisierung, Parallelverarbeitung und intelligenter Datenextraktion erleichtert unsere codefreie Plattform Unternehmen die sofortige Umwandlung einer großen Menge unstrukturierter Daten in umsetzbare Erkenntnisse.

Mit der Astera ReportMiner, müssen Sie sich nicht auf manuelle Dateneingabeprozesse verlassen. Sie können Dateien automatisch von einem konfigurierten Speicherort laden und die extrahierten Daten dann an ein bevorzugtes Ziel schreiben. Mit unserer Lösung verbringen Sie weniger Zeit mit der Datenextraktion und mehr Zeit mit der Nutzung. Kontaktieren Sie unser Team um mit anzufangen Astera ReportMiner registrierung.