Séance de questions-réponses en direct avec Douglas Laney sur l'automatisation de l'extraction de données

By |2022-07-29T11:18:09+00:008 Juin 2022|

L'automatisation transforme le paysage des entreprises modernes, aidant les entreprises à devenir plus rapides et à améliorer leurs performances. Il n'est pas surprenant que le marché mondial de l'intelligence artificielle (IA) devrait franchir la barre des 500 milliards de dollars en 2023. L'IA a le pouvoir de révolutionner l'efficacité des entreprises et il est grand temps que les organisations s'appuient encore sur des méthodes manuelles et archaïques pour traiter les documents.

Lors de notre récent webinaire, nous avons eu le privilège de parler avec Douglas Laney. Bénéficiant de 35 ans d'expérience dans l'industrie, M. Laney est un expert de premier plan en matière de données et d'analyse. Actuellement, il occupe le poste de Data and Analytics Strategy Innovation Fellow à West Monroe, où il consulte des chefs d'entreprise sur la conception et la mise en œuvre de nouveaux flux de valeur axés sur les données.

Douglas Laney a précédemment occupé le poste de vice-président et analyste VP distingué chez Gartner et a reçu trois fois le prix Gartner pour le leadership éclairé. Il est également à l'origine du « domaine de l'infonomie », développant des méthodes pour quantifier la valeur économique de l'information et appliquer les pratiques de gestion des actifs aux actifs informationnels.

Dans le webinaire, nous avons parlé à M. Laney pour obtenir des informations plus approfondies sur les principaux moteurs de valeur qui font extraction de données à partir d'un document non structuré sources une tâche vitale et comment cela peut aider à rationaliser le traitement des documents.

Animateur : Les organisations modernes produisent de plus en plus de données avec le temps. Il a été dit à plusieurs reprises que les données sont la monnaie du futur, alors que pensez-vous de cela ? Quelle valeur les données apportent-elles à une entreprise ?

Douglas Laney : C'est une bonne question! Vous savez, fait intéressant, l'information a toujours été une sorte de monnaie d'échange. Les rois payaient grassement pour obtenir des informations, par exemple sur les mouvements de troupes de leurs ennemis. Même le terme intelligence économique a été inventé il y a près d'un siècle et demi par Richard Devins et Sinclair Hamilton dans leur livre de 1865, The Encyclopedia of Commercial and Business Anecdotes, dans lequel ils racontent comment un gentleman nommé Sir Henry Furness a été généreusement récompensé, notamment en étant donné une bague en diamant par le roi Guillaume pour lui avoir apporté des nouvelles sur les batailles à travers la Hollande, la Flandre et la France. Les premiers bureaux de crédit ont été payés par les banques au début des années 1900 pour compiler des informations et des anecdotes sur les propensions de remboursement des hommes d'affaires.

Aujourd'hui, cependant, nous sommes vraiment passés au niveau supérieur. Codifier et automatiser, voire encadrer les pratiques de collecte et de monétisation des données. Je pense à l'analogie entre les données et la monnaie, où elle échoue dans certaines des qualités économiques uniques des données. Une fois que vous dépensez un dollar ou un euro, vous ne pouvez plus le dépenser à nouveau. Vous ne pouvez le dépenser que dans un sens à la fois. Les données, en revanche, sont davantage ce que les économistes appellent un actif à risque non épuisant et non rival. Vous pouvez le dépenser encore et encore sans qu'il soit épuisé. Vous pouvez le dépenser ou l'utiliser de plusieurs façons simultanément. Ainsi, les entreprises qui ont capitalisé sur ces caractéristiques des données sont vraiment celles qui gagnent dans l'économie numérique d'aujourd'hui.

Animateur : Diriez-vous que les données jouent un rôle clé dans le processus de production ?

Douglas Laney : Ouais! En fait, j'en suis venu à la conclusion que les données sont le cinquième facteur de production. Vous savez, les économistes au tournant du siècle dernier [je pense à cette époque] ont identifié quatre facteurs clés de production ; la terre, la main-d'œuvre, le capital et l'entrepreneuriat, et de plus en plus les données étaient même devenues un substitut à presque tous ces [facteurs].

Par exemple, les fabricants n'ont plus besoin d'entrepôts massifs parce que les systèmes de gestion des stocks juste-à-temps remplacent les informations de la chaîne d'approvisionnement par les stocks sur site, et, bien sûr, nous avons vu les données et les analyses remplacer les chiffres et autres travailleurs du savoir, et Aujourd'hui, les entreprises paient des biens et des services en utilisant des données.

Alors, considérez votre propre expérience à l'épicerie. Les données et les analyses sont même utilisées pour proposer de nouveaux modèles commerciaux, produits, médicaments, etc. Je soutiens donc que les données devraient être considérées comme le cinquième facteur de production.

Animateur : Nous savons qu'une grande partie des données que les entreprises et les organisations reçoivent sont dans un format non structuré. Pourquoi ces données non structurées ont-elles tendance à être sous-utilisées par rapport aux données structurées ?

Douglas Laney : Je pense juste parce que ce n'est pas structuré. Données non structurées se trouve dans des documents tels que les PDF, les e-mails, les médias sociaux et le multimédia. Ce ne sont que des données qui ne sont pas organisées en petites lignes et colonnes soignées. Les données non structurées doivent être traitées pour extraire des informations discrètes et des idées. J'ai souvent dit que le contenu non structuré ne peut être partagé, modifié et lu que jusqu'à ce que vous lui extrayiez ou lui ajoutiez un certain type de valeur ou de structure.

Il y a beaucoup de viande là-dedans, et à cause des aléas et des nuances et des choses comme la langue et la sémantique, ce type de marquage de données non structurées ou d'extraction est difficile à faire, et encore moins à le faire de manière efficace et cohérente. Cependant, comme on dit qu'entre 80 et 90 % des données aujourd'hui sont non structurées, je pense que c'est un vrai terrain fertile pour ceux qui cherchent à obtenir un avantage concurrentiel.

Il y a environ deux décennies, j'ai proposé le concept des trois V du Big Data : volume, vélocité et variété. Ainsi, on parle aussi souvent de données non structurées ayant un volume important. Eh bien, bien sûr, c'est le cas par nature, mais il possède également une grande variété de sources de données qui ne sont pas structurées pour toute organisation.

Hôte : Nous avons établi qu'environ 90 % des données d'entreprise sont, comme vous l'avez dit, non structurées. Avez-vous des idées sur la façon dont les organisations peuvent intégrer ces données non structurées dans leurs pipelines de données et entrepôts de données existants ?

Douglas Laney : Ouais. Vous savez qu'il ne suffit pas de déposer du contenu non structuré directement dans nos entrepôts de données ou nos lacs de données. Je suggère que vous ayez d'abord vraiment besoin d'extraire des données de ce contenu ou de le taguer et de le lier d'une manière qui le rende interrogeable. Même lier des concepts à travers des éléments de contenu pour créer un graphe de connaissances s'est avéré avantageux pour certaines organisations, en particulier celles qui cherchent à faire des choses comme identifier les comportements frauduleux ou les mauvais acteurs.

Animateur : Nous savons que les documents non structurés ont une valeur énorme. Quels sont les exemples de données non structurées utilisées pour générer des flux de valeur innovants pour les organisations ?

Douglas Laney : Oui. [Voici un exemple]. Cette compagnie d'assurance s'est rendu compte qu'elle était assise sur une archive de rapports d'experts. Ainsi, quelqu'un soumet une réclamation, la compagnie d'assurance enquête sur cette réclamation, l'enquêteur rédige un rapport, et ce rapport est utilisé pour traiter une réclamation individuelle.

Mais ce qu'ils ont réalisé, c'est qu'ils pouvaient exploiter le contenu de ces rapports d'expert pour identifier la propension ou les indications d'un langage frauduleux qui était utilisé, ou des omissions ou des incohérences. Lorsqu'ils ont déployé cet algorithme d'exploration de texte sur ces données, ils ont pu subroger ou récupérer des millions de dollars de réclamations frauduleuses déjà payées et également intégrer ce modèle dans leur système de traitement des réclamations.

Un autre exemple est le fabricant Lockheed Martin qui fabrique des avions de chasse et d'autres types d'équipements militaires. Ils ont pris une idée que je leur ai donnée pour identifier les indicateurs avancés des problèmes de projet comme la portée ou le budget ou le personnel, ou les problèmes liés à la technologie en explorant les communications du projet pour le personnel des projets plutôt que d'utiliser simplement l'ancienne méthode de rapport d'état.

Ils recherchaient des indicateurs avancés des problèmes du projet et, ce faisant, ils ont fini par ajouter trois fois plus de prévoyance aux problèmes du projet qu'auparavant et économisent des centaines de millions de dollars en dépassements de coûts. Je viens également d'apprendre hier en parlant à un consultant en Ukraine comment ils utilisent la reconnaissance faciale pour identifier les saboteurs et utilisent des cartes et des images satellite pour aider à identifier et à faire connaître la chaîne d'approvisionnement et les voies d'évacuation en constante évolution.

Animateur : Pendant que nous parlons de l'utilisation de ces données non structurées, pouvez-vous nous parler de certains problèmes courants auxquels les organisations sont confrontées lors de l'extraction des données à partir de ces sources non structurées ?

Douglas Laney : Grande question ! C'est formidable d'être conscient de ces problèmes et d'être confronté à ces problèmes. J'ai déjà mentionné le problème des langues multiples, et même les ambiguïtés au sein d'une langue sont difficiles. Créer des glossaires et des synonymes et identifier les sentiments en effectuant une analyse des sentiments est autant un art qu'une science parfois. Indexer et classer, et étiqueter le contenu, déterminer ce qui est pertinent ou non. Traitement du langage naturel - nous traitons également des données de grande taille, généralement.

Que retenons-nous ou ne retenons-nous pas ? La rétention est importante. Comment oublions-nous quelque chose si nous avons appris quelque chose ? À quel moment diminue-t-on sa valeur avec le temps ? Il est également difficile d'évaluer la qualité du contenu non structuré. Il est beaucoup plus facile de déterminer la qualité d'un contenu structuré. Ensuite, bien sûr, la sécurité, la confidentialité, le consentement et le masquage des informations personnellement identifiables sont également des problèmes clés liés à la technologie.

Animateur : Pouvez-vous nous éclairer sur l'automatisation ? L'automatisation comme avenir. Pourquoi est-ce une facette si importante dans ce voyage ?

Douglas Laney : Regardez quelques-uns des défis que j'ai mentionnés précédemment. La plupart des formes de contenu non structuré sont trop volumineuses pour être balisées, indexées ou extraites manuellement, même en utilisant des méthodes de crowdsourcing. [L'utilisation] de plusieurs personnes pour externaliser ce type d'effort a également tendance à entraîner un degré élevé d'incohérence. Nous examinons, par exemple, comment Facebook marque les publications qui ne répondent pas à leurs critères selon leurs normes.

La façon dont ils font cela est, vous savez, cela a tendance à être incohérent. Il y a aussi une latence à le faire aussi. Ainsi, pour obtenir des informations utilisables en temps réel ou quasi en temps réel à partir de contenu non structuré de presque n'importe quel volume ou vitesse, vous devez vraiment l'automatiser

Animateur : Que diriez-vous comme conseil ? Suggérez-vous aux organisations d'embarquer [avec l'automatisation] ? Quels avantages peuvent-ils retirer de l'automatisation de leur processus d'extraction ?

Douglas Laney : Je suggérerais de commencer petit. Identifiez et testez des moyens d'exploiter le contenu non structuré. Organisez peut-être des ateliers pour identifier les flux de valeur potentiels impliqués. C'est quelque chose que je fais tout le temps avec les clients - animer ces ateliers d'idéation. Et nous examinons non seulement le contenu structuré mais aussi le contenu non structuré, puis soyez conscient de ces défis et assurez-vous que vous êtes prêt à faire face à tous ces défis que j'ai mentionnés avec le contenu non structuré.

Même après avoir piloté et réalisé que si vous l'avez fait manuellement dans le cadre du pilote, cela ne va probablement pas évoluer, ce degré d'effort manuel ne va pas évoluer. Donc, cela devrait vraiment vous obliger à regarder façons d'automatiser.

Animateur : Donc, pour en revenir à la première chose dont nous avons discuté, [ces] données sont la monnaie du futur. Où voyez-vous l'extraction de données à l'avenir ?

Douglas Laney : Je pense que nous avons fait un excellent travail en créant des capacités d'extraction de données pour les ressources de données structurées. Et je pense qu'à l'avenir, évidemment, en raison du volume et de la valeur potentielle incorporée dans les données non structurées, je pense que nous allons commencer à voir de plus en plus d'organisations faire de l'extraction, du balisage et de la classification des données non structurées un élément central de leurs capacités de gestion de données et de leur portefeuille d'outils.

Une solution d'extraction de données automatisée pour les entreprises modernes

Astera ReportMiner est une solution d'extraction de données de niveau entreprise que les utilisateurs peuvent utiliser pour simplifier et rationaliser le traitement des documents. Combinant la puissance de l'automatisation, du traitement parallèle et de l'extraction intelligente de données, notre plate-forme sans code permet aux organisations de transformer instantanément un grand volume de données non structurées en informations exploitables.

Avec Astera ReportMiner, vous n'avez pas à vous fier aux processus de saisie manuelle des données. Vous pouvez charger automatiquement des fichiers à partir d'un emplacement configuré, puis écrire les données extraites vers une destination préférée. En utilisant notre solution, vous passez moins de temps à extraire des données et plus de temps à les utiliser. Contactez notre équipe pour commencer avec Astera ReportMiner dès aujourd’hui.