Blogs

Home / Blogs / Sesión de preguntas y respuestas en vivo con Douglas Laney sobre la automatización de la extracción de datos

Tabla de Contenido
El automatizado, Sin código Pila de datos

Aprende cómo Astera Data Stack puede simplificar y agilizar la gestión de datos de su empresa.

Sesión de preguntas y respuestas en vivo con Douglas Laney sobre la automatización de extracción de datos

Ammar Alí

Gestor de Contenidos

20th diciembre, 2023

La automatización está transformando el panorama corporativo moderno, ayudando a las empresas a ser más rápidas y mejorar el rendimiento. No sorprende que se espere que el mercado global de inteligencia artificial (IA) romper la marca de $ 500 mil millones en 2023. La IA tiene el poder de revolucionar la eficiencia comercial y ya es hora de que las organizaciones aún confíen en métodos manuales y arcaicos para procesar documentos.

En nuestro seminario web reciente, tuvimos el privilegio de hablar con Douglas Laney. Con 35 años de experiencia en la industria, el Sr. Laney es un experto líder en análisis y datos. Actualmente, se desempeña como becario de innovación de estrategia de datos y análisis en West Monroe, donde consulta a líderes empresariales sobre la concepción e implementación de nuevos flujos de valor basados ​​en datos.

Douglas Laney se desempeñó anteriormente como vicepresidente y vicepresidente analista distinguido en Gartner y recibió tres veces el premio de liderazgo intelectual de Gartner. También ha originado el "Campo de Infonomía", desarrollando métodos para cuantificar el valor económico de la información y aplicar prácticas de gestión de activos a los activos de información.

En el seminario web, hablamos con el Sr. Laney para obtener información más detallada sobre los impulsores de valor clave que hacen extracción de datos de un documento no estructurado fuentes una tarea vital y cómo puede ayudar a agilizar el procesamiento de documentos.

Anfitrión: Las organizaciones modernas producen cada vez más datos con el tiempo. Se ha dicho repetidamente que los datos son la moneda del futuro, entonces, ¿cuál es su opinión al respecto? ¿Qué valor aportan los datos a una empresa?

Douglas Laney: ¡Buena pregunta! Sabes, curiosamente, la información siempre ha sido una especie de moneda. Los reyes pagaban generosamente por información, por ejemplo, sobre los movimientos de tropas de sus enemigos. Incluso el término inteligencia de negocios fue acuñado hace casi un siglo y medio por Richard Devins y Sinclair Hamilton en su libro de 1865, The Encyclopedia of Commercial and Business Anecdotes, en el que relatan cómo un caballero llamado Sir Henry Furness fue recompensado generosamente, incluido ser el rey Guillermo le dio un anillo de diamantes por traerle las noticias sobre las batallas en Holanda, Flandes y Francia. Los primeros burós de crédito fueron pagados por los bancos a principios del siglo XX por recopilar información y anécdotas sobre las propensiones de pago de los empresarios.

Hoy, sin embargo, realmente hemos llevado esto al siguiente nivel. Codificar y automatizar, e incluso gobernar la práctica de recopilar y monetizar datos. Pienso en la analogía entre los datos y la moneda, donde se queda corta en algunas de las cualidades económicas únicas de los datos. Una vez que gastas un dólar o un euro, ya no puedes volver a gastarlo. Solo puede gastarlo de una manera a la vez. Los datos, por otro lado, son más lo que los economistas llaman un activo de riesgo que no se agota ni rivaliza. Puedes gastarlo una y otra vez sin que se agote. Puede gastarlo o usarlo de varias maneras simultáneamente. Entonces, las empresas que han capitalizado estas características de los datos son realmente las que están ganando en la economía digital actual.

Anfitrión: ¿Diría que los datos juegan un papel clave en el proceso de producción?

Douglas Laney: ¡Sí! De hecho, he llegado a la conclusión de que los datos son el quinto factor de producción. Ya sabes, los economistas de principios del siglo pasado [creo que por entonces] identificaron cuatro factores clave de producción; la tierra, el trabajo, el capital y el espíritu empresarial, y cada vez más los datos se habían convertido incluso en un sustituto de casi todos estos [factores].

Por ejemplo, los fabricantes ya no necesitan almacenes masivos porque los sistemas de administración de inventario justo a tiempo sustituyen la información de la cadena de suministro por el inventario en el sitio y, por supuesto, hemos visto que los datos y el análisis reemplazan el procesamiento de números y otros trabajadores del conocimiento, y Hoy en día, las empresas pagan por bienes y servicios utilizando datos.

Entonces, considere su propia experiencia en la tienda de comestibles. Los datos y el análisis incluso se utilizan para generar nuevos modelos comerciales, productos, medicamentos, etc. Por lo tanto, sostengo que los datos deben considerarse el quinto factor de producción.

Anfitrión: Sabemos que muchos de los datos que reciben las empresas y organizaciones están en un formato no estructurado. ¿Por qué estos datos no estructurados tienden a ser infrautilizados en comparación con los datos estructurados?

Douglas Laney: Creo que solo porque no está estructurado. Datos no estructurados se encuentra en documentos como PDF, correos electrónicos, redes sociales y multimedia. Son solo datos que no están organizados en pequeñas filas y columnas ordenadas. Los datos no estructurados deben procesarse para extraer información y conocimientos discretos. A menudo he dicho que el contenido no estructurado solo se puede compartir, editar y leer hasta que realmente se extrae o se le agrega cierto tipo de valor o estructura.

Hay mucha carne allí, y debido a los caprichos y matices y cosas como el lenguaje y la semántica, este tipo de etiquetado o extracción de datos no estructurados es difícil de hacer, y mucho menos hacerlo de manera eficiente y consistente. Sin embargo, dado que la gente dice que entre el 80 y el 90 de los datos actuales no están estructurados, creo que es un territorio realmente fértil para aquellos que buscan obtener una ventaja competitiva.

Volviendo a un par de décadas más o menos, se me ocurrió el concepto de las tres V de big data: volumen, velocidad y variedad. Por lo tanto, también hablamos a menudo de que los datos no estructurados tienen un volumen significativo. Bueno, por supuesto, lo hace por su naturaleza, pero también tiene una gran variedad de fuentes de datos que no están estructuradas para cualquier organización.

Anfitrión: Hemos establecido que alrededor del 90 por ciento de los datos empresariales no están estructurados, como usted dijo. ¿Tiene alguna idea sobre cómo las organizaciones pueden integrar estos datos no estructurados en sus canalizaciones de datos y almacenes de datos existentes?

Douglas Laney: Sí. Sabe que no basta con colocar contenido no estructurado directamente en nuestros almacenes de datos o lagos de datos. Le sugiero que primero realmente necesite extraer datos de ese contenido o etiquetarlo y vincularlo de alguna manera que lo haga consultable. Incluso vincular conceptos a través de piezas de contenido para crear un gráfico de conocimiento ha demostrado brindar beneficios para algunas organizaciones, especialmente aquellas que buscan hacer cosas como identificar comportamientos fraudulentos o malos actores.

Anfitrión: Sabemos que los documentos no estructurados tienen un valor enorme. ¿Cuáles son los ejemplos de datos no estructurados que se utilizan para generar flujos de valor innovadores para las organizaciones?

Douglas Laney: Sí. [Aquí hay un ejemplo]. Esta compañía de seguros se dio cuenta de que estaba sentada en un archivo de informes de ajustadores. Entonces, alguien presenta un reclamo, la compañía de seguros investiga ese reclamo, el investigador redacta un informe y ese informe se usa para procesar un reclamo individual.

Pero se dieron cuenta de que podían extraer el contenido de esos informes del ajustador para identificar la propensión o las indicaciones de lenguaje similar al fraude que se usó, o las omisiones o inconsistencias. Cuando implementaron este algoritmo de minería de texto contra estos datos, pudieron subrogarse o recuperar millones de dólares de reclamos fraudulentos pagados anteriormente y también incorporar ese modelo en su sistema de procesamiento de reclamos.

Otro ejemplo es el fabricante Lockheed Martin, que fabrica aviones de combate y otros tipos de equipos militares. Tomaron una idea que les di para identificar los principales indicadores de los problemas del proyecto, como el alcance, el presupuesto o el personal, o problemas relacionados con la tecnología mediante la extracción de las comunicaciones del proyecto para el personal de los proyectos en lugar de simplemente usar el antiguo método de informe de estado.

Estaban buscando indicadores principales de los problemas del proyecto y, al hacerlo, terminaron agregando tres veces más previsión a los problemas del proyecto que antes y están ahorrando cientos de millones de dólares en sobrecostos. También aprendí ayer al hablar con un consultor en Ucrania cómo están usando el reconocimiento facial para identificar a los saboteadores y usando mapas e imágenes satelitales para ayudar a identificar y publicitar la cadena de suministro en constante cambio y las rutas de evacuación.

Anfitrión: Ya que estamos en el tema del uso de estos datos no estructurados, ¿puede decirnos algunos problemas comunes que enfrentan las organizaciones al extraer los datos de estas fuentes no estructuradas?

Douglas Laney: ¡Gran pregunta! Es genial ser consciente de esto y estar al frente de estos problemas. Mencioné antes el problema con varios idiomas, e incluso las ambigüedades dentro de un idioma son difíciles. Crear glosarios y sinónimos e identificar sentimientos mediante el análisis de sentimientos es tanto un arte como una ciencia a veces. Indexación y clasificación, y etiquetado de contenido, determinando qué es relevante o no. Procesamiento de lenguaje natural: también estamos tratando con datos de gran tamaño, por lo general.

¿Qué retenemos o no retenemos? La retención es importante. ¿Cómo olvidamos algo si hemos aprendido algo? ¿En qué punto disminuimos su valor con el tiempo? También es difícil medir la calidad del contenido no estructurado. Es mucho más fácil determinar la calidad del contenido estructurado. Luego, por supuesto, la seguridad, la privacidad, el consentimiento y el enmascaramiento de información de identificación personal también son cuestiones clave relacionadas con la tecnología.

Anfitrión: ¿Puede arrojar algo de luz sobre la automatización? La automatización como futuro. ¿Por qué es una faceta tan clave en este viaje?

Douglas Laney: Mire algunos de los desafíos que mencioné antes. La mayoría de las formas de contenido no estructurado son demasiado voluminosas para etiquetarlas, indexarlas o extraerlas manualmente, incluso utilizando métodos de crowdsourcing. [Usar] múltiples humanos para hacer crowdsourcing de este tipo de esfuerzo tiende a resultar también en un alto grado de inconsistencia. Observamos, por ejemplo, cómo Facebook etiqueta las publicaciones que no cumplen con sus criterios o estándares.

La forma en que lo hacen es, ya sabes, esto tiende a ser inconsistente. También hay una latencia al hacerlo. Por lo tanto, para obtener información utilizable en tiempo real o casi en tiempo real a partir de contenido no estructurado de casi cualquier volumen o velocidad, realmente necesita automatizarlo.

Anfitrión: ¿Qué dirías como consejo? ¿Sugeriría que las organizaciones se sumen [a la automatización]? ¿Qué beneficios pueden obtener de la automatización de su proceso de extracción?

Douglas Laney: Yo sugeriría tipo de empezar poco a poco. Identificar y probar formas de aprovechar el contenido no estructurado. Tal vez organice algunos talleres para identificar los flujos de valor potenciales que están involucrados en hacerlo. Esto es algo que hago con los clientes todo el tiempo: realizar estos talleres de ideación. Y estamos buscando no solo contenido estructurado sino también contenido no estructurado, y luego ser consciente de esos desafíos y asegurarnos de estar preparado para enfrentar todos esos desafíos que mencioné con el contenido no estructurado.

Incluso después de pilotar y darte cuenta de que si lo hiciste manualmente como parte del piloto, probablemente no va a escalar, ese grado de esfuerzo manual no va a escalar. Entonces, realmente debería obligarte a mirar formas de automatizar.

Anfitrión: Entonces, volviendo a lo primero que discutimos, [que] los datos son la moneda del futuro. ¿Dónde ve la extracción de datos en el futuro?

Douglas Laney: Creo que hemos hecho un gran trabajo al crear capacidades de extracción de datos para activos de datos estructurados. Y creo que en el futuro, obviamente, debido al volumen y el valor potencial incorporado en los datos no estructurados, vamos a comenzar a ver más y más organizaciones que hacen de la extracción, el etiquetado y la clasificación de datos no estructurados una parte fundamental. de sus capacidades de gestión de datos y cartera de herramientas.

Una solución de extracción de datos automatizada para empresas modernas

Astera ReportMiner es una solución de extracción de datos de nivel empresarial que los usuarios pueden usar para simplificar y agilizar el procesamiento de documentos. Al combinar el poder de la automatización, el procesamiento paralelo y la extracción inteligente de datos, nuestra plataforma sin código facilita que las organizaciones transformen instantáneamente un gran volumen de datos no estructurados en información procesable.

Con Astera ReportMiner, no tiene que depender de los procesos de entrada de datos manual. Puede cargar archivos automáticamente desde una ubicación configurada y luego escribir los datos extraídos en un destino preferido. Con nuestra solución, dedica menos tiempo a la extracción de datos y más tiempo a su uso. Contacta con nuestro equipo para empezar Astera ReportMiner .

También te puede interesar
7 métricas de calidad de datos para evaluar el estado de sus datos
Mejorar la gobernanza y la integración de los datos sanitarios con Astera
¿Qué es la gobernanza de metadatos?
Considerando Astera ¿Para sus necesidades de gestión de datos?

Establezca conectividad sin códigos con sus aplicaciones empresariales, bases de datos y aplicaciones en la nube para integrar todos sus datos.

¡Conectémonos ahora!
conectemos