As organizações hoje estão acumulando dados mais do que nunca. As abordagens tradicionais de gerenciamento de dados, como data warehouses centralizados e data marts isolados, estão lutando para acompanhar o volume, a velocidade e a variedade cada vez maiores de informações. A complexidade dos ambientes de dados modernos está ultrapassando as capacidades destes sistemas legados e exige uma solução mais ágil e distribuída.
Entrar Malha de dados, uma abordagem descentralizada ao gerenciamento de dados que promete revolucionar a forma como as organizações maximizam o valor de seus ativos de dados.
Se sua equipe estiver sobrecarregada com inúmeras solicitações ad hoc, lidando com fontes de dados diferentes ou ansiando por uma infraestrutura de dados mais ágil, sua organização pode estar pronta para uma malha de dados.
O que é uma malha de dados?
"A malha de dados é uma abordagem moderna de gerenciamento de dados que descentraliza a propriedade e o controle. Em vez de um data lake centralizado, os dados são organizados por domínio de negócios (como marketing, vendas ou atendimento ao cliente), com as equipes responsáveis por esses dados sendo donas de seu ciclo de vida.".
O arquitetura de malha de dados conecta várias fontes de dados em uma plataforma unificada, ao mesmo tempo que concede aos especialistas do domínio controle sobre o acesso, uso e formato de seus dados. Simplificando, transforma os dados de um recurso passivo num ativo estratégico, incentivando uma cultura orientada por dados.
Quais são os princípios fundamentais da malha de dados?
Sua organização deve implementar os quatro seguintes pilares de malha de dados adoptar a abordagem descentralizada.
1. Propriedade Orientada ao Domínio
No contexto de uma malha de dados, um domínio é um grupo de indivíduos unidos por um objetivo comercial compartilhado. A malha de dados postula que cada domínio deve possuir e gerenciar seus dados, metadados e políticas associadas.
Em vez de canalizar dados de fontes distintas para uma plataforma centralizada, distribuiçãoatribuído malha de dados defende o gerenciamento descentralizado de dados alinhado às funções de negócios. Aqui, as equipes de domínio gerenciam, transformam e veiculam de forma independente seus conjuntos de dados em um formato fácil de usar.
Por exemplo, uma organização de varejo pode estabelecer domínios separados para produtos de vestuário e comportamento dos visitantes do site.
2. Dados como produto
Domínios produzem produtos de dados, quais domínios downstream ou usuários finais consomem para gerar valor comercial. Ao contrário dos data marts tradicionais, os produtos de dados são autossuficientes, gerenciando sua própria segurança, linhagem e infraestrutura. Esta propriedade e responsabilidade claras permitem que os produtos de dados se tornem blocos de construção para outros produtos de dados ou apoiem diretamente iniciativas de business intelligence e machine learning.
Implementações de malha de dados bem-sucedidas exigem uma mentalidade de produto por parte das equipes de domínio. Eles devem ver seus conjuntos de dados como produtos e o restante da organização como seus clientes.
3. Infraestrutura de dados de autoatendimento como plataforma
Uma arquitetura de dados distribuída requer pipelines de dados independentes para cada domínio limpar, filtrar e carregar seus respectivos produtos de dados. A malha de dados apresenta uma plataforma de dados de autoatendimento para agilizar esse processo e evitar redundância. Aqui, os engenheiros de dados constroem uma base tecnológica que permite que todas as unidades de negócios processem e armazenem seus produtos de dados.
Essa abordagem estabelece uma divisão clara de trabalho: as equipes de engenharia de dados concentram-se no gerenciamento de tecnologia, enquanto os domínios são proprietários de seus dados. Neste caso, o sucesso de uma plataforma de dados de autoatendimento é medido pelo grau de autonomia que concede aos domínios na gestão dos seus ativos de dados.
4. Governança Computacional Federada
Distribuído dmalha ata permite um modelo de responsabilidade compartilhada para segurança dentro das organizações. Embora a liderança estabeleça padrões e políticas abrangentes, os domínios individuais mantêm autonomia na implementação destas directrizes para atender às suas necessidades. Esta abordagem descentralizada permite que os domínios inovem ao mesmo tempo que aderem aos princípios de segurança organizacional.
O que é a arquitetura de malha de dados?
Uma arquitetura de malha de dados compreende três elementos principais: fontes de dados, infraestrutura de dados compartilhada e pipelines de dados específicos de domínio gerenciados pelos respectivos proprietários de dados.
Para visualizar o mostrado acima diagrama de arquitetura de malha de dados, precisamos considerar três principais componentes de malha de dados:
1. Fontes de dados
As fontes de dados representam a base de uma malha de dados. Muitas vezes assemelhando-se a data lakes, esses repositórios acumulam dados brutos de várias origens, como redes IoT em nuvem, feedback de clientes ou web scraping.
2. Infraestrutura de malha de dados
Uma infraestrutura de malha de dados permite o compartilhamento contínuo de dados em uma organização, o que disponibiliza as informações para todos os departamentos. Os domínios mantêm a propriedade dos seus dados, ao mesmo tempo que facilitam a sua acessibilidade a outros departamentos. Isto é conseguido através de uma combinação de plataformas de dados de autoatendimento e governança federada. As plataformas de autoatendimento confiam aos domínios para ingerir, processar e servir seus dados de forma independente. Enquanto isso, a governança federada simultânea garante a consistência e a interoperabilidade dos dados em toda a organização.
3. Proprietários de dados
Os proprietários de dados constituem o núcleo de um arquitetura de malha de dados. Eles são responsáveis por fazer cumprir os padrões de conformidade, governança e classificação dos dados de seus departamentos. Por exemplo, os dados de RH exigem medidas de segurança específicas, restrições de uso e controles de acesso. Os proprietários de dados de cada departamento definem exclusivamente categorias e tipos de dados para alinhá-los com suas operações.
Como é que um Arquitetura de malha de dados Trabalhos?
Uma malha de dados reposiciona fundamentalmente os dados de um subproduto para um produto. Em vez de uma equipa de infraestrutura centralizada, os produtores de dados assumem a propriedade dos seus dados.
Uma equipe de governança centralizada garante a adesão aos padrões e procedimentos. Embora as equipes de domínio possuam pipelines de ETL, uma equipe centralizada de engenharia de dados otimiza a infraestrutura subjacente.
Assim como os microsserviços, uma malha de dados estrutura os dados em torno de domínios de negócios, criando produtos de dados independentes. O benefícios da arquitetura de malha de dados promovem flexibilidade e interoperabilidade de dados, resultando em consumo contínuo em toda a organização para análises, aprendizado de máquina e outros aplicativos.
Como implementar malha de dados?
A malha de dados é um conceito relativamente novo que ganhou força significativa após a pandemia. À medida que as organizações experimentam ativamente diferentes abordagens tecnológicas para construir malhas de dados para casos de uso específicos, fica claro que a implementação em toda a empresa ainda está em seus estágios iniciais.
Embora não exista uma estratégia única para a adoção da malha de dados, podemos começar com as etapas iniciais fornecidas abaixo:
Escolha o projeto piloto certo
Inicie sua jornada de malha de dados concentrando-se em uma única equipe. Esta abordagem concentrada fornece informações valiosas para uma implementação organizacional mais ampla. Priorize um produto de dados com impacto comercial claro e mensurável. Isso o ajudará a demonstrar o valor da malha de dados desde o início.
Analise seus dados existentes
Para estabelecer uma base sólida para sua malha de dados, você deve começar catalogando de forma abrangente os dados da sua organização. Este inventário irá sugerir um roteiro para identificar domínios de negócios distintos. Estabeleça regras de harmonização para garantir a colaboração contínua de dados entre domínios. Isso envolve a definição de padrões universais para elementos de dados, como tipos de campos, estrutura de metadados e convenções de nomenclatura de produtos de dados.
Escolha as tecnologias certas
O existente da sua organização armazéns de dados e os data lakes podem servir como bases valiosas para um arquitetura de malha de dados. Você pode redirecionar esses ativos para dar suporte a uma estratégia de dados distribuídos, fazendo a transição de sistemas centralizados para repositórios de dados descentralizados.
As plataformas em nuvem oferecem um ambiente robusto para construção e dimensionamento arquiteturas de malha de dados. Sua escalabilidade e economia inerentes podem agilizar significativamente seu processo de implementação.
A integração eficaz de dados é crucial para uma implantação bem-sucedida da malha de dados. Garanta a integridade e a consistência dos dados ao incorporar dados de sistemas legados em sua própria nova arquitetura.
Implementar políticas globais de governança de dados
A TI central deve definir padrões abrangentes de relatórios, autenticação e conformidade para a malha de dados. Controles de acesso granulares podem então ser estabelecidos pelos proprietários de produtos de dados ao gerenciar seus conjuntos de dados. Embora os produtores de dados mantenham a propriedade da qualidade dos dados, as políticas de governação central fornecem orientações essenciais.
Construa sua plataforma de dados de autoatendimento
Adaptar uma arquitetura orientada a domínio e uma infraestrutura de dados de autoatendimento requer um conhecimento profundo das necessidades exclusivas da sua organização. As necessidades organizacionais podem incluir padrões de qualidade de dados, estruturas de governança de dados, gerenciamento de metadados, capacidades de integração e preferências de experiência do usuário.
Algumas organizações priorizam a ingestão simplificada de dados por meio de ferramentas, enquanto outras se concentram em conceder aos domínios controle de acesso granular e visualização de dados padronizada.
Sua plataforma de dados de autoatendimento deve ser flexível e adaptável, o que permitirá que diversas equipes de domínio criem novos produtos de dados de forma independente. Deve abstrair as complexidades técnicas e fornecer componentes essenciais de infra-estrutura de uma forma fácil de utilizar. As funcionalidades principais incluem:
- Criptografia de dados: Protegendo informações confidenciais.
- Esquema de produto de dados: Definir estrutura e formato de dados.
- Governança e Controle de Acesso: Garantir a segurança e conformidade dos dados.
- Descoberta de produtos de dados: Facilitando fácil localização e acesso através de catálogos.
- Registro e monitoramento de produtos de dados: Rastreando a linhagem e o desempenho dos dados.
- Cache: Melhorando o desempenho da consulta.
Considere implementar recursos de automação, como modelos pré-configurados e soluções sem código, para acelerar o desenvolvimento de produtos de dados.
Construa uma organização centrada em malha de dados
Embora a tecnologia e as ferramentas atuais tenham amadurecido para apoiar a implementação da malha de dados, ir além dos projetos-piloto exigirá uma mudança fundamental na abordagem organizacional. Esta mudança prioriza:
- Acessibilidade e utilização de dados sobre processos de extração e carregamento de dados.
- Processamento de dados em tempo real sobre o processamento em lote atrasado.
- Propriedade descentralizada de dados sobre o controle centralizado da plataforma de dados.
Tradicionalmente, as escolhas tecnológicas ditavam a arquitetura de dados. Uma malha de dados inverte essa dinâmica, colocando os produtos de dados de domínio no centro da tomada de decisões.
Malha de dados x Data Lake x Data Fabric
Data lakes, malhas e malhas são conceitos inter-relacionados que evoluíram a partir do data warehouse tradicional.
lago data
A lago de dados é um repositório centralizado para armazenar dados brutos em seu formato nativo, independentemente da estrutura ou tipo. Ele aproveita o armazenamento em nuvem de baixo custo para acomodar grandes quantidades de dados para análise e processamento subsequentes.
Malha de dados
Em contraste com o data lake centralizado, uma malha de dados promove uma abordagem descentralizada para o gerenciamento de dados. Ele trata os dados como um produto, com equipes específicas de domínio possuindo e gerenciando seus respectivos domínios de dados. Embora possa aproveitar os data lakes como uma camada de armazenamento, o valor central da malha de dados reside no seu modelo organizacional e de governança.
Tecido de dados
Uma malha de dados é uma camada tecnológica que unifica fontes de dados diferentes em uma visão coerente. Ele emprega gerenciamento de metadados, IA e automação para criar uma plataforma de dados virtualizada. Em comparação com uma malha de dados, que se concentra na estrutura organizacional, uma malha de dados prioriza a integração técnica.
Leia mais: Cofre de dados versus malha de dados.
Quais são os benefícios de uma malha de dados?
Democratização de Dados
Uma malha de dados democratiza os dados ao descentralizar o controle e capacitar especialistas do domínio para criar produtos de dados de autoatendimento. Isso quebra os silos de dados, acelerando a tomada de decisões e liberando as equipes de dados para se concentrarem em iniciativas de alto valor. Ao acessar diretamente dados personalizados, os usuários empresariais ganham autonomia e agilidade.
Eficiência de custos
A arquitetura de dados distribuídos oferece eficiências de custos significativas ao passar do processamento em lote para o streaming de dados em tempo real por meio de plataformas em nuvem, permitindo que as equipes ajustem os recursos computacionais sob demanda.
Menos dívida técnica
O gerenciamento descentralizado de dados oferece vantagens significativas em relação aos sistemas centralizados. Ao distribuir a propriedade dos dados, as organizações aumentam a agilidade e a capacidade de resposta. Uma arquitetura de malha de dados permite que as equipes de dados atendam às necessidades das unidades de negócios de maneira mais eficaz. Também melhora o desempenho e a escalabilidade do sistema, reduzindo a carga em um único sistema central.
Interoperabilidade
Uma malha de dados convida à colaboração, estabelecendo padrões comuns para campos de dados em diferentes domínios. Essa base compartilhada simplifica a integração e o compartilhamento de dados. As equipes podem conectar conjuntos de dados com eficiência alinhando tipos de campo, metadados e formatos de esquema. Como resultado, os consumidores de dados beneficiam de um acesso simplificado às informações através de APIs, o que os ajuda a construir aplicações que apoiem eficazmente os objectivos empresariais.
Segurança e Conformidade
As arquiteturas de malha de dados são projetadas com segurança e conformidade em sua essência. Ao implementar controles de acesso granulares e padrões de dados, as organizações podem proteger informações confidenciais e, ao mesmo tempo, aderir a regulamentações como a HIPAA. A estrutura descentralizada permite auditorias de dados eficientes, e o registro e rastreamento integrados fornecem visibilidade do acesso e uso dos dados. O monitoramento centralizado aumenta ainda mais a segurança ao supervisionar o compartilhamento de dados entre domínios.
Maior flexibilidade
As malhas de dados são excelentes em flexibilidade em comparação com contrapartes centralizadas. Ao distribuir a propriedade e o gerenciamento de dados aos domínios de negócios, eles eliminam gargalos operacionais e reduzem a pressão sobre a infraestrutura centralizada. Este modelo descentralizado ajuda as equipes de dados a experimentar e inovar livremente, evitando que as equipes centrais de dados gerenciem vários pipelines de dados.
Descoberta de dados aprimorada
A distribuído malha de dados elimina silos de dados que muitas vezes se desenvolvem em torno de equipes de engenharia centralizadas. Ao distribuir a propriedade dos dados aos domínios de negócios, evita-se que os dados fiquem presos em sistemas isolados. Para garantir descoberta de dados, uma estrutura central de gerenciamento de dados mantém um inventário dos ativos de dados da organização.
Data Mesh na prática: exemplos práticos e aplicações
Arquiteturas de malha de dados oferecem suporte versátil para um amplo espectro de aplicações de big data. Esse modelo distribuído e centrado no produto aprimora diversas funções de negócios.
Vamos explorar alguns casos de uso comuns:
Vendas
A chave para o sucesso de vendas está na conexão com clientes em potencial. Arquitetura de malha de dados agiliza o processo de vendas, fornecendo às equipes de vendas os dados de que precisam, quando precisam. Os representantes de vendas não precisam mais ser especialistas em dados.
Cadeia de suprimentos e logística
As atuais cadeias de fornecimento globais geram um enorme volume de dados de diversas fontes, incluindo feedback de clientes, sistemas IoT industriais (IIoT) e representações digitais de ativos físicos.
Quando os profissionais da cadeia de abastecimento podem aceder diretamente e analisar estes dados em tempo real, as organizações podem desbloquear informações valiosas para informar a tomada de decisões estratégicas.
Indústria
Tradicionalmente, as equipes de design e P&D operavam com dados desatualizados dos clientes. A malha de dados revoluciona isso ao fornecer acesso em tempo real aos dados em toda a organização. Do desenvolvimento de produtos às operações de fábrica, as equipes agora aproveitam insights em tempo real para acelerar a inovação, melhorar a qualidade dos produtos e otimizar processos.
Marketing
Expectativas do cliente estão evoluindo rapidamente, com mais canais, como mídias sociais e lojas on-line, impulsionando a demanda por produtos mais rápidos e personalizados.
Para permanecerem competitivos, os profissionais de marketing precisam de acesso em tempo real a diversos dados. Tradicionalmente lento e frustrante, este processo é simplificado com uma malha de dados, proporcionando acesso imediato aos dados necessários.
Recursos Humanos
As equipes de RH gerenciam grandes quantidades de dados confidenciais e complexos todos os dias. A mudança para o trabalho remoto intensificou esse desafiar, à medida que os dados se tornam cada vez mais dispersos e os requisitos de conformidade evoluem continuamente.
Da contratação à aposentadoria, o RH precisa compreender e analisar dados de todos os cantos da empresa. Uma malha de dados mantém esses dados totalmente seguros, mas acessíveis. As equipes de RH autorizadas podem obter as informações de que precisam rapidamente, sem esperar por outras pessoas ou lidar com a burocracia multidepartamental e protocolos internos complexos.
Financeira
Assim como o RH, as equipes financeiras também lidam com dados confidenciais essenciais para um negócio. Ferramentas modernas como Sistemas ERP melhoraram a gestão financeira, mas processos desatualizados, culturas rígidas e grandes silos de dados muitas vezes os impedem. Uma malha de dados muda isso, dando às equipes financeiras mais controle sobre seus dados e permitindo-lhes trabalhar com mais eficiência.
Painéis de inteligência de negócios
Novas iniciativas de negócios muitas vezes exigem insights de dados personalizados para medir o seu sucesso.
A arquitetura de malha de dados aborda esse desafio fornecendo flexibilidade para criar visualizações de dados personalizadas. Isso permite que as equipes acessem e analisem rapidamente as informações específicas necessárias para impulsionar o desempenho do projeto.
Relatórios regulatórios
Os relatórios regulatórios exigem alto volume, velocidade e precisão para satisfazer requisitos regulamentares. A tecnologia de malha de dados beneficia tanto os reguladores quanto as empresas regulamentadas no cumprimento desses objetivos. Por exemplo, as empresas podem alimentar ativamente dados de relatórios numa malha de dados centralizada sob supervisão regulamentar.
Dados de terceiros
A tecnologia de malha de dados pode lidar com conjuntos de dados públicos e de terceiros. Você pode incorporar dados externos na malha como um domínio separado. Esta abordagem garante consistência entre dados externos e internos.
Alavancagem Astera para construir uma arquitetura de dados perfeita
O processo de maximizar os dados e aproveitá-los ao máximo requer dados de boa qualidade e que residam em um repositório bem mantido – um data warehouse. Com as ferramentas e a tecnologia certas, a transformação de dados brutos em insights acionáveis torna-se significativamente simplificada. Astera Construtor de data warehouse (ADWB) oferece uma solução poderosa para simplificar projetos complexos de data warehouse e acelerar o tempo de obtenção de valor.
Astera Construtor de Data Warehouse é a resposta para desafios complexos de armazenamento de dados. Com uma abordagem sem código e um design orientado por metadados, a construção e o gerenciamento de data warehouses tornam-se eficientes e rápidos. Com experiência ADWB:
- 90% mais rápido modelagem de dados
- 70% reduzido custo de propriedade
- 95% inferior custo de manutenção
Não deixe que a complexidade dos dados o atrapalhe. Escolher Astera para concluir projetos de data warehousing até dez vezes mais rápido!
etrailer.com Reduza o tempo de dados em 50% com Astera
Silos de dados atrapalham seu negócio? Veja como etrailer.com alcançou uma redução de 50% no tempo de obtenção de valor com Astera Construtor de data warehouse (ADWB). Crie, gerencie e otimize seu data warehouse com facilidade usando nossa abordagem sem código.
Leia o estudo de caso do etrailer.com
autores:
- Anum Fátima