Blogs

Accueil / Blogs / Séance de questions-réponses en direct avec James Serra sur l'automatisation de la conception d'entrepôts de données

Table des matières
L'automatisé, Pas de code Pile de données

Apprener comment Astera Data Stack peut simplifier et rationaliser la gestion des données de votre entreprise.

Séance de questions-réponses en direct avec James Serra sur l'automatisation de la conception d'entrepôts de données

Ammar Ali

Reseaux Sociaux

20 février 2023

Nous avons lancé notre plateforme d'automatisation d'entrepôt de données (DWA) de nouvelle génération, Astera Constructeur DW qui accélère et simplifie le développement de l'entrepôt de données. Il s'agit d'une solution unifiée basée sur les métadonnées qui permet aux organisations de concevoir, développer et déployer des entrepôts de données de niveau entreprise en quelques jours.

Nous avons récemment organisé un en direct où nous avons eu l'occasion de nous connecter avec James Serra. James est un leader d'opinion renommé dans l'utilisation et l'application du Big Data et de l'analyse avancée. Il travaille actuellement pour EY en tant que responsable de l'architecture de la plate-forme de données et a précédemment travaillé chez Microsoft pendant sept ans en tant qu'architecte de solutions spécialisé dans les mégadonnées et l'entreposage de données.

Lors de notre dernière discussion, nous avons parlé à James pour obtenir des informations d'initiés sur développement d'entrepôt de données moderne. Dans cette session de questions-réponses en direct, nous nous sommes penchés sur le concept d'automatisation de la conception d'entrepôts de données.

Que pensez-vous du concept de modèle de données d'entreprise ? Pensez-vous qu'il est temps de passer de cette idée de préparer tous vos besoins en amont et de passer à un cycle de développement ? Sinon, comment passeriez-vous de cette approche à un style d'entreposage de données plus itératif ?

Je pense que la plupart des clients sont passés de ce type d'approche en cascade où ils passent beaucoup de temps à recueillir des exigences. Ils sont passés à un type de développement agile en cascade, et cela est en grande partie lié aux outils qui sont sortis récemment. Si vous regardez quelque chose comme les outils de business intelligence, j'ai découvert que les clients utilisent maintenant cet outil pour définir les besoins de l'entreprise au lieu que quelqu'un de l'informatique s'adresse à un client en disant : « D'accord, quelle est votre exigence ? Abattons-le, construisons quelque chose », revenez et découvrez que c'est faux, et que ce cycle continue. Ils disent maintenant : « Hé, va utiliser le prototype, et nous l'utiliserons comme exigences commerciales. »

Les outils de reporting ETL modernes vous permettent de prototyper et de créer facilement ces exigences. Et sinon, c'est généralement « Hé, nous avons besoin d'une victoire rapide. Allons-y et commençons à construire quelque chose et montrons la valeur de ce que nous avons construit et excitons les gens et les utilisateurs finaux. Beaucoup de temps, cela [aide] à débloquer les budgets, puis vous faites également appel à ces utilisateurs finaux dès le début, vous avez donc l'impression qu'ils font partie de ce que vous construisez là-bas, et ensuite ils peuvent obtenir quelque chose de valeur, donc vous choisissez quelque chose que vous pouvez faire à court terme et qui a beaucoup de valeur, puis vous en sortez.

Maintenant, je dis toujours que vous voulez garder votre objectif final à l'esprit. C'est un peu comme construire une ville que vous allez diviser en villes. Vous pouvez proposer un plan pour cette ville avec toutes les villes qui s'y trouvent. Ensuite, vous allez construire une ville et en construire une au-dessus de l'autre. Vous n'allez pas tout construire et l'ouvrir là-dedans.

Donc, vous [devez] avoir cette vision à long terme de l'endroit où vous voulez aller, mais vous obtenez ces gains rapides dès le début.         

Que pensez-vous des coffres de données ? Pensez-vous que cela va bientôt dépasser la modélisation dimensionnelle comme technique privilégiée, ou est-ce que tout a sa place ? 

Je dirai qu'il n'y a aucun moyen que le coffre-fort de données prenne jamais en charge la modélisation dimensionnelle. Il existe depuis plus de 20 ans et il a un excellent cas d'utilisation. Je trouve des clients qui ont besoin de faire beaucoup de suivi et d'audit historique à l'aide du coffre-fort de données, mais il n'y a pas beaucoup de ces cas d'utilisation qui nécessitent quelque chose d'aussi sophistiqué que le coffre-fort de données là-dedans.

Donc, je pense qu'il a sa place. Mais je vois 99% des clients utiliser une sorte de schéma en étoile avec une troisième forme normale, et cela dépend en grande partie de [si] vous obtenez les performances dont vous avez besoin dans une troisième forme normale. Si je me joins à une douzaine de tables, je pourrai peut-être obtenir cette performance et je passerai à un schéma en étoile. C'est une couche supplémentaire de détails, mais vous obtenez beaucoup d'avantages en ayant cette couche supplémentaire là-dedans.

En outre, cela aide lorsque vous examinez la BI en libre-service. Si je n'ai pas de schéma en étoile, alors je dois connaître la relation entre toutes ces tables, ce qui peut être très difficile pour un utilisateur final. Habituellement, vous avez une personne dans l'entreprise qui sait comment tout rejoindre, et vous comptez sur cette personne.

Au lieu de cela, vous créez ce schéma en étoile, puis il s'agit d'une BI égoïste. Je pouvais simplement accéder à un outil de création de rapports et faire simplement glisser des champs sur le formulaire et le créer sans avoir à comprendre le fonctionnement des relations à cause du schéma en étoile. Donc, cela vous donne cela, il y a donc une excellente raison pour le schéma en étoile, et je dirais que probablement 75 pour cent des entreprises que je vois utiliseront un schéma en étoile au-dessus d'une troisième forme normale.

En parlant un peu de cette perspective de modélisation dimensionnelle de la modélisation des données, quel est selon vous le rôle que les métadonnées doivent jouer ? Pensez-vous qu'un cadre basé sur les métadonnées peut être bénéfique pour la conception d'entrepôts de données ? Et si oui, comment ?   

J'ai vu beaucoup d'efforts ces derniers temps dans la création de catalogues de données pour les clients. L'idée sous-jacente est qu'ils collectent tellement de données et que vous voulez éviter la duplication de données.

Nous le faisons chez EY à grande échelle car ils apportent toutes ces données tierces. Cela pourrait représenter littéralement des dizaines de millions de dollars pour un tiers, et vous ne voulez pas que quelqu'un aille chercher une licence parce qu'il n'a pas réalisé que les données étaient déjà là.

Alors, créons un catalogue de métadonnées et créons un outil de découverte de données sur un marché où n'importe quel utilisateur final peut aller : « Hé, je dois créer quelque chose en utilisant ce type particulier de données. Je me demande si nous l'avons. Allons au catalogue et voyons si c'est là. Nous [maintenant] pouvons accéder instantanément à ces données et éviter les doublons.

En outre, une grande chose ces derniers temps avec les clients est la lignée. « J'ai eu cette valeur n ce calcul. Comment en sommes-nous arrivés là ? D'où ça vient là-dedans ? Je veux m'assurer que c'est juste. Alors, ils reviennent et regardent. Le lignage des métadonnées est important lorsque vous voulez vous assurer que vous créez un schéma et que ce schéma est également une métadonnée.

Donc, c'est une autre chose que je pense que vous commencerez à voir sur une poussée de personnes cataloguant non seulement les données mais les ensembles de données. Je pense que vous verrez qu'il est davantage intégré aux catalogues de données : « Hé, c'est juste [que] ça peut être assez cool pour que je puisse voir que nous avons des données client et des données produit, mais peut-être que quelqu'un a déjà construit cet ensemble de données. Peut-être que quelqu'un a déjà créé un rapport et un tableau de bord à ce sujet, et je peux l'utiliser rapidement au lieu de réinventer la roue.

Ainsi, les métadonnées sont si importantes maintenant et sans elles lorsque nous avons cette prolifération de données et - dans certains cas - nous avons des données dans un lac de données qui n'a pas ses propres métadonnées, [alors] nous devons créer que [métadonnées]. Donc, vous avez besoin d'un tel produit, d'une solution qui va correspondre à tout cela, de sorte qu'il soit beaucoup plus facile pour les gens de découvrir les données.

Approche centrée sur le modèle de données

Nous vivons évidemment à l'ère du big data. Comment pensez-vous que l'explosion de la variété des volumes et de la vitesse a eu un impact sur l'arc des données ?

Oui. C'est plus difficile parce que maintenant vous devez penser à la taille des données. Et [par exemple,] je dois créer un modèle, il peut ne pas fonctionner si je ne le fais pas correctement. Donc, cela ajoute tellement plus d'importance pour s'assurer que la conception est correcte. Et aussi, la gouvernance des données en fait partie intégrante.

[Supposons] que les données entrent dans un modèle. Comment puis-je m'assurer qu'il est nettoyé et que je joins les données correctement ? La principale raison que je vois pour l'échec des projets d'entrepôt de données volumineux est le manque de temps dans la gouvernance des données.

Ils sortent un ensemble de données, et vous dites simplement « Super, je vais utiliser cet ensemble de données », puis vous dites : « Attendez une minute ! Ces données sont fausses. Si c'est votre première impression, vous avez tout de suite perdu confiance en vous. Ils ne vont pas faire confiance à tout ce que vous proposez, vous devez donc passer beaucoup de temps avant de valider ces données, en vous assurant que l'ensemble de données est correct.

Faites venir les utilisateurs dès le début, dites-leur que vous testez ces éléments et assurez-vous qu'ils sont valides. C'est une façon de le faire. Mais il est extrêmement important de gagner leur confiance lorsque vous développez ces solutions, alors assurez-vous de disposer de suffisamment de temps pour la gouvernance des données.

Que pensez-vous de l'affirmation selon laquelle un modèle de schéma d'entrepôt de données vérifié et robuste équivaut à une architecture globale d'entrepôt de données de haute qualité ?

Je serais d'accord avec ça. Encore une fois, si la gouvernance des données est en place, alors cela va au-delà de la technologie, et j'ai eu beaucoup de discussions avec les clients [au sujet de comment] vous [pouvez] avoir la meilleure technologie au monde, mais vous avez vraiment besoin d'avoir les gens et le processus en place.

Nous avons besoin de cette gouvernance des données, peut-être d'un centre d'excellence, de réunions pour décider à qui appartiennent les données et d'un processus de vérification pour le nettoyage des données. Si nous nettoyons les données et les entrepôts de données, nous les ramenons également au système source - toutes ces choses doivent y être discutées.

Il est donc si important d'avoir les bonnes personnes et les bonnes compétences, ce qui est très difficile, surtout maintenant que nous avons vu récemment une pénurie de talents là-bas et trouver des personnes avec ces compétences est un défi, mais il y a suffisamment d'exemples. c'est là que vous pouvez aller voir comment les gens créent leur entreprise et leurs groupes et les personnes impliquées dans le processus pour ce type de solutions que nous construisons et essayer de suivre ces meilleures pratiques.

Compte tenu de la technologie MPP et du stockage en colonnes, voyez-vous une tendance à utiliser le modèle OBT à grande table pour le reporting et l'analyse en plus d'un modèle dimensionnel ?

Eh bien, un député, pour ceux qui ne le savent peut-être pas, c'est un traitement parallèle multiple. Donc, l'idée est que je peux faire des requêtes qui pourraient prendre des heures à s'exécuter en tant que SMP [Symmetric Multi-Processing] ou une solution typique et les mettre sur le système MPP, et ça va s'exécuter de 20 à 100 fois plus vite Ici. Il pourrait le faire avec des tables de troisième forme normale. Il peut le faire encore mieux avec un schéma en étoile, mais j'ai vu des résultats énormes pour beaucoup de données, même avec de nombreuses jointures différentes.

Donc, la bonne chose à propos de la technologie MPP est que vous n'avez pas besoin d'aller à l'extrême pour dénormaliser ces données. Ma conclusion est que vous voulez presque toujours aller au schéma en étoile pour de nombreuses raisons, et l'idée que vous avez besoin de cette grande table, vous n'en avez pas - avec la technologie MPP - dans la plupart des cas.

Certains produits tiers vous obligeaient à le faire - ou sous la couverture, nous le faisons - en raison de problèmes de performances. Mais parce que la technologie a tellement évolué, il est rare que je trouve un client qui se donne autant de temps pour créer une grande table. Au lieu de cela, ils utilisent le schéma en étoile.

Quel rôle l'automatisation doit-elle vraiment jouer ? Et quels types d'avantages pensez-vous que les entreprises peuvent tirer de l'utilisation d'une solution spécialement conçue pour piloter la vérification de la modélisation des données et d'autres processus ?

Je suis tout au sujet des raccourcis. Alors, quand j'ai parlé aux clients, c'était : « Eh bien, attendez une minute ici ! De quoi vous parlez… Je pense que vous pourriez probablement utiliser des outils d'automatisation et des produits tiers ici. Oui, il y a une dépense supplémentaire, mais le gain de temps et la précision que vous pouvez en tirer pourraient en valoir la peine, alors oui, je suis tout à fait pour ces outils tiers.

Bien sûr, il y a des compromis. Vous devez acquérir les compétences, donc si vous ne les connaissez pas, vous devez les apprendre. Et, est-ce un outil d'automatisation qui nécessite cet outil d'automatisation tout le temps ou s'agit-il simplement de créer le code que vous pouvez récupérer et utiliser ? Parce que si vous devez toujours utiliser cet outil, cela pourrait poser des problèmes.

En tant que produit, il s'appuie sur des mises à jour de ses fonctionnalités, [le logiciel d'automatisation de l'entrepôt de données [doit] également le mettre à jour, ou peut-être que vous ne pouvez pas utiliser toutes les fonctionnalités. Il faut donc y regarder de très près. Mais il existe maintenant tellement de bons outils qui raccourcissent ce processus qui fournit l'automatisation.

Surtout dans la plupart des cas, ce que les clients construisent n'est pas si différent de ce que des milliers d'autres clients ont construit. Alors oui, il y a un outil d'automatisation pour ça. Il est très rare que vous construisiez quelque chose d'aussi unique ou à une telle échelle qu'un outil tiers ne vous aiderait pas.

Encore plus, si vous êtes dans un secteur populaire comme la santé, la finance, la banque ou la vente au détail, ils ont tous des scénarios très reproductibles pour lesquels vous pouvez utiliser un outil d'automatisation.

Y a-t-il des mots d'adieu que vous voulez nous laisser?

Je dis toujours, si vous n'avez jamais emprunté cette voie auparavant et que vous construisez une vraie solution, faites appel à des experts, trouvez des personnes. Encore une fois, le talent est difficile à trouver maintenant, mais trouvez une société de conseil ou une société tierce qui a déjà emprunté cette voie, au début du processus.

Parce que c'est ce que je fais, dans mon rôle chez EY en tant que responsable de l'architecture [je sais] que vous devez prendre des décisions très importantes dès le début et si vous prenez ces mauvaises décisions plus tard, cela peut finir par vous coûter très cher. temps et argent.

Alors, trouvez des personnes qui peuvent vous aider à prendre les bonnes décisions dès le début parce que tous les projets que j'ai vus ont échoué - cela pourrait être [à cause] d'une pièce, de personnes ou d'un processus - il est rare que la technologie soit mauvaise. C'est que vous avez choisi la mauvaise technologie. Vous vouliez une base de données relationnelle, et vous essayez de la faire fonctionner là où une solution NoSQL, par exemple, serait bien meilleure.

Alors, obtenez beaucoup d'aide dès le début de la prise de ces grandes décisions clés et comprenez ce qui vous attend, sur la route et les feuilles de route de nombreux produits. Si vous utilisez un produit spécifique, assurez-vous de savoir ce qui est en développement pour les trois à six prochains mois.

Ces projets prennent beaucoup de temps à construire, et vous ne voulez pas être dans quelques mois, et d'autres entreprises disent également : « Nous avons ce nouveau produit et une nouvelle fonctionnalité », et vous dites : « Oh, devrait nous savons à ce sujet ? » et je dis cela parce qu'une grande partie de mon rôle dans mon travail consistait à m'assurer que les gens étaient informés de ce qui allait se passer.

Parce que les projets d'entrepôt de données sont de longs chemins, et cela fait six mois ou un an que vous les construisez. Cela ne se termine jamais, vraiment, mais beaucoup de ces grandes décisions vont être prises tôt, et vous devez connaître cette feuille de route, ce seraient donc mes derniers mots.

Automatiser la conception de l'entrepôt de données à l'aide Astera Constructeur DW

Astera DW Builder est une solution d'entreposage de données automatisée de bout en bout qui permet aux entreprises de passer de la source aux informations à une vitesse fulgurante. La plate-forme agile basée sur les métadonnées permet aux entreprises d'intégrer des données dispersées dans un système de BI agile et de créer une passerelle centralisée pour effectuer des analyses à l'échelle de l'entreprise.

Construisez un entrepôt de données à partir de zéro avec ADWB

Astera DW Builder propose un environnement de développement intégré sans code pour créer votre entrepôt de données à un niveau logique. La solution fournit un environnement de développement intégré qui automatise toutes les tâches de modélisation de données standard jusqu'au déploiement de votre entrepôt de données. Pour un premier essai de Astera Constructeur DW, cliquez ici .

Tu pourrais aussi aimer
Gouvernance de l’information et gouvernance des données : une analyse comparative
Cadre de qualité des données : qu'est-ce que c'est et comment le mettre en œuvre
Tout ce que vous devez savoir sur l'exhaustivité des données 
Considérant Astera Pour vos besoins en gestion de données ?

Établissez une connectivité sans code avec vos applications d'entreprise, vos bases de données et vos applications cloud pour intégrer toutes vos données.

Connectons-nous maintenant !
connectons-nous