blogs

Hjem / blogs / Data Vault 101: En omfattende guide til skalerbar datavarehusning

Indholdsfortegnelse
Den automatiserede, Ingen kode Datastak

Lær hvordan Astera Data Stack kan forenkle og strømline din virksomheds datahåndtering.

    Data Vault 101: En omfattende vejledning til skalerbar dataopbevaring

    August 2nd, 2024

    Efterhånden som virksomheder håndterer større og mere forskelligartede mængder data, er det blevet stadig sværere at håndtere disse data. Kun 5 % af virksomhederne føler, at de har datastyring under kontrol, mens 77 % af industrilederne betragte den voksende mængde data som en af ​​de største udfordringer. 

    Data vault er en ny teknologi, der muliggør gennemsigtige, agile og fleksible dataarkitekturer, hvilket gør datadrevne organisationer altid klar til skiftende forretningsbehov.  

    Hvad er en databoks?  

    En datahvælving er en datamodelleringsteknik, der gør dig i stand til at bygge datavarehuse til analyse i virksomhedsskala. Det giver dig mulighed for at tilpasse dig hurtigt skiftende forretningskrav med en agil og trinvis tilgang, så du undgår behovet for omfattende re-engineering. Det sikrer også historisk sporing og revision af data, da det gemmer alle data fra kildesystemerne uden opdateringer eller sletninger.

     

    Data Vault-arkitektur 

    En databoks følger en trelagsarkitektur, der indeholder rå-, forretnings- og informationsboksen. Dette design giver dig mulighed for at bygge agile og skalerbare datavarehuse, der er modstandsdygtige over for ændringer i kildesystemer og forretningskrav.  

    Raw Vault 

    Råhvælvingen er den mest granulære niveau, og den gemmer data så tæt på kildeformatet som muligt. Det holder også styr på alle revisionsoplysninger fra kilden. 

    Da råboksen kun er indsat, slettes eller opdateres ingen data nogensinde. Dette sikrer, at den rå boks bevarer den fulde historie og sporbarhed af dataene. Den rå hvælving består af hubs, links og satellitter. Disse tabeller fanger forretningsnøgler, relationer og attributter for dine data. 

    • Hubs repræsenterer kerneforretningskoncepter, såsom kunder, produkter eller køretøjer. De gemmer de forretningsnøgler, der unikt identificerer disse koncepter, sammen med nogle metadataoplysninger, såsom indlæsningsdato og sekvens-id. Brugere kan bruge forretningsnøglerne til at forespørge oplysninger om en hub. For eksempel en Kunden hub har Kunde ID som forretningsnøgle, og en Produkt hub vil have en ProduktID som forretningsnøgle. 
    • Links repræsenterer relationerne mellem hubs. Links gemmer kombinationerne af forretningsnøgler og viser, hvordan disse hubs er forbundet. For eksempel et link mellem Kunden og Produkt nav kan være en Købstransaktioner link tabel. Den vil indeholde data, der er relevante for begge disse hubs, som f.eks  Købsdato, Antal, Total pris.
      For at sikre, at hver transaktion kan identificeres entydigt, sammenkæder databoksen Kunde ID og ProduktID, og generer derefter en hash-nøgle baseret på den sammenkædede streng.
    • Satellitter butik og beskrivende oplysninger om hubs og links. De indeholder de attributter, der beskriver karakteristika eller tilstande af hubs og links over tid. For eksempel satellitten til Kunden hub kan opbevare kundens Fornavn, Efternavn, Adresse, TelefonnummerOsv
      Ligeledes er satellitten for Købstransaktioner linktabel kan gemme oplysninger som f.eks Betalingsmetode, Forsendelses status, LoadDate, RecordSource. I denne tabel, Betalingsmetode og Forsendelses status give yderligere oplysninger om hver transaktion. LoadDate og RecordSource er metadatafelter.
        

    Business Vault 

    Forretningshvælvingen er et andet lag afledt af råhvælvingen. Den anvender udvalgte forretningsregler, beregninger, datarensning og datakvalitetsfunktioner på dataene. Forretningshvælvingen kan også indeholde hubs, links og satellitter, men de er normalt skabt ud fra forretningsbehov og er normalt ikke en direkte kopi af dem i råboksen. Forretningsboksen er nyttig til at yde forespørgselsassistance og lette brugeradgang til dataene. 

    Her er nogle datatransformationer og datakvalitetsregler, der kan anvendes i Business Vault i vores eksempel:

    • Datatransformation – Beregning af kundelevetidsværdi: Du har muligvis en transformationsregel, der beregner livstidsværdien for hver kunde baseret på deres købshistorik. Dette kunne implementeres som en ny satellittabel i Business Vault, der forbinder hver Kunde ID med en beregnet LifetimeValue-attribut. Det Livstidsværdi kunne beregnes som summen af Total pris for alle transaktioner forbundet med hver enkelt Kunde ID.
    • Datatransformation – Produktkategori Salg: Du vil måske spore det samlede salg for hver produktkategori. Dette kunne implementeres som en ny hub og satellit i Business Vault, der forbinder hver Boligtype med en beregnet Samlet salg attribut.
    • Regler for datakvalitet: Du har muligvis forretningsregler, der håndhæver datakvalitetsstandarder. For eksempel kan du have en regel, der markerer alle transaktioner, hvor Total pris er mindre end nul, eller hvor Kunde ID or ProduktID findes ikke i de respektive Hub-tabeller. Disse regler kan implementeres som kontroller i dataindlæsningsprocessen eller som begrænsninger i databaseskemaet. 

    Information Vault 

    Informations-hvælvingen (også kendt som informationsmarts) er et præsentationslag, der er bygget af rå- og forretningshvælvingen for at understøtte rapportering og analyser. Det er sammensat af brugervenlige strukturer som stjerneskemaer der repræsentereror data marts. 

    Informationsboksen kan anvende yderligere transformationer og aggregeringer til dataene for at gøre dem klar til forbrug af slutbrugere eller business intelligence-værktøjer. 

    Databoks

    Data Vault-arkitektur

    Lær, hvordan du bruger informationsmarts til at levere tilpassede og relevante data til dine slutbrugere.

    Kombinationen af ​​raw vault, business vault og information marts giver mulighed for bedre dataintegritet, næsten-realtidsindlæsning og bedre tilpasning af nye forretningsbehov uden at påvirke eksisterende strukturer.  

    Fordele ved Data Vault  

    Fleksibilitet og tilpasningsevne 

    Datahvælving kan håndtere flere kildesystemer og hyppigt skiftende relationer ved at minimere vedligeholdelsesarbejdet. Det betyder, at en ændring i ét kildesystem, der skaber nye attributter, nemt kan implementeres ved at tilføje en anden satellit til datahvælvingsmodellen. 

    På samme måde kan nye og skiftende relationer håndteres ved at lukke et link og oprette et andet. Disse eksempler viser det høje niveau af fleksibilitet og tilpasningsevne, som datahvælving giver. 

    Skalerbarhed 

    Efterhånden som datavolumen vokser, eller flere kildesystemer tilføjes, skaleres datahvælving nemt. Du kan introducere nye hubs, links og satellitter for at inkorporere yderligere datakilder eller entiteter uden at forstyrre den eksisterende struktur. Datavarehuset giver dig mulighed for at rumme flere data og flere brugere uden at gå på kompromis med ydeevne eller kvalitet. 

    Bevarelse af historiske data 

    Brugen af ​​satellittabeller i databoks sikrer, at historiske data bevares. Dette er afgørende for at spore ændringer over tid, analysere tendenser og opfylde lovkrav. For eksempel i et klinisk datavarehus er det vigtigt at gemme historisk dataforståelse for, hvordan patientdiagnoser eller udbyderspecialiteter har udviklet sig over tid.

    Dataafstamning og revisionsevne 

    Datahvælving indlejrer dataafstamning og auditerbarhed i datahvælvingsmodellen. Med andre ord gemmer databoksen indlæsningsdatoen og datakilden for hver ny post og fortæller os det hvornår og hvor dataene kom fra. Derudover kan du analysere hash-nøgler og hash-forskelle for hurtigt at sammenligne rækkeværdier og identificere ændringer. Disse funktioner hjælper med at sikre datakvalitet, sporbarhed og ansvarlighed. 

    Sammenhæng 

    Datahvælving sikrer datakonsistens ved at fange data på en ensartet måde, selv når kildedataene eller leveringen af ​​dem er inkonsekvente. Det betyder, at datavarehuset kan levere pålidelig og præcis information til forretningsbeslutninger. Desuden muliggør datahvælving parallel indlæsning af data med brug af hashværdier, hvilket forbedrer dataadgangshastigheden og brugertilfredsheden. 

    Agility 

    Data Vault understøtter agil udvikling og udvikling af datavarehuskrav ved at følge en metodologi, der inkluderer flere principper for agile arbejdsprocesser. Det betyder, at data vault-projekter har korte, scope-kontrollerede udgivelsescyklusser, der gør det muligt for udviklingsteamet at arbejde tæt sammen med forretningsbehovene og skabe en bedre løsning. 

    Data Vault vs traditionelle datavarehusteknikker 

    Data vault er en modelleringsteknik til at bygge datavarehuse, men adskiller sig fra traditionelle teknikker såsom dimensionsmodel og 3NF. Det har nogle vigtige forskelle med hensyn til dataindlæsning, datamodellering og dataagilitet. 

    Dataindlæsning  

    Data Vault indlæser data anderledes sammenlignet med traditionelle data warehousing-teknikker. Typisk følger datavarehuse Extract-Transform-Load (ETL) arbejdsgang, hvor data transformeres og valideres, inden de indlæses på lageret. I denne teknik, du skal opdatere eller slette eksisterende poster på lageret baseret på ændringerne i kildesystemerne. 

    I modsætning hertil udnytter datahvælving workflowet Extract-Load-Transform (ELT), hvor dataene gemmes direkte i råboksen fra kildesystemet. Forretningsregler, transformationer eller valideringer anvendes senere i processen, typisk inde i forretningsboksen.  

    Denne tilgang giver dig mulighed for at tilføje nye poster til boksen uden at opdatere eller slette eksisterende poster. Du kan kun anvende forretningsregler, transformationer og valideringer, når du skal bruge dataene til rapportering eller analyse. 

    Datamodellering 

    Et traditionelt datavarehus bruger typisk en dimensionel modellering eller en normaliseret modellering (3NF) til at organisere dataene i fakta og dimensioner eller enheder og relationer, respektfuldt 

    Data vault bruger en hybrid modelleringsteknik, der kombinerer bedste praksis for både dimensionel og normaliseret modellering. Det udnytter et hub-and-spoke-skema til at repræsentere dataene på en historisk og fleksibel måde. Hvorvidt datahvælving er ideel datamodellering for du afhænger af dine krav. 

    Dataagilitet 

    Et datavarehus har typisk en stiv og stabil struktur, der er designet til at opfylde de nuværende og forventede forretningskrav. Strukturen af ​​lageret kan ændre sig over tid på grund af ændringer i forretningskrav, kildesystemer eller datakvalitetsstandarder. Sådanne ændringer kan dog kræve betydelig indsats og ressourcer til at ændre de eksisterende ETL-processer, lagerskemaer og rapporter. 

    Data Vault tilpasser sig hurtigt skiftende forretningskrav ved at adskille en datamodels stabile og tidsmæssige dele. Det betyder, at kerneforretningskoncepterne og deres relationer er gemt i hubs og links, som sjældent ændres. Derimod er de beskrivende attributter og deres ændringer over tid gemt i satellitter, som nemt kan tilføjes eller ændres. 

    På denne måde undgår datavault behovet for omfattende re-engineering af datavarehuset, når nye kilder eller attributter introduceres eller eksisterende ændres. 

    Kapacitet til at håndtere store mængder data 

    Data Vault understøtter parallel indlæsning af data fra forskellige kilder, hvilket øger hastigheden og effektiviteten af ​​dataintegration. Data vault er baseret på agile metoder og teknikker, så du kan levere værdi kontinuerligt og iterativt, og samarbejder aktivt med erhvervsbrugere.

    Best Practices for Data Vault  

    Data vault kan håndtere komplekse og dynamiske datamiljøer. Men for at sikre en vellykket implementering af datahvælving er det vigtigt at følge bedste praksis og undgå almindelige faldgruber. Her er nogle tips og anbefalinger fra eksperter på området: 

    • Plan og definere forretningsmodel og krav klart, før du designer databoksen. Dette hjælper identificere nøgle forretningskoncepter, relationer og attributter, der vil danne grundlag for hubs, links og satellitter.
    • Brug automatiseringsværktøjer til at fremskynde og forenkle udviklingen og vedligeholdelsen af ​​databoksen. Automatiseringsværktøjer kan hjælpe med at generere kode, datamodeller, dokumentation og test baseret på foruddefinerede mønstre og metadata. 
    • Følg datahvælving 2.0 standarder og bedste praksis for at sikre konsistens, kvalitet og skalerbarhed af databoksen. Data vault 2.0 er en opdateret version af den originale metode, der inkorporerer nye funktioner såsom hash-nøgler, parallel indlæsning, revisionskolonner og business vault.  
    • Undgå at overbelaste databoksen med unødvendige eller overflødige data. Data vault er designet til at gemme rådata fra kildesystemer uden at anvende nogen transformationer eller forretningsregler. Dette betyder dog ikke, at man skal indlæse alt i databoksen uden at filtrere eller validere dataene. Brugere bør kun indlæse de relevante, nøjagtige og nyttige data til deres forretningsbehov. 
    • Overvåg og test databokse regelmæssigt for at sikre deres ydeevne, pålidelighed og nøjagtighed. Data vault er en dynamisk og udviklende datastruktur, der kan rumme ændringer i datakilder og forretningskrav. Det betyder dog også, at brugerne skal holde styr på ændringerne og deres effekts på databoksen.  

    Byg et datavarehus med Astera  

    Data Vault tilbyder mange fordele, såsom skalerbarhed, auditerbarhed, parallelitet og tilpasningsevne, hvilket gør det til et godt valg til moderne data warehousing behov. Astera DW Builder er et kodefrit og automatiseret datavarehusdesign og ETL/ELT værktøj, der giver brugerne mulighed for at bygge databokse på få minutter.

     At lære mere om Astera DW Builder og dets datahvælvingsfunktioner, besøge hjemmesiden or anmode om en demo i dag. 

    Forfattere:

    Du kan måske også lide
    Data Vault 101: En omfattende vejledning til skalerbar dataopbevaring
    Data Vault 2.0: Hvad du behøver at vide
    Data Vault vs. Data Mesh: Valg af den rigtige dataarkitektur 
    Overvejer Astera Til dine datastyringsbehov?

    Etabler kodefri forbindelse med dine virksomhedsapplikationer, databaser og cloudapplikationer for at integrere alle dine data.

    Lad os oprette forbindelse nu!
    lader-forbindelse