Opbygning af et datavarehus blev længe betragtet som en kompleks procedure, der kræver betydelig ekspertise inden for forskellige, men relaterede områder inden for datastyring. Fra database management at bygge datamodeller til implementering ETL processer, ville opbygningen af et datavarehus nemt tage måneder. Imidlertid har fremskridt inden for teknologi ført til tilgængeligheden af flere og flere værktøjer og platforme, der giver tilgængelige og strømlinede løsninger til brugere af enhver art.
I denne artikel skal vi lære alt om at bygge et datavarehus. Specifikt forudsætningerne for at opbygge et datavarehus, herunder en trin-for-trin guide og bedste praksis.
Forudsætninger for at opbygge et datavarehus
Forudsætningerne for at bygge et datavarehus kan variere meget, afhængigt af dine forretningskrav. Typisk skal du dog overveje følgende kriterier, før du begynder at bygge dit datavarehus:
Planlægning af Data Warehouse Blueprint
Dette er den grundlæggende fase, hvor du lægger grunden til dit datalager. Planen sætter retningen for projektet og er afgørende for at sikre, at det endelige produkt er nøje afstemt med din virksomheds behov og mål. Derudover bør din strategiske plan også guide omfanget og designet af dit datavarehus.
Reducer udviklingstiden for datavarehus med op til 80 %
Traditionel datavarehusudvikling kræver betydelige investeringer i form af tid og ressourcer. Dog med Astera DW Builder, du kan reducere hele datavarehusets design- og udviklingslivscyklus med op til 80 %. Lær mere i denne hvidbog.
Download hvidbog Start med at udvikle klare forretningsmål. Det er vigtigt at involvere virksomhedsledere, slutbrugere, it-medarbejdere og andre interessenter tidligt, da det er her, du skal besvare spørgsmål som: hvorfor skal du bygge et datavarehus? Vil det dække hele organisationen eller fokusere på specifikke afdelinger eller forretningsfunktioner? Hvilke forretningsprocesser vil det understøtte? Hvordan vil det tilføre værdi? At sikre interessenternes buy-in og definere disse mål vil påvirke alle efterfølgende beslutninger - deres støtte vil sikre, at projektet får den nødvendige opmærksomhed og de nødvendige ressourcer.
A data warehousing strategi beskriver, hvordan din organisation indsamler, opbevarer, administrerer og bruger dataene. Så som en del af denne fase skal du også etablere datastyringspolitikker, der er specifikke for din virksomhed. Disse politikker definerer, hvem der er ansvarlig for forskellige datarelaterede beslutninger og processer, hvordan datakvalitet er sikret, og hvordan man håndterer bekymringer om datasikkerhed og privatliv.
Sammensætning af et dygtigt team
Opbygning af et datavarehus er en kompleks opgave, der kræver et mangfoldigt team af fagfolk. Dette trin sikrer, at dit projekt er veludstyret med det nødvendige talent til at bygge, implementere og vedligeholde et datavarehus, der tjener dine analytiske behov.
Selvom holdets succes i høj grad afhænger af dets medlemmer, bør det tilsammen besidde en blanding af tekniske færdigheder. Du vil typisk have brug for folk med ekspertise i SQL, ETL processer og datamodellering, samt en person med projektledelsesevner og en stærk forståelse af forretningsdomænet. Kort sagt bør dit team ideelt set bestå af:
- dataarkitekter til at designe systemet
- dataingeniører til at bygge og vedligeholde det
- forretningsanalytikere for at sikre, at den opfylder brugernes behov
- databaseadministratorer til at administrere datalagring
- projektledere for at holde alt på rette spor
Sikring af væsentlige ressourcer
Udover et team af professionelle, skal du også lægge budget for den indledende opsætning og implementering og løbende drift og vedligeholdelse af dit datavarehus. Dette inkluderer infrastrukturen til at hoste dit datavarehus, de rigtige værktøjer til at administrere og behandle dine dataog sikkerhedsforanstaltninger for at beskytte det.
Den indledende opsætning og implementering er typisk de mest ressourcekrævende faser, der kræver investeringer i:
- hardware eller cloud-tjenester
- softwarelicenser
- og professionelle tjenester til design og udvikling
Det er også vigtigt, at du overvejer omkostningerne forbundet med dataintegration og det potentielle behov for tilpasset udvikling for at sikre, at du kan redegøre for alle dine datakilder. Alternativt kan du vælge en kodefrit dataintegrationsværktøj der kommer med indbyggede stik til forskellige kilder og destinationer.
Etablering af en teknisk ramme
Næste i rækken er en omfattende vurderingsplan, der sikrer teknisk og databeredskab. Målet er at vurdere ydeevnen og skalerbarheden af nuværende systemer og fremhæve deres styrker og svagheder, sammen med at identificere muligheder for forbedringer. Udfør en dybdegående analyse af den aktuelle datainfrastruktur ved at evaluere den eksisterende hardware, netværkskonfigurationer og eventuelle cloud-tjenester.
Øvelsen involverer katalogisering af alle de datakilder, der er tilgængelige for din organisation, for eksempel interne systemer som CRM og ERP, eksterne data fra partnere og streamingdatakilder såsom IoT-enheder. Identifikation af datakilder gør dig i stand til at kortlægge datalandskabet og forstå karakteren og forretningsrelevansen af hver datakilde.
Anskaffelse af de nødvendige tekniske komponenter er også et nøgletrin i denne indledende fase af opbygningen af et datavarehus. Det omfatter valg af værktøjer og platforme, der hjælper med at implementere din organisations datastrategi. Til ETL værktøjer, overveje faktorer såsom datakilderne, datatransformation behov, integration med andre systemer mv.
Tilsvarende skal du bestemme de bedst egnede datalagringsmuligheder under hensyntagen til den nødvendige kapacitet og adgangshastighed. Identificer, om der er behov for en blanding af lokale, cloud-baserede eller hybride lagringsløsninger. Udstyr dit datateam med sofistikerede datamodelleringsværktøjer, der muliggør konstruktionen af en solid data warehouse arkitektur.
Byg et tilpasset datavarehus inden for dage – ikke måneder
Opbygning af et datavarehus kræver ikke længere kodning. Med Astera Data Warehouse Builder du kan designe et datavarehus og implementere det til skyen uden at skrive en enkelt linje kode.
Få mere at vide Opbygning af et datavarehus: Automatisering af eksekveringsfasen
Når du har forudsætningerne i orden, er næste skridt at implementere planen og bygge dit datavarehus.
Automatiseret værktøjer til opbygning af datavarehuse, Såsom Astera Data Warehouse Builder, skære ned adskillige standard og gentagne opgaver involveret i data warehousing livscyklus til blot nogle få enkle trin.
Astera Data Warehouse Builder er en end-to-end platform, der forenkler og accelererer processen med at bygge et data warehouse. Dens træk-og-slip-grænseflade giver dig mulighed for at designe dine datamodeller og ETL-processer uden at skrive en enkelt linje kode. De indbyggede stik giver mulighed for nem integration med en række kilder og destinationssystemer, uanset om det er på stedet eller i skyen. Astera's indlejrede datakvalitetsfunktioner sikrer, at kun sunde data kommer ind i dit datavarehus for nøjagtig BI, analyser og rapportering.
Lad os tage en use case for at illustrere processen med at bygge et datavarehus ved hjælp af Astera's no-code data warehouse builder.
Brugssagen:
Shop-Stop er en fiktiv online detailbutik, der vedligeholder sine salgsdata i en SQL-database. Virksomheden har for nylig besluttet at implementere et datavarehus for at få en solid rapporteringsarkitektur og forbedre BI og analyser. Deres it-team og tekniske eksperter hævder dog, at den kapital og de ressourcer, der er nødvendige for at udføre og vedligeholde hele processen, kan reduceres betydeligt ved hjælp af en automatiseret data warehousing værktøj.
Shop-Stop beslutter sig for at bruge Astera Data Warehouse Builder til at designe, bygge, implementere og vedligeholde deres datavarehus. Lad os tage et kig på, hvordan processen med at bygge et datavarehus ved hjælp af Astera ligner.
Opbygning af et datavarehus Trin 1: Oprettelse af en kildedatamodel
Det første trin i opbygningen af et datavarehus er at identificere og modellere kildedataene. Når du har tilføjet en ny datamodel til projektet, kan du reverse engineering af din database, i dette tilfælde Shop-Stops salgsdatabase, for at oprette en kildedatamodel ved hjælp af Reverse Engineer ikonet på datamodelværktøjslinjen med blot et enkelt klik. Hvis du gør det, oprettes datamodellen automatisk. Hver enhed i denne datamodel repræsenterer en tabel, der indeholder Shop-Stops kildedata. Sådan ser det ud:

Når du har datamodellen, kan du verificere den for at sikre, at den er fri for fejl og advarsler. For at gøre det skal du blot klikke på Bekræft til læse- og skrive-implementering mulighed i hovedværktøjslinjen. Her er et skærmbillede:

Når du har verificeret modellen, kan du implementere den på serveren og gøre den tilgængelig til brug i ETL rørledninger (såvel som ELT) eller til dataanalyse. Sådan gør du det. Nu hvor du har oprettet, verificeret og implementeret en kildedatamodel, lad os gå videre til næste trin.
Opbygning af et datavarehus Trin 2: Byg og implementer en dimensionsmodel
Næste trin i processen er at designe en dimensionel model der vil fungere som destinationsskema for Stop-Stops datavarehus. Du kan bruge Enhed objekt tilgængeligt i datamodelværktøjskassen og datamodellerens træk-og-slip-grænseflade til at designe en model fra bunden.
Da Shop-Stop allerede har et datavarehus-skema i en SQL-database, bliver du nødt til at reverse engineering af databasen. Igen repræsenterer hver enhed i den resulterende datavarehusmodel en tabel i Shop-Stops endelige datavarehus.

Dernæst skal du konvertere denne model til en dimensionel model ved at tildele fakta og dimensioner. Typen for hver enhed er angivet som Generelt som standard, når en database er reverse engineering. Du kan nemt ændre typen til Faktum or Dimension ved at højreklikke på entiteten og holde musen over Enhedstype i kontekstmenuen og vælge en passende type fra de givne muligheder.

Salg-enheden i midten er fakta-enheden, mens resten er dimensionsenheder.
Når du har dine fakta og dimensioner på plads, skal du konfigurere dem til forbedret datalagring og -hentning ved at tildele specificerede roller til felterne i layoutet af hver enhed.
For dimensionsenheder er Dimensionsrolle kolonne i Layoutbygger giver en omfattende liste over muligheder. Disse omfatter:
- Surrogatnøgle
- Forretningsnøgle
- Langsomt skiftende dimensionstyper (SCD1, SCD2, SCD3 og SCD6)
- Registreringsidentifikatorer til at holde styr på historiske data (ikrafttrædelses- og udløbsdatoer, aktuel registreringsbetegnelse og versionsnummer)
- Pladsholderdimension for at holde styr på sent og tidligt ankomne fakta og dimensioner

Tilsvarende er den faktiske enheds Layoutbygger indeholder en Fakta Rolle kolonne, der giver dig mulighed for at tildele Nøgle for transaktionsdato rolle til et af felterne. Her er hvordan layoutet af Udsalg enhed vil se ud, når du har tildelt Nøgle for transaktionsdato rolle til et felt:

Med din dimensionelle model klar, kan du verificere og implementere den til yderligere brug.
Opbygning af et datavarehus Trin 3: Udfyld datavarehuset
Det er nu tid til at udfylde Shop-Stops datavarehus ved at indlæse relevante kildedata i tabellerne ved hjælp af ETL-pipelines. Astera giver dig mulighed for at bygge ETL og ELT pipelines ved hjælp af sin dataflowdesigner.
For at gøre det skal du tilføje et nyt dataflow til data warehousing-projektet. Brug det omfattende sæt af objekter, der er tilgængelige i dataflow-værktøjskassen til at designe ETL-processen. Brug Fakta Loader og Dimension Loader objekter til at indlæse data i henholdsvis fakta- og dimensionstabeller.
Her er, hvad dataflowet skal indlæse data i Kunden tabellen ser sådan ud:

Til venstre er Databasetabelkilde objekt, der henter data fra en tabel i kildetabellen. Til højre Dimension Loader objekt indlæser data i den relevante tabel i destinationsdimensionsmodellen.
For at forbinde hvert af disse objekter til deres respektive modeller skal du konfigurere kildeobjektet med kildedatamodellens implementering:

På samme måde skal du konfigurere Dimensional Loader-objektet med destinationsdimensionsmodellens implementering, som vist på billedet nedenfor:

Bemærk, at du bliver nødt til at designe dataflowet for at indlæse data i faktatabellen anderledes. Dette skyldes, at det indeholder felter fra flere kildetabeller, men Databasetabelkilde objekt kan kun udtrække data fra én kildetabel ad gangen.
I stedet kan du bruge Kilde til datamodelforespørgsel objekt, som giver dig mulighed for at udtrække flere tabeller fra kildemodellen ved at vælge en rodentitet. Dette er vist på skærmbilledet nedenfor:

Nu hvor du har designet alle dine dataflows, kan du udføre hver af dem for at udfylde Shop-Stops datavarehus med deres salgsdata. For at undgå at udføre alle dataflows individuelt skal du designe en arbejdsgang til at orkestrere hele processen.

Til sidst automatiser processen med at opdatere disse data gennem den indbyggede Job Scheduler. Gå til for at få adgang til jobplanlæggeren Server > Jobplaner i hovedmenuen.

I Scheduler fanen, kan du oprette en ny tidsplan for at automatisere udførelsesprocessen ved en given frekvens.

Opbygning af et datavarehus Trin 4: Visualiser og analyser
Når du har designet og implementeret dit datavarehus, kan du integrere det med brancheførende visualiserings- og analyseværktøjer såsom Power BI, Tableau, Domo osv. gennem en indbygget OData-tjeneste.

Bedste praksis for opbygning af et datavarehus
At bygge et datavarehus er én ting, at gøre det på en måde, der er effektiv og leverer effektive resultater, er en helt anden udfordring – en, der udnytter bedste praksis.

Start med en datavarehusstrategi
Start altid med en klar strategi, der skitserer forretningsmålene, omfanget af dine data, den arkitektoniske tilgang, og hvordan dit datavarehus vil udvikle sig over tid. Din datavarehusstrategi bør stemme overens med den overordnede forretningsstrategi og adressere specifikke analyse- og rapporteringsbehov.
Automatiser alt hvad du kan
Selvom der ikke kan gøres meget for at fremskynde den indledende planlægningsfase, kan du reducere tids- og ressourcekravene betydeligt, når det kommer til udførelse. Udnyt værktøjer såsom data warehousing værktøjer, dataintegrationsværktøjerosv. for at automatisere og accelerere gentagne og besværlige opgaver.
Vær opmærksom på datakvalitet
Dine analyser og rapportering vil kun være så god som kvaliteten af de data, du udfylder dit datavarehus med. Sikre datakvalitetsstyring ved at implementere robuste processer til datarensning, de-duplikering og validering.
Adopter en skalerbar arkitektur
Efterhånden som datamængderne vokser, og forretningsbehovene ændrer sig, bør dit datavarehus være i stand til at tilpasse sig uden at kræve omfattende redesign. Brug af en modulær arkitektur, der giver mulighed for skalerbarhed og fleksibilitet, sikrer, at dit datavarehus kan integreres med nyere teknologier uden en stor investering.
Implementer en robust ETL-proces
Design ETL-pipelines, der er robuste nok til at håndtere store mængder data i næsten realtid. Automatiser ETL-processen så meget som muligt for at minimere manuel indgriben og sikre dataintegritet.
Byg dit datavarehus uden problemer med en 100 % kodefri platform
Byg et fuldt funktionelt datavarehus på få dage. Implementer på stedet eller i skyen. Udnyt kraftfulde ETL/ELT-pipelines. Sikre datakvalitet hele vejen igennem. Alt sammen uden at skrive en eneste linje kode.
Download prøveversion Byg dit datavarehus med Astera
Opbygning af et datavarehus kan nemt blive en ressourcekrævende og tidskrævende proces i betragtning af kompleksiteten i at integrere og organisere store mængder data fra forskellige kilder – kilder, der fortsætter med at stige, efterhånden som din virksomhed vokser. Det er derfor, moderne organisationer udnytter automatiseret datahåndteringsløsninger at sætte gang i udviklingen af deres datavarehuse.
Er du på en stram tidslinje, der kræver, at du bygger et datavarehus inden for få dage, ikke måneder? Kontakt en af vores løsningseksperter på +1 888-77-ASTERA. Alternativt kan du downloade en 14-dages gratis prøveperiode or se demo.
Forfattere:
Khurram Haider