Architektura schematu hurtowni danych - schemat gwiazdy

Data Warehouse in English

Datawarehouse4u.Info





 You may contact us by email:  datawarehouse4u.info[at]gmail.com
Schemat gwiazdy (star schema)

Schemat gwiazdy (star schema)

Schemat gwiazdy jest najprostszym modelem hurtowni danych. Jego nazwa wziela sie z wygladu schematu danych, w ktorym w centralnym miejscu znajduje sie tabela faktow otoczona przez tabele wymiarow.

Cechy charakterystyczne schematu gwiazdy:
  • Prosta struktura -> schemat latwy do zrozumienia
  • Duza efektywnosc zapytan ze wzgledu na niewielka liczbe polaczen tabel
  • Stosunkowo dlugi czas ladowania danych do tabel wymiarow ze wzgledu na denormalizacje, na skutek redundancji danych rozmiar tabeli moze byc duzy
  • Dominujaca struktura dla hurtowni danych, wspierana przez wiele narzedzi

  • Najczesciej w tabeli faktow mozna spotkac dane o sprzedazy, natomiast najbardziej typowymi wymiarami sa: geografia, klient, produkt, czas, biznes.

    Dane w tabeli faktow powinny byc znormalizowane do trzeciej postaci normalnej, natomiast tabele wymiarow sa zwykle zdenormalizowane przy czym dla kazdego z wymiarow moze wystepowac tylko jedna zdenormalizowana tabela.

    Tabela faktow sklada sie z dwoch typow kolumn:
    - kolumny zawierajace wartosci numeryczne o danym fakcie tzw. miary
    - kolumny z kluczami obcymi do tablic wymiarow

    Klucz glowny tabeli faktow skalada sie z jej wszystkich kolumn z wylaczeniem kolumn opisujacych miary.
    Tabela faktow moze zawierac informacje o faktach na poziome detalicznym lub zagregowanym.

    Tabele wymiarow sa strukturami zlozonymi czesto z jednej lub wiecej hierarchii, ktore sluza do kategoryzowania danych. Oprocz kluczy glownych do tabeli faktow zawieraja pola z atrybutami opisujacymi dany wymiar. Wielkosc tabeli faktow jest znacznie wieksza od tabel wymiarow. W schemacie gwiazdy wszystkie hierarchie danego wymiaru zaimplementowane sa jako pojedyncza tabela.

    Architektura gwiazdy umozliwia przegladanie poszczegolnych danych z podzialem na kategorie, agregacje, sumowanie, drazenie oraz filtrowanie.

    Miara vs. wymiar - roznica miedzy nimi polega na tym, ze miara zawiera wartosci liczbowe opisujace dany fakt, natomiast wymiar wartosci opisowe(tekstowe) danego faktu, przechowywane w atrybutach wymiaru, np. jesli chcemy opisac sprzedaz samochodow to ilosc sprzedanych samochodow to miara, natomiast marka to atrybut wymiaru. Wymiary sa informacjami referencyjnymi i okreslaja kontekst analiz miar. W modelu wielowymiarowym kazda miara jest powiazana z kilkoma wymiarami. Wymiar najczesciej posiada strukture hierarchiczna, okreslajaca sposob agregacji wartosci skojarzonych z nim miar.

    Najbardziej typowa hierarchia wymiaru jest hierarchia bazujaca na poziomach (and. Level-based dimension), posiada powiazania referencyjne typu parent-child pomiedzy wystapieniami wymiaru, ktore umozliwiaja grupowanie czlonkow wymiaru w poziomy, np. dni tygodnia przypisujemy do jednego poziomu, tygodnie do drugiego a miesiace do trzeciego.

    W sytuacji gdy hierarchia posiada powiazania typu parent-child ale nie posiada poziomow mamy do czynienia z wymiarem bazujacym na wartosciach (ang. Value-based dimension), np. dla kazdego pracownika mozemy wyznaczyc jego kierownika, jednak grupowanie tak wyznaczonych kierownikow nie bedzie mialo wiekszego sensu bo kierownika zalozmy zespolu zajmujacego sie sprzedaza nie mozna porownac z kierownikiem dyrektora regionu sprzedazy.

    Jesli wymiar nie posiada hierarchii i poziomow, nosi nazwe wymiaru plaskiego lub listy. (ang. flat dimension).

    Schematy hurtowni danych
    Schemat platka sniegu
    Schemat konstelacji faktow

    statystyka


    (C) 2008-2009 www.datawarehouse4u.info
    All Rights Reserved