Depozite de date

Conceptul datawarehouse (depozit de date) este definit de William Inmon (vicepreşedintele firmei Prism Solution) ca fiind o “colecţie de date destinate fundamentării deciziei manageriale, colecţie care este tematică, integrată, plasată într-un context temporal şi permanentă”.

Depozitul de date reprezintă o altă direcţie de dezvoltare şi evoluţie a bazelor de date. El desemnează o bază de date special concepută pentru analiza datelor şi suportul deciziilor, prin consolidarea tuturor datelor întreprinderii.

Deosebirile faţă de o bază de date sunt următoarele:

  • scopul pe care îl au datele stocate – acestea nu sunt utilizate în scop operaţional, ci pentru sarcini analitice, de la identificarea unui nou segment de piaţă până la brainstorming;
  • dacă o bază de date este utilizată pentru prelucrarea tranzacţiilor on-line, depozitele de date se bazează pe prelucrarea analitică on-line, o nouă aplicaţie strategică;
  • dacă o bază de date înregistrază şi raportează ce s-a întâmplat, un depozit de date arată şi de ce.

Patru elemente determinante caracterizează depozitul de date:

  • datele stocate privesc o funcţiune sau un proces din întreprindere (sunt orientate pe subiect);
  • datele sunt integrate şi redefinite penteu a putea fi exploatate;
  • informaţiile sunt conservate mai mulţi ani, acesta reprezentând un atu al depozitelor de date (se asigură continuitatea şi comparabilitatea);
  • datele nu pot fi modificate sau şterse.

Datele organizate în depozite provin din datele preluate din sistemul operaţional, din datele de arhivă (în perioada de constituire a depozitului), precum din surse externe (baze de date publice, date din recensăminte, date de prognoză economică etc.). Utilizarea depozitelor de date se concretizează în extragerea unor rapoarte (la cerere sau pe baza unui abonament cu o anumită periodicitate), extragerea unor date pentru a putea fi utilizate de aplicaţiile de birotică (programe de calcul tabelar, procesoare de texte, programe de prezentare etc.), dar mai ales pentru a putea fi utilizate în aplicaţii specializate de analiză.

Componentele unui depozit de date sunt următoarele:

  1. instrumente pentru modelarea datelor, asociate adesea cu instrumente de tip CASE;
  2. o enciclopedie a metadatelor care păstrează informaţiile relevante despre fiecare dată a depozitului de date (ce reprezintă, tipul său, unde se găseşte, cum poate fi accesată, formatul său, etc.);
  3. baza de date – nucleu care este centrul depozitului şi ia forma bazelor de date (foarte rar a fişierelor independente);
  4. instrumente pentru transpotul datelor, proiectate pentru a muta copii ale datelor din sistemul operaţional în baza de date;
  5. instrumentele pentru extragerea, rafinarea şi standardizarea datelor, sarcini foarte dificile în condiţiile în care informaţiile sunt foarte complexe, iar instrumentele de lucru eterogene;
  6. middleware care asigură conectivitatea în cadrul reţelelor de calculatoare atunci când datele sunt preluate din mai multe baze de date sau o bază de date este distribuită pe mai multe noduri ale unei reţele;
  7. instrumente pentru accesul utilizatorilor la date şi furnizarea informaţiilor care cuprind instrumente de tipul interfaţă grafică utilizator (GUI) sau navigatoare (browsere) Web ce permit utilizatorilor să acceseze şi analizeze informaţiile din depozitul de date.

Una din preocuparea actuală a producătorilor de instrumente de construire a depozitelor de date este integrarea celor şapte categorii de instrumente prezentate mai sus într-un produs atotcuprinzător, ceea ce unii au reuşit într-o oarecare măsură.[2]

Din punct de vedere al ariei de întindere, se întâlnesc trei modele de depozite de date: depozite de întreprindere, data marts şi depozite virtuale.

Un depozit de întreprindere colectează toate informaţiile despre subiecte care privesc întreaga organizaţie. El necesită cheltuieli mai mari pentru modelare şi ani de zile pentru proiectare şi realizare. El conţine de regulă date detaliate, dar şi date agregate, iar ca ordin de mărime porneşte de la câţiva gigabytes până la sute de gigabytes, terabytes sau mai mult.

Un data marts poate fi considerat un subansamblu al unui depozit de date, mai uşor de construit şi întreţinut şi mai puiţin scump. El conţine un subset al volumului de date din organizaţie, specific unui grup de utilizatori. Domeniul este limitat la subiecte specifice. De exemplu, un data mats pentru marketing limitează subiectele la clienţi, articole, vânzări. Un depozit virtual este un set de viziuni (views) asupra bazelor de date operaţionale. Este uşor de construit, dar necesită capacităţi suplimentare pe serverele de baze de date. Pentru eficienţa procesării interogărilor, numai unele din viziunile de agregare pot fi materializate.

Baza de date reprezintă “inima” depozitului. În practică, baza de date nucleu se poate regăsi sub forma fişierelor independente de date (mai rar), poate fi o bază de date relaţională sau multidimensională. În prezent se pune tot mai mult accent pe bazele de date multidimensionale care sunt concepute pentru optimizarea analizei indicatorilor (cifră de afaceri, marjă…) în raport cu dimensiunile care le sunt asociate (timp, produs, regiune…). Ele simplifică gestiunea volumelor mici sau mijlocii de date, sunt adaptate la rezolvarea unor probleme concrete (fiind utilizate mai ales pentru analize sofisticate cum ar fi simulările sau predicţiile), adaptându-se astfel foarte bine în contexul depozitelor de date.

În ceea ce priveşte instrumentele de analiză şi acces la informaţii, două categorii, instrumentele de interogare şi cele OLAP se regăsesc pentru a combina accesul liber la informaţii şi funcţiile de analiză, fiind concepute pentru a răspunde nevoilor foarte diverse ale utilizatorilor finali. Astfel, anumiţi utilizatori sunt autonomi şi doresc un acces liber la informaţii fără a se îngriji de căile de acces la date. Instrumentele de tip interogare răspund nevoilor lor. Aceste instrumente favorizează formularea de interogări bazându-se pe logica asamblistă a bazelor de date relaţionale. Ele permit, de exemplu, obţinerea listei cu numele şi prenumele clienţilor care au cumpărat un anumit produs în cursul ultimelor trei luni. Alţi utilizatori exprimă cerinţe de analiză, ceea ce necesită o informaţie bine pregătită şi foarte organizată. Instrumentele de tip OLAP (On-Line Analytical Processing) sunt mai bine  adaptate exigenţelor lor. Prelucrarea analitică on-line este un nou instrument la dispoziţia managerilor şi analiştilor pentru examinarea interactivă şi manipularea unui volum mare de date analitice sau agregate sub diverse forme. OLAP înseamnă analiza relaţiilor complexe între mii şi chiar milioane de date pentru a descoperi tendinţe, modele şi excepţii. Operaţiile fundamentale în OLAP sunt consolidarea, forajul (drill down) şi disecarea (slice and dice). Consolidarea înseamnă agregarea datelor ce poate fi o simplă sumarizare sau o grupare complexă, implicând date aflate în legătură. Forajul este operaţiunea inversă şi se referă la afişarea datelor detaliate, pornind de la cele consolidate. Disecarea porneşte de la capacitatea OLAP de a privi o bază de date din mai multe perspective. Ea se realizează cel mai adesea de-a lungul unei axe de timp pentru a analiza tendinţele şi a descoperi modele de evoluţie.

Alţi utilizatori au nevoie de instrumente de data mining care permit structurarea informaţiei fără preocuparea pentru modul în care datele sunt puse în corelaţie, prin punerea în funcţiune a unor mecanisme de inducţie.

Prelucrarea analitică on-line, referită de regulă ca OLAP (On Line Analytical Processing) răspunde la întrebări pe care managerii şi le pun la modul concret. Singura trăsătură comună a acestor întrebări este caracterul lor multidimensional. Există totuşi câteva tipuri uzuale de întrebări, care pot arunca o lumină asupra complexităţii instrumentelor care trebuie să furnizeze răspunsuri:

  • Raporturi multidimensionale. De exemplu: Care este contribuţia la vânzările săptămânale totale a produselor informatice vândute prin magazinele situate în regiunea Moldova între 10 şi 20 septembrie?
  • Comparaţii. De exemplu: Care este media abaterii procentuale de la planul de vânzări în lunile acestui an comparativ cu anul trecut?
  • Clasificări şi profiluri statistice. De exemplu: Care este volumul vânzărilor şi media profitului pentru primii 20% dintre distribuitori şi care este contribuţia acestora la totalul vânzărilor pe trimestrul trecut?
  • Agregări libere. De exemplu: Care sunt veniturile realizate în ultimele patru trimestre de filialele judeţene din regiunea Moldova?
  • Evaluări What-If. De exemplu: În ce măsură ar influenţa profitul total o creştere cu 10 procente a vânzărilor în judeţele din Moldova?

Instrumentele de data mining explorează bazele de date şi extrag din acestea o multitudine de informaţii asupra tendinţelor şi previziunilor. Câmpul de acţiune al data mining cuprinde nu numai analiza datelor, ci şi a textelor.

Depozitele de date nu înseamnă totuşi numai avantaje, ci ele ridică o serie de probleme înre care menţionăm:

  • dimensiunile extrem de mari la care pot ajunge, de ordinul gigaocteţilor, ceea ce ridică problema suporturilor de stocare, ca şi asigurarea unei viteze rezonabile de acces la date;
  • costuri de dezvoltare foarte mari şi timp îndelungat necesar pentru construirea lor;
  • dificultatea integrării diferitelor platforme hardware şi software existente în cadrul întreprinderii.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s