Gruparea (si clasificarea) fuzzy a datelor

Obiectivul grupării datelor:

• împărțirea setului de date în grupuri (grupe, clustere, clase) de date similare

• Scopul grupării este de a identifica grupurile de date similare dintr-un set mare de date care reprezintă comportarea unui sistem.

• Exemple de obiecte de grupat (clasificat, recunoscut): litere, cifre, email-uri, zone de interes din imagini, persoane, sortimente de vin, clase de flori, regiuni ale unor functii neliniare multivariabile, regiuni din functionarea unui sistem, etc.

• Împartirea in grupuri se realizează pe baza unei mulțimi de trăsături (caracteristici, atribute, proprietati) ce descriu fiecare formă sau obiect (ex. pentru florile de iris: latimea si lungimea sepalei si latimea si lungimea petalei)

• În practica pot exista un număr mare de obiecte de grupat (eșantioane) descrise prin mai multe trasaturi rezultă gruparea automată a datelor.

Rezultatul grupării:

o structura fixa a datelor

• centrul grupurilor (localizarea grupurilor)

• forma grupurilor

• gradul de apartenentă al fiecarui obiect la fiecare grup In actiunea de grupare a datelor nu se cunoaste apriori valoarea dorita a iesirii, asadar gruparea datelor utilizează metode de invățare nesupervizată:

• identifica anumite structuri inerente prezente intr-un set de obiecte, pe baza unei masuri de similitudine.

Împărțirea datelor trebuie sa aiba doua caracteristici:

• omogenitate in grupuri; obiectele din acelasi grup trebuie sa fie cat se poate de asemanatoare între ele;

• eterogeneitate intre grupuri; obiectele din grupuri diferite sa fie cat se poate de diferite unele de altele;

• cea mai potrivita masura a similitudini dintre obiecte este distanta dintre obiecte, de exemplu distanta euclidiana.

• Gruparea datelor (clustering) – este procesul de descoperire (găsire) a grupurilor si structurilor de date “similare” din intregul setul de date, fara a utiliza structuri de date cunoscute apriori.

Împărțirea obiectelor în grupuri (clustere)

• Clasificarea datelor (classification) – este procesul de generalizare a unei structuri cunoscute pentru a fi aplicata la date noi. Repartizarea unui obiect nou la unul dintre grupuri (clustere).

Masuri pentru distanta

Un factor important ce determina rezultatul partitionarii datelor este metoda de determinare a distantei dintre obiecte.

distanta este masurata in spatiul caracteristicilor

Fuzzy c-means (FCM) este o metoda de grupare a datelor in care fiecare obiect apartine unui grup intr-un anumit grad specificat de gradul de apartenenta

Metoda a fost introdusa de Jim Bezdek in 1981

Este o metoda care arata cum sa se grupeze obiectele ce populeaza un spatiu multidimensional intr-un numar specificat de grupuri diferite.

functia fcm din Fuzzy Logic Toolbox porneste cu o estimare initiala aleatoare a centrelor grupurilor, menite sa marcheze locatia medie a fiecarui grup.

Estimarea initiala a centrelor este, cel mai probabil, incorecta.

fcm atribuie initial in mod aleator fiecarui obiect un grad de apartenenta la fiecare grup

Prin actualizarea iterativa a centrelor grupurilor si a gradelor de apartenenta a tuturor obiectelor, fcm deplaseaza centrele in locatiile cele mai potrivite setului de date.

Aceasta iterare (optimizare) se bazeaza pe minimizarea functiei obiectiv ce reprezinta suma distantelor fiecărui obiect la fiecare centru de grup, ponderate cu gradele de apartenenta a obiectelor la grupuri.

Fuzzy C-means (FCM) in Matlab

 In Fuzzy Logic Toolbox exista functia fcm [CENTER, U, OBJ_FCN] = fcm(DATA, N_CLUSTER)

Functia întoarce:

  • Matricea centrelor: o matrice cu centrele grupurilor; fiecare rand al matricii contine coordonatele unui centru de grup
  •  Matricea gradelor de apartenenta: matricea contine gradele de apartenenta a fiecarui punct (obiect) din setul de date la fiecare grup; fiecare rand contine gradele de apartenenta a unui punct la fiecare grup (in ordinea grupurilor)
  •  Functia matlab genfis3 genereaza automat un SLF (Sugeno sau Mamdani) pe baza rezultatelor furnizate de fcm. Acest slf poate fi utilizat cu rol de clasificator (sistem de recunoastere a formelor)

Clasificarea substractivă

Trebuie precizată valoarea unei raze ce specifică domeniul de influenţă al centrului în fiecare dimensiune a datelor, presupunând că datele se află în interiorul unei “hipercutii unitate” Algoritm rapid, într-o singură trecere, fără optimizare

Determina numărul de grupuri şi centrele grupurilor dintr-un set de date

1. Presupune că fiecare punct de date este un potenţial centru de grup şi calculează probabilitatea ca acesta să definească un centru pe baza densităţii punctelor înconjurătoare 2. Selectează punctul cu cel mai mare potenţial ca fiind primul centru de grup

3. Înlătură toate punctele din vecinătatea centrului determinat anterior (în conformitate cu raza precizată) în scopul determinării următorului grup şi a centrului ei

4. Continua acest proces până când toate datele se află în raza de influenţă a unui centru de grup.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s