Poprzednia sekcha

A3. Ukierunkowana analiza skupień *)

Analiza skupień (z angielska klastering) polega ogólnie biorąc na tym, żeby z rozpatrywanego zbioru obiektów wydzielić możliwie jednorodne podzbiory (skupienia, klastry), zapewniając jednocześnie jak największe zróżnicowanie tych podzbiorów między sobą. Ukierunkowana analiza skupień daje dodatkowo możliwość uporządkowania podzbiorów według jakiejś ukrytej cechy, którą w praktyce udaje się zwykle ex post zidentyfikować i zinterpretować. Podzbiór początkowy i końcowy różnią się najsilniej, sąsiednie podzbiory są do siebie zbliżone. W dodatku obiekty wewnątrz każdego podzbioru są również uporządkowane według tej samej ukrytej cechy, tworząc uporządkowaną serię mniejszych wewnętrznych skupień. Liczba wyróżnionych skupień jest obierana przez osobę przeprowadzającą analizę i może być ustalana dowolnie.

Pierwszy krok analizy polega na uporządkowaniu wszystkich obiektów w zbiorze, a drugi na optymalnym wyborze progów określających kolejne skupienia w ciągu obiektów. Uporządkowanie obiektów w uporządkowanej analizie skupień jest dokonywane na podstawie macierzy wskaźników zróżnicowania dwóch obiektów. Jest to macierz o wymiarach NN, gdzie N oznacza liczbę obiektów w całym zbiorze (każdy wiersz i każda kolumna odpowiada jakiemuś obiektowi). Jako wskaźnik zróżnicowania przyjmujemy wskaźnik o nazwie , postaci:

,

gdzie i oznaczają wartości zmiennej Yi w macierzy danych w pierwszym i drugim obiekcie, a jest średnią arytmetyczną wartości tej zmiennej w całym zbiorze.

Wskaźniki , , tworzą macierz, która zostaje poddana procedurze zwanej GCA (Grade Correspondence Analysis - po polsku gradacyjna analiza odpowiedniości), opisanej m.in. w Ciok et al. (1995). Procedura GCA przestawia jednocześnie wiersze i kolumny macierzy wskaźników w taki sposób, żeby zmaksymalizować wartość pewnego wskaźnika zależności w tej macierzy (czyli zależności "zmiennej wierszowej" od "zmiennej kolumnowej"). Wskaźnik ten oznaczany jest ρ* i nazywany "rho Spearmana" lub "korelacja gradacyjna".

Uporządkowania wierszy i kolumn macierzy wskaźników po GCA nie muszą być zupełnie jednakowe, zwykle jednak różnią się co najwyżej przestawieniem niektórych blisko usytuowanych obiektów. Zwykle też daje się obrać progi wyznaczające skupienia w taki sposób, żeby różnice w uporządkowaniu obiektów w wierszach i kolumnach występowały tylko wewnątrz skupień. Tak czy inaczej, po dokonaniu transformacji GCA na macierzy wskaźników użytkownik dowolnie decyduje, które uporządkowanie wybiera: dla wierszy czy dla kolumn tej macierzy, a także ustala liczbę klastrów.

Procedurę GCA odnoszoną do macierzy wskaźników nazywamy procedurą GCA-ArM. Dobór progów określających klastry dla obiektów odbywa się w taki sposób, żeby – przy zadanej liczbie klastrów – wskaźnik zależności ρ* dla zagregowanej tablicy miał największą wartość dla takiego właśnie zestawu progów spośród wszystkich możliwych zestawów. Ten problem rozwiązuje się automatycznie zaraz po wykonaniu procedury GCA-ArM, po czym w macierzy danych (to jest w macierzy zawierającej kolumny z wartościami zmiennych) wprowadza się wskazane przez GCA-ArM ustawienie obiektów (wierszy) i podział ich na klastry.

Przedostatni krok polega na zastosowaniu do macierzy danych warunkowej metody GCA (pod warunkiem zachowania uporządkowania wierszy wg GCA-ArM), czyli na optymalnym ustawieniu kolumn przy więzach w postaci wymuszonego ustawienia wierszy. I wreszcie ostatni krok ukierunkowanej analizy skupień polega na wyznaczeniu klastrów dla kolumn w sposób optymalny przy więzach w postaci wymuszonego klasteringu wierszy.

Klastering dokonany za pomocą GCA-ArM różni się zwykle trochę od klasteringu dokonywanego za pomocą procedury GCA stosowanej wprost do macierzy danych. Ten drugi klastering pozwala nieco lepiej uchwycić najsilniejszy trend między zmiennymi a obiektami, podczas gdy GCA-ArM dopuszcza do pewnych kompromisów między głównym trendem a lokalnymi podobieństwami.


Następna sekcja

*) Czytelnik nie zainteresowany metodologią ukierunkowanej analizy skupień może pominąć paragraf A3 i przejść bezpośrednio do A4, gdzie znajdzie informację o wynikach uzyskanych tą metodą przy analizie ankiet.

IdN1