Poprzednia sekcha

A4. Wyniki ukierunkowanej analizy skupień w zbiorze wszystkich ankiet (zbiór 601)

W zbiorze wszystkich posiadanych ankiet, nazwanym "zbiorem 601", ukierunkowana analiza skupień oparta na procedurze GCA-ArM uporządkowała cechy:

od zatrudnienia i względnej sprawności, poprzez doświadczenia zawodowe, wiek, klasę miejscowości, wykształcenie, sytuację materialną, do kwalifikacji komputerowych, znajomości języka obcego, sprzętu komputerowego.

Powstało więc ukierunkowane rozwarstwienie respondentów, w którym na jednym skraju (lewy klaster) znajdują się:

niezatrudnieni, bardzo ciężko poszkodowani, na ogół bez żadnych doświadczeń zawodowych, młodsi, raczej z mniejszych miejscowości, a jednocześnie z wyższymi kwalifikacjami komputerowymi, posiadający sprzęt komputerowy, władający jakimś językiem obcym;

zaś na drugim skraju sytuacja jest odwrotna. Taki właśnie jest główny ogólny trend rozwarstwienia, który oznacza, że

posiadaniu zatrudnienia przez osoby niepełnosprawne sprzyjała w tym pięcioleciu stosunkowo wysoka sprawność fizyczna, doświadczenia zawodowe, bardziej zaawansowany wiek, zamieszkanie w Warszawie lub dużym mieście, a kwalifikacje komputerowe, sprzęt i znajomość języków były u tych osób wyraźnie niższe od przeciętnej; natomiast główny trend nie miał związku z sytuacją materialną i wykształceniem, dla których rozkłady zarówno w skrajnym lewym i skrajnym prawym klastrze jak i w całym zbiorze są praktycznie takie same.

Wszystkie te informacje można odczytać z tabeli A.4.1 i rys. A.4.1, które syntetycznie przedstawiają rozkłady cech w całej zbiorowości respondentów (pierwsza kolumna histogramów dla 10 uporządkowanych cech) i w obu skrajnych klastrach (druga i trzecia kolumna histogramów). W kolumnach reprezentujących skrajne klastry widać wyraźnie, jak - dla każdej cechy z osobna - histogram zostaje jakby rozszczepiony na dwa skrajne histogramy, przy czym w jednym z nich masa wypełniająca słupki przesuwa się ku lewemu, a w drugim ku prawemu krańcowi skali. Najsilniej widać to dla cech skrajnych (dolnej i górnej), czyli dla zatrudnienia i sprzętu, z tym, że kierunki rozszczepiania masy są w przypadku zatrudnienia przeciwne niż w przypadku sprzętu.

Zróżnicowanie histogramów z obu skrajnych klastrów jest najsilniejsze dla zatrudnienia, a następnie zmniejsza się stopniowo aż do momentu, gdy przestaje być zauważalne (czyli po dojściu do sytuacji materialnej i wykształcenia), po czym następuje zmiana kierunku przepływu masy i ponowny wzrost zróżnicowania - szczególnie duży dla sprzętu.


Rys. A.4.1 Histogramy przedstawiające rozkłady poszczególnych cech w całym zbiorze 601 respondentów (lewa kolumna) oraz pierwszym i ósmym klastrze (druga i trzecia kolumna), liczącym 63 i 53 osoby. Uporządkowanie cech i osób i podział na klastry uzyskano stosując ukierunkowaną analizę skupień opartą na procedurze GCA-ArM.


Tabela A.4.1. (do rys. A.4.1) Rozkłady poszczególnych cech w całym zbiorze 601 respondentów (lewa kolumna) oraz pierwszym i ósmym klastrze (druga i trzecia kolumna), liczącym 63 i 53 osoby. Uporządkowanie cech i osób i podział na klastry uzyskano stosując ukierunkowaną analizę skupień opartą na procedurze GCA-ArM.

Lewa kolumna histogramów opisuje cały zbiór "601". Okazuje się, że w całej zbiorowości respondentów ok. 65% nie miało w chwili wypełniania ankiet żadnego zatrudnienia; 30% nie miało żadnych doświadczeń zawodowych; wiek wahał się w szerokim zakresie od 16 do 65 lat, a w przedziale 20-55 lat rozkład wieku był prawie jednostajny; przeważały osoby z Warszawy (57%) i innych wielkich miast (18%); wykształcenie co najmniej średnie posiadało ok. 80% osób; aż 65% osób oceniało swoją sytuacje materialną jako złą lub bardzo złą; kwalifikacje komputerowe były bardzo zróżnicowane, przy czym kwalifikacje dobre miało mniej niż 20%; całkowitą nieznajomość lub tylko bardzo słabą znajomość jakiegokolwiek obcego języka deklarowało aż 80% osób; 40% osób nie miało jakiegokolwiek sprzętu komputerowego.

Ten jakże pesymistyczny obraz całości jest dopełniany pesymistyczną refleksją wynikającą ze struktury sylwetek typowych ("średnich") reprezentantów obu skrajnych klastrów. Mamy na myśli to, że nawet wśród tej szczególnej grupy 601 osób niepełnosprawnych będących szczególnie zainteresowanych pracą z komputerem, posiadanie kwalifikacji komputerowych i dobrego sprzętu nie tylko nie wpływało pozytywnie na zatrudnienie, lecz przeciwnie: te właśnie osoby (czyli osoby w lewym klastrze) nie miały żadnego zatrudnienia! Oznacza to, że w tym pięcioleciu czynniki oficjalne nie zrobiły praktycznie nic w kierunku stworzenia możliwości zatrudnienia osobom niepełnosprawnym szczególnie predestynowanym do pracy wspomaganej komputerem! Nie widać też żadnych efektów zapowiadanej polityki zatrudnienia młodych. Zanalizowane w ten sposób dane odzwierciedlaja ponurą prawdę: pracę znajdowali przede wszystkim ci inwalidzi, którzy byli stosunkowo sprawni fizycznie, starsi, z jakimkolwiek doświadczeniem zawodowym, natomiast najciężej poszkodowani inwalidzi o szczególnie dużych możliwościach informatycznych pozostawali na ogół bez pracy.

Trend zaprezentowany na rys. A.4.1 przedstawimy teraz graficznie na rys. A.4.2 za pomocą wykresu nazywanego "mapą nadreprezentacji". Mapa ma 10 kolumn odpowiadających cechom i 601 wierszy odpowiadających respondentom. Kolumny i wiersze są ustawione jak poprzednio, z zaznaczeniem 4 klastrów dla cech i 8 klastrów dla respondentów. Szerokości kolumn są proporcjonalne do średnich wartości cech. Kolumna dla zatrudnienia jest najwęższa, gdyż ma najmniejszą średnią (co wiąże się z tym, że bardzo dużo osób nie ma żadnego zatrudnienia); kolumna dla klasy miejscowości jest najszersza, gdyż ma najwyższą średnią (co wiąże się z tym, że znaczna większość respondentów pochodzi z Warszawy i paru wielkich miast).

Szerokości wierszy - trudne do zauważenia na mapie sporządzonej dla tak wielu osób - są proporcjonalne do sumy wartości wszystkich cech danego respondenta; a ponieważ cechy są tak zdefiniowane, że ich wyższe wartości są na ogół korzystniejsze, więc grubsze wiersze należą do respondentów będących w lepszej sytuacji. Średnie wartości zmiennych są podane w tabeli A.4.2.

Liczebności klastrów wierszy wynoszą (licząc od górnego klastra): 63, 74, 76, 90, 86, 84, 75, 53 (razem 601). Przypominamy, że wielkości klastrów są w metodzie GCA-ArM ustalane automatycznie po zadaniu ich liczby dla wierszy i kolumn. W 8-ym klastrze większość respondentów ma nieco grubsze wiersze: są to uprzywilejowane osoby starsze, że rzadkością jest brak zatrudnienia, wysoka niesprawność lub niska klasa miejscowości.


Rys. A.4.2. Mapa nadreprezentacji w zbiorze 601 respondentów po uporządkowaniu cech i osób metodą ukierunkowanej analizy skupień opartej na procedurze GCA-ArM.

Odcienie szarości na mapie nadreprezentacji są dopasowane do wartości każdej z cech dla każdego respondenta z osobna w zależności od tego, ile wynosi stosunek wartości tej cechy do jej hipotetycznej wartości średniej, (to jest wartości średniej wyliczonej przy założeniu, że grubość wiersza rozdziela się na kolumny proporcjonalnie do szerokości kolumny). Kolor prostokącika na mapie jest biały gdy ów stosunek (czyli występująca nadreprezentacja wobec hipotetycznej średniej) należy do przedziału (0, 2/3); jest jasno szary (szary, ciemno szary, czarny) gdy nadreprezentacja należy do przedziału (2/3, 0.98) ((0.98, 1.02), (1.02, 3/2), (3/2, Ą) ).


Tabela A.4.2. Średnie (w części a) i odchylenia standardowe (w części b) dla poszczególnych cech w 8 klastrach wyróżnionych w zbiorze 601 metodą ukierunkowanej analizy skupień opartej na procedurze GCA-ArM.

Klastry dla zmiennych widoczne na mapie nadreprezentacji są łatwe do zinterpretowania. Widać wyraźnie, że trend powstaje dzięki dużemu zróżnicowaniu między pierwszym klastrem (sprzęt, języki obce, kwalifikacje komputerowe) a czwartym klastrem (zatrudnienie i niesprawność). To zróżnicowanie jest bardzo wyraźnie widoczne. Z czwartym klastrem dodatnio związany jest klaster trzeci (wiek i doświadczenia zawodowe). Natomiast drugi klaster cech (sytuacja materialna, wykształcenie, klasa miejscowości) nie ma jak widać z mapy nic wspólnego z głównym trendem.

Te spostrzeżenia są z grubsza zgodne z macierzą korelacji, przedstawioną w tablicy A.4.3. W odczytywaniu tej tablicy bardzo pomaga uporządkowanie zmiennych według głównego trendu.

Gdyby ów trend był zupełnie regularny, to w macierzy korelacji - dla zmiennych uporządkowanych zgodnie z tym trendem - współczynniki korelacji malałyby w miarę oddalania się od przekątnej w dowolnym kierunku: w prawo, w lewo, w dół lub w górę; przy nieco mniejszej regularności, zamiast ścisłego malenia występowałyby drobne wahania.

Widzimy, że w macierzy korelacji w Tabeli A.4.3 odchylenia od całkowitej regularności są dość duże, czyli nie jest ona zbyt regularna. (Jest to zgodne z małą regularnością mapy nadreprezentacji z rys. A.4.2). Na przykład dla cechy zatrudnienie stwierdzamy, że w komórkach położonych coraz dalej od przekątnej występuje ciąg wskaźników 0.08, 0.37, 0.20, 0.01, 0.18, 0.29, 0.16, 0.01, 0.13, który nie jest oczywiście malejący. Zatrudnienie jest więc dość silnie dodatnio skorelowane z doświadczeniem zawodowym i sytuacją materialną, słabiej z wiekiem i wykształceniem, jeszcze słabiej z kwalifikacjami i sprzętem komputerowym, a nieskorelowane z niesprawnością, klasą miejscowości i znajomością języków. Podobne odstępstwa od regularności występują - w mniejszym lub większym stopniu - dla każdej z pozostałych cech (na przykład dla względnej sprawności, idąc w górę od przekątnej macierzy, malejący ciąg wskaźników powstałby po jednym tylko przestawieniu zmiennych w pierwszym klastrze).


Tabela A.4.3 Macierz korelacji dla 10 cech w zbiorze "601".

Inne uzupełnienie mapy nadreprezentacji z rys. A.4.2 jest przedstawione na rys. A.4.3a Jest to zagregowana wersja tej mapy, czyli jest to mapa nadreprezentacji sporządzona dla średnich wartości cech w ośmiu klastrach (według danych w tablicy A.4.2a). Każdy klaster zmiennych ma tu wyraźnie inny charakter: widać ostre przeciwstawienie pierwszego klastra trzeciemu i czwartemu, widać też brak stabilnego ukierunkowania zmiennych w klastrze drugim.

Jednakże oglądając mapę trzeba koniecznie pamiętać o tym, że stopień szarości prostokąta nie informuje bezpośrednio o wartości cechy: ta sama wartość tej samej cechy będzie bowiem inaczej przedstawiona na mapie nadreprezentacji w dwóch wierszach o różnej szerokości. Mapa nadreprezentacji może być także błędnie interpretowana przez to, że występuje w niej tylko pięć stopni szarości. Dlatego przy bezpośredniej interpretacji klastrów warto dodatkowo posłużyć się zestawem wykresów na rys. A.4.4a, które przedstawiają średnie wartości cech w kolejnych klastrach.

Analogiczny zestaw wykresów na rys. A.4.4b przedstawia odchylenia standardowe w klastrach ( wg tablicy A.4.2b)., które służą do oceny średniego rozproszenia wartości cechy w poszczególnych klastrach. Syntetyczne porównanie rozproszeń w klastrach przedstawia mapa nadreprezentacji dla odchyleń standardowych (rys. A.4.3b).


Rys. A.4.3a Macierz nadreprezentacji dla średnich wartości cech w ośmiu klastrach w zbiorze 601.


Rys. A.4.4a Wykresy średnich wartości cech dla ośmiu klastrów w zbiorze 601. Uwaga: skala na osiach pionowych jest różna dla poszczególnych cech (od zaobserwowanej wartości minimalnej do zaobserwowanej wartości maksymalnej).


Rys. A.4.3b Macierz nadreprezentacji dla odchyleń standardowych cech w ośmiu klastrach w zbiorze 601.


Rys. A.4.4b Wykresy odchyleń standardowych dla ośmiu klastrów w zbiorze 601. Uwaga: skala na osiach pionowych jest różna dla poszczególnych cech (od zaobserwowanej wartości minimalnej do zaobserwowanej wartości maksymalnej).

Ogólnie stwierdzamy, że główny trend wyznaczony w zbiorze 601 metodą ukierunkowanej analizy skupień jest niezbyt silny i niezbyt regularny, a zmienne są ze sobą dość słabo powiązane. Wniosek taki wynika przede wszystkim z szachownicy kolorów widocznej na mapach nadreprezentacji (rys. A.4.2 i A.4.3a, A.4.3b), z dużych odstępstw od regularności w macierzy korelacji uporządkowanej zgodnie z trendem (w której bardzo niewiele współczynników korelacji przybiera większe wartości), z dosyć dużych wartości odchyleń standardowych. Gdyby jednak ograniczyć respondentów do osób należących do skrajnych klastrów wierszy (1 ,2, 7, 8) i usunąć z pola widzenia zmienne z drugiego klastra kolumn, powstałby zbiór znacznie regularniejszy i lepiej reprezentowany przez wyznaczony trend. Innymi słowy, widać wyraźnie, że trzeba dokonać podziału zbioru 601 na respondentów o profilu zgodnym z wyznaczonym głównym trendem i na respondentów odstających od tego profilu, a potem znaleźć i zinterpretować trend reprezentujący tych drugich.

Taką dekompozycję zbioru "601" przedstawimy w następnej sekcji.

Następna sekcja

IdN1