Poprzednia sekcja

A2. Kreowanie i przetwarzanie syntetycznych danych zbiorczych

Każda ankieta wpływająca do Bazy IdN1 (czyli tym samym pojedynczy respondent w chwili zgłoszenia się) zostaje najpierw “ekspercko” przetworzona na ciąg wartości 12 następujących cech:

Lp. Nazwa cechy Skrót Odpowiednik angielski Skrót angielski
1 Zatrudnienie zatrudn current employment employ
2 Doświadczenie zawodowe dos.zaw Professional experience prof-exp
3 Sytuacja materialna syt.mat economic situation econ
4 Znajomość języków obcych j.obce foreign language skills lang
5 Wiek wiek Age age
6 Wykształcenie wykszt Education educ
7 Posiadany sprzęt komputerowy sprzęt computer related equipment equip
8 Względna sprawność fizyczna wzgl.spr functional level of disability func-lev
9 Klasa (wielkość) zamieszkiwanej miejscowości kl.miejsc population size of city of residence pop-size
10 Kwalifikacje komputerowe kw.komp skill level with computers skills
11 Zapotrzebowanie na szkolenie   request for computer training  
12 Zapotrzebowanie na pracę   >request for employment  

Cechy 1¸10 opisują sytuacje respondentów, a cechy 11 i 12 ukazują podstawowe oczekiwania jakie mają wobec Fundacji. Obie końcowe cechy przybierają wartości 0 lub 1 i służą tylko jako sygnał, że ankieta powinna stać się przedmiotem zainteresowania działacza Fundacji odpowiedzialnego za szkolenia i/lub działacza Fundacji odpowiedzialnego za wspomaganie zatrudnienia. Natomiast dziesięć początkowych cech służy do opracowania syntetycznej informacji statystycznej o zbiorze respondentów.

Dla każdej z cech z pierwszej dziesiątki wyróżniono 6 kategorii, wybranych tak, żeby można je było traktować jako uporządkowane poziomy l, 2, ... , 6 odpowiadające coraz wyższemu uprzywilejowaniu respondenta: na przykład dla cechy zatrudnienie kategoria 1 oznacza całkowity brak pracy, kategoria 2 brak pracy połączony ze sporadycznymi zleceniami, a kategoria 6 pracę wyjątkowo korzystną finansowo a przy tym satysfakcjonującą merytorycznie i możliwą do wykonania przy barierach stwarzanych przez niepełnosprawność indywidualnego respondenta. Dla cechy wiek dokonano podziału na grupy wiekowe od najmłodszych (kategoria 1) do najstarszych (kategoria 6); w tym przypadku trudno wprawdzie formalnie uznać starszych za bardziej uprzywilejowanych, ale rzeczywiście sytuacja życiowa młodszych inwalidów jest na ogół trudniejsza niż tych starszych.

Wartości cech są wyznaczone przez eksperta będącego opiekunem Bazy IdN1 w sposób subiektywny (podobnie jak to się dzieje przy wystawianiu przez nauczyciela oceny dla ucznia). Na ogół – po nabraniu pewnej wprawy – nie nastręcza to trudności. Kłopoty występują wtedy, gdy wymagania wobec kwalifikacji komputerowych i posiadanego sprzętu komputerowego zmieniają się wraz z upływem czasu i w rezultacie to, co w 2001 zasługuje na kategorię "średnio" (czyli "3"), w 1997 zasługiwałoby np. na "5" lub byłoby w ogóle poza skalą. Dlatego opiekun Bazy IdN1 dokonuje co roku “up grade’u” swoich wewnętrznych kryteriów dla tych dwóch cech na podstawie doświadczeń własnych i informacji otrzymywanych od wykładowców, pracodawców, etc.

Kodowanie ankiet odbywa się sukcesywnie w miarę ich napływu. W rezultacie powstaje macierz danych o 10 kolumnach odpowiadających 10 cechom (z wartościami cech ze zbioru {1,...,6}) i o tylu wierszach, ilu respondentów wypełniło ankietę.

Macierz kodowanych danych ( bez imion i nazwisk respondentów) jest co roku przekazywana do Zespołu Statystycznej Analizy Danych w Instytucie Podstaw Informatyki PAN, gdzie następuje jej przetwarzanie tak zwanymi metodami gradacyjnymi. Szczególnie ważne są procedury ukierunkowanej analizy skupień i dekompozycji zbioru respondentów na regularniejsze podzbiory. Zgrubny opis głównych procedur (z uwzględnieniem procedur dotyczących aktualizacji danych) będzie podany w dalszym tekście razem z wynikami poszczególnych analiz i płynącymi z nich wnioskami.

Do przetwarzania syntetycznych danych zbiorczych stosowany jest system komputerowy o nazwie GradeStat, tworzony od paru lat w Zespole Statystycznej Analizy Danych przez mgr inż. Olafa Matyję. System jest ciągle jeszcze rozwijany i testowany przez członków Zespołu i przez wybranych odbiorców instruowanych przez Autora systemu, którzy wdrażają GradeStat odpowiednio do swoich potrzeb. Dane z Bazy IdN1 tworzą jeden ze zbiorów danych testujących ten system. Nowi odbiorcy, którzy chcieliby już teraz posłużyć się GradeStat-em, mogą zwrócić się bezpośrednio do IPI PAN, mailem (eple@ipipan.waw.pl, olaf@ipipan.waw.pl) lub listownie.

System stanowi ważny element składowy doktoratu pana Matyji, więc jego opis będzie powszechnie dostępny w końcu 2002 w rozprawie złożonej w Bibliotece IPI PAN.

Aplikacja GradeStat została stworzona przy użyciu narzędzi Visual C++. Zaimplementowane obecnie algorytmy pozwalają m.in. na łączenie zbiorów danych pochodzących z różnych źródeł, gradacyjną analizę skupień (clustering), gradacyjną dekompozycję populacji na podpopulacje o większej regularności, znajdowanie elementów odstających. Dużo uwagi poświęcono nowatorskiej wizualizacji danych, której przykłady są podane w paragrafach A4 – A6.


Następna sekcja

IdN1