Poprzednia sekcja - B1

B2. Rodzaje zbieranych danych i ich źródła

Na ogół w każdym państwie powołuje się urząd odpowiedzialny za zbieranie danych opisujących sytuację demograficzną, ekonomiczną, socjalną etc. W Polsce zajmuje się tym Główny Urząd Statystyczny (GUS), który grupuje wokół siebie różne wyspecjalizowane jednostki satelickie. Ze zbiorów danych zbieranych przez GUS i jednostki satelickie powstają po przetworzeniu statystyki oficjalne o różnym stopniu dostępności wedle odpowiednio przyjętej hierarchii odbiorców. Niektóre statystyki oficjalne są oparte na badaniach, w których w założeniu zbiera się poszukiwane dane dla wszystkich obiektów spełniających warunki postawione w badaniu. Sztandarowym przykładem badania pełnego są spisy powszechne; taki spis został właśnie w Polsce przeprowadzony na przełomie maja i czerwca 2002. Wprawdzie nawet w takim badaniu nie udaje się dotrzeć do niektórych obiektów, ale uzyskuje się dobre przybliżenie badania wyczerpującego przeszukiwany zbiór. Inna sprawa, że spis powszechny jest zwykle badaniem dosyć powierzchownym, gdyż jego zakres jest bardzo szeroki, a możliwości zebrania i przetworzenia danych w rozsądnym czasie i za rozsądne fundusze stanowią trudną do przekroczenia barierę.

Odległe w czasie, powierzchowne i kosztowne badania pełne są uzupełniane badaniami wyrywkowymi. Jeszcze niedawno badania wyrywkowe były traktowane z namaszczeniem jako jedyne źródło wiarygodnej informacji o przeszukiwanym zbiorze pod warunkiem ścisłego przestrzegania procedur zbierania i przetwarzania owych wyrywkowych danych. Stworzono w tym celu potężny aparat polegający na tak zwanym wnioskowaniu o populacji z losowej próby. Rozróżniano rozmaite typy losowania, od "losowania ze zwracaniem", w którym każdy element przeszukiwanego zbioru miał mieć w każdym kolejnym kroku jednakową szansę włączenia do zbioru, poprzez różne mniej restrykcyjne rodzaje losowań, dopuszczające podział badanego zbioru na hierarchiczne warstwy. Teoretyczne rozważania klasycznej statystyki polegały na ocenie rozkładu badanych cech i jego parametrów w całym zbiorze na podstawie próby; w związku z tym powstawały trudności dotyczące zbyt małej liczności próby, wyboru poszukiwanego parametru, doboru jego estymatora itd. Trudności praktyczne natomiast polegały na ustaleniu sposobu zbierania danych, który wcielałby w życie przyjęte założenia o losowości. Ten drugi rodzaj trudności zdominował wkrótce pierwszy, gdyż odstępstwa od założeń o losowości prowadziły często do tak wielkich różnic od jednej losowej próby do drugiej, że subtelne rozumowania teoretyczne traciły znaczenie, a wyniki estymacji przestawały być wiarygodne.

Jednocześnie radykalnie zmieniły się możliwości przetwarzania danych. W wyniku tego straciły rację bytu rozmaite modele teoretyczne, których głównym uzasadnieniem były występujące w nich udogodnienia procesu estymacji parametrów lub testowaniu hipotez o rozkładzie (polegające na przykład na łatwym tworzeniu różnych pomocniczych tablic).

W rezultacie statystyka klasyczna znalazła się pod wielostronną silną presją: zmiany modeli, zmiany metod wnioskowania, odejścia od działań opartych na tworzeniu losowych prób. Na pierwszy plan wysunęła się analiza danych pochodzących z sondaży (zwłaszcza internetowych) i związana z nią metodologia, a głównie klastering i dekompozycja populacji.


Następna sekcja - Prace cytowane

IdN1