Skip to content

Dane wejściowe

Mateusz Żółtak edited this page Oct 16, 2018 · 1 revision

Dane wejściowe

MLAKdane korzysta z następujących źródeł danych:

  • Zbiory ZUS - zbiory danych dostarczane przez ZUS:
    • ZDAU - zbiór absolwentów (dostarczony do ZUS z OPI i poddany anonimizacji PESEL-i);
    • ZDU1 - zbiór ubezpieczonych;
    • ZDU2 - zbiór z informacjami o miejscu zamieszkania ubezpieczonych;
    • ZDU3 - zbiór składek;
    • ZDU4 - zbiór płatników składek.
  • Zbiory pomocnicze - przygotowywane (w znany tylko im sposób) przez Mikołaja Jasińskiego i Marka Bożykowskiego:
    • Zbiór z wartościami wskaźników GUS (bezrobocie i średnie wynagrodzenie w sektorze przedsiębiorstw) w poszczególnych miesiącach na poziomie pojedynczych kodów pocztowych oraz mapujący kody pocztowe na kody TERYT powiatów.
    • Zbiór mapujący kody składek ZUS na interesujące w badaniu ELA zdarzenia (np. bycie bezrobotnym, praca na etacie, itp.).
    • Zbiór mapujący kody TERYT na nazwy gminy, powiatów i województw.
    • Czasem także inne, dostarczające specyficznych informacji kontekstowych niezbędnych do wyliczenia specyficznych wskaźników (np. mapowania kodów PKD płatników składek na przyjęte w analizach grupy zawodów).
  • Zbiory OPI - dostarczane przez OPI zbiory opisujące uczelnie, jednostki oraz kierunki.

Organizacja danych wejściowych

  • Zbiory pomocnicze dołaczane są do repozytorium git pakietu MLAKdane (umieszczane są w katalogu dane)
  • Zbiory ZUS - jako pliki ZDAU.csv, ZDU1.csv, ZDU2.csv, ZDU3.csv, ZDU4.csv w dowolnie wybranym katalogu (funkcje pakietu MLAKdane, które je wczytują przyjmują ścieżkę do katalogu jako parametr).
  • Zbiory OPI - jako pliki UCZELNIE.xlsx, JEDNOSTKI.xlsx, KIERUNKI.xlsx w dowolnie wybranym katalogu (funkcje pakietu MLAKdane, które je wczytują przyjmują ścieżkę do katalogu jako parametr)

Poziom agregacji zbiorów danych wejściowych

Do roku 2018 (włącznie) zbiory ZUS generowane były oddzielnie dla każdego rocznika absolwentów (co wynikało z faktu, że OPI generowała oddzielny zbiór ZDAU dla każdego rocznika absolwentów), a ich złączenie wykonywany było przez pakiet MLAKdane. Od roku 2019 planowane jest generowanie tylko jednego zestawu zbiorów ZUS opisującego wszystkich absolwentów objętych badaniem ELA.

Zbiory pomocnicze mają stały poziom agregacji, przy czym w kolejnych latach uzupełniane są o nowe dane (wskaźniki GUS za nowe okresy, nowe kody tytułu składek ZUS, itd.).

Poziom agregacji zbiorów OPI jak do tej pory w każdym roku badania ulegał zmianom.

Stabilnośc formatów danych

  • Zbiory ZUS - skrajnie stabilny - zakres danych regulowany ustawą.
  • Zbiory pomocnicze - stabilny.
  • Zbiory OPI - niestabilny.