Postgres - krótka analiza danych dot. zajęć dodatkowych

Przyglądam się danym opublikowanym przez Ministerstwo Edukacji dotyczącym liczby dzieci biorących udział w zajęciach pozalekcyjnych.
Źródło danych
Potrzebuję prawdziwe dane do ćwiczeń. Spróbuję zrobić jakąś mini-analizę dostępnych publicznie informacji.
Przeglądam dane na dane.gov.pl i znajduję taki zasób: Liczba uczestników różnych form zajęć pozaszkolnych według form zajęć, rodzaju zajęć (stałe lub okresowe) i według gmin - dane za rok szkolny 2018/2019
Nie są może one najświeższe, ale zobaczmy, co można z nich wyczytać…
Import danych
Sprawdziłam, jakie kolumny zawiera plik csv:
|
|
i utworzyłam nową tabelę zajecia
:
|
|
Zaimportowałam do niej dane korzystając z funkcji copy
(z opcjami csv header
informującymi o formacie oraz występowaniu nagłówka w pierwszym wierszu pliku):
|
|
Sprwdziłam, czy zgadza się liczba zaimportowanych wierszy:
|
|
|
|
Zgadza się; plik csv ma dodatkowy wiersz z nagłówkiem, więc liczba wierszy w pliku jest o 1 większa od liczby rekordów w bazie.
Typy zajęć
Jakie są w ogóle typy zajęć? Sprawdzam prostym zapytaniem:
|
|
|
|
Liczba uczniów przypadająca na typ zajęć
Sprwdzę, ilu uczniów uczęszcza na każde z tych rodzajów zajęć (i obliczę procent):
|
|
Ha! Prawie 47% uczniów uczęszcza na zajęcia artystyczne; 1,5% to zajęcia informatyczne bądź techniczne.
Gdzie największy odsetek na informatycznych?
Innymi słowy: w której części Polski udało się zaangażować relatywnie najwięcej młodzieży w zajęcia informatyczne?
Spróbuję najpierw policzyć procentowy udział uczniów w każdym z typów zajęć w każdym z województw.
|
|

A teraz - zamiast porządkowania po województwie – dodam warunek wybierający tylko jeden interesujący mnie rodzaj zajęć: informatyczne. Uporządkuję malejąco po punktach procentowych, aby zobaczyć, gdzie jest największy odsetek uczniów:
|
|

Wniosek: Największy odsetek uczniów wybierających zajęcia informatyczne jest w woj. podlaskim. To ponad 14%.
A liczbowo?
Po uporządkowaniu po liczbie uczestników widać, że np. w województwie dolnośląskim jest jedynie 509 uczniów uczęszczających na zajęcia informatyczne. Najwięcej to województwa śląskie, mazowieckie, i - zaskoczenie - właśnie podlaskie. Ciekawe. Możliwe, że rok szkolny 2018/2019 był rokiem realizacji jakiegoś programu unijnego?
Szybki research
Rzeczywiście. W latach 2014-2020 był wielki transfer (prawie milion złotych) na Podlasie w ramach programu unijnego “Cyfrowe Podlaskie” mającego podnosić kompetencje cyfrowe osób powyżej 18 r.ż. Oto moja robocza hipoteza: z tego programu skorzystali nauczyciele, którzy później - nabywszy “kompetencji cyfrowych” - prowadzili zajęcia szkolne/pozaszkolne dla mlodzieży. Niestety, nie mam zasobów do zbadania tej sprawy głębiej. Wydaje mi się też, że na stronie dane.gov.pl nie ma danych dotyczących wcześniejszych lat, których możnaby użyć do porównania (albo nie mogę ich łatwo znaleźć)
Wnioski
Oczywiście, powyższa “analiza” nie jest zbyt głęboka ani też szczególnie poważna; to takie takie zapiski na kolanie na szybko. Niewątpliwie jednak suche liczby nabierają kolorów, kiedy się im przyjrzy z bliska.
Myślę, że SQL powinien być obowiązkowy na studiach dziennikarskich; może wtedy komentarze prasowe miałyby więcej pokrycia w danych, a nie tylko w zasłyszanych wypowiedziach polityków czy w ich strumieniu tweetów.
Ten wpis jest częścią serii sql.
- 2021-04-11 - Postgres - daty
- 2021-16-10 - Postgres - krótka analiza danych dot. zajęć dodatkowych
- 2021-04-10 - Postgres - JSON
- 2021-04-10 - Postgres - ćwiczenia
- 2021-30-09 - Postgres - instalacja