Opis studiów podyplomowych Big Data na PM

O studiach podyplomowych Big Data

Wraz z nadejściem ery Big Data jednym z najistotniejszych wyzwań dla świata biznesu, zwłaszcza dla sektora IT, stało się stworzenie narzędzi do przetwarzania dużej ilości danych w czasie rzeczywistym. Wśród analityków i innych osób zajmujących się dużymi zbiorami danych ukształtował się popyt na nowe kompetencje zawodowe, tak aby sprostać wymaganiom firm i dynamicznie zmieniającym się potrzebom ich klientów. >Studia podyplomowe Big Data dają możliwość uaktualnienia wiedzy z zakresu analizy strumieni danych, uczenia maszynowego, sztucznej inteligencji, ułatwią nabycie nowych kompetencji w obrębie funkcjonowania inteligentnych systemów informatycznych. Dla kogo? Studia podyplomowe są odpowiedzią na zapotrzebowanie na specjalistów z zakresu inżynierii dużych zbiorów danych, analityków danych/biznesowych oraz potrzeby wykorzystania metod eksploracji zbiorów do podejmowania decyzji w przedsiębiorstwach. Przeznaczone są dla osób zajmujących się przetwarzaniem danych i statystyką w przedsiębiorstwach sektora prywatnego i publicznego, informatyków realizujących projekty związane z przetwarzaniem i analizą danych, jak również dla osób kierujących w firmach działami z dziedzin marketingu, finansów, produkcji, informatyki, zarządzania. Uczestnictwo umożliwi również dostosowanie swoich umiejętności zawodowych do poszukiwanego obecnie na rynku zawodu inżyniera dużych zbiorów danych oraz analityka danych. Praktyczny program z użyciem narzędzi wykorzystywanych na rynku daje sposobność absolwentowi realizacji praktycznych zadań i projektów z zakresu analizy danych oraz podejmowania decyzji na bazie wyników przetwarzania danych.

Co zyskujesz?

• praktyczną wiedzę dotyczącą realizacji zadań dotyczących przetwarzania dużych zbiorów danych oraz podejmowania decyzji na bazie wyników przetwarzania,
• umiejętność posługiwania się narzędziami do przetwarzania dużych zbiorów danych,
• wizualizację uzyskanych wyników z wykorzystaniem różnych rodzajów wykresów, diagramów i dashboard-ów,
• umiejętność budowy oraz oceny modeli predykcyjnych dla danych,
• wiedza z zakresy praktycznego funkcjonowania, budowania oraz wykorzystywania hurtowni danych,
• uzyskanie wiedzy do wykonywania poszukiwanego na rynku Analityka danych/biznesowego oraz Inżyniera dużych zbiorów danych.

Jakie technologie poznasz?

Język programowania Python
Nierelacyjne systemy zarządzania bazami danych np. MongoDB
Matlab
Wybrane metody Business Intelligence
Deep Learning
i wiele innych

Opis przedmiotów:

Inżynieria dużych zbiorów danych
Przedmiot ma na celu zapoznanie uczestnika z definicją dużego zbioru danych (Big Data). Przedstawione zostaną techniki przetwarzania i analizy dużych zbiorów danych. Omówione zostaną również techniki uczenia maszynowego, w tym Deep Learning (uczenie głębokie). Poruszona zostanie również tematyka dekompozycji dużych zbiorów danych np. algorytm MapReduce.

Użycie języków w przetwarzaniu dużych zbiorów danych
Przedmiot będzie wprowadzał do programowania w języku Python i/lub R w zakresie przetwarzania dużych zbiorów danych z nastawieniem na specjalizowane biblioteki przeznaczone dla tego celu. Przedmiot będzie prowadzony w większości jako projekt realizujący różne typowe schematy w przetwarzaniu danych od przygotowania danych, przetwarzania, tworzenia modeli predykcyjnych oraz grupowania. W trakcie realizacji zadań słuchacz będzie nakierowywany na zastosowanie określonych schematów, ale w taki sposób, aby widział on potrzebę ich realizacji, w tym aby sam widział potrzebę zastosowania wybranych instrukcji programistycznych zanim te zostaną mu przedstawione. Inteligentne systemy obliczeniowe:
Przedmiot stanowi wprowadzenie w zagadnienia inteligencji obliczeniowej (computational intelligence CI), której celem jest rozwiązywanie zagadnień efektywnie niealgorytmizowalnych przy pomocy obliczeń. Częścią inteligencji obliczeniowej jest sztuczna inteligencja (artifficial intellligence AI), korzystająca z metod i narzędzi modelowania wiedzy. Uczestnik pozna wybrane metody i narzędzia inteligencji obliczeniowej, m.in. sztuczne sieci neuronowe, algorytmy genetyczne i ewolucyjne, metody wnioskowania rozmytego, metody uczenia maszynowego oraz ich zastosowania.

Metody eksploracji danych oraz praktyczna eksploracja danych
Celem przedmiotu jest zapoznanie się z zagadnieniami eksploracji danych oraz metodami związanych z zagadnieniami ekstrakcji wiedzy, takich jak klasyfikacja, reguły asocjacyjne, klasteryzacja. W trakcie kursu słuchacz pozna wykorzystanie narzędzi informatycznych takich jak MatLab, Data Mining Designer do analizy danych m.in. redukcji wymiaru danych oraz użycia metod uczenia maszynowego. Kursantowi przedstawiony zostanie klasyfikator Bayesa oraz zastosowania sztucznych sieci neuronowych do klasyfikacji i predykcji. Słuchacz kursu pozna również praktyczne zastosowanie algorytmu genetycznego do znajdowania rozwiązań zbliżonych do optymalnych.

Zostanie również zaprezentowane wykorzystanie algorytmów uczenia maszynowego takich jak algorytm drzew decyzyjnych, maszyna wektorów wspierających SVM, algorytmy asocjacyjne, algorytmu grupujące, wzorce sekwencyjne, wzorce w szeregach czasowych do rozwiązania występujących w praktyce problemów np. analiza ryzyka kredytowego klientów, analiza ryzyka odejścia klienta od dostawcy, analiza koszyka zakupów klientów, analiza dotycząca profilowania treści dla użytkowników stron. Realizacja z wykorzystaniem narzędzi MS m.in. SQL Server Integration Services, Data Mining Designer, Data Mining Wizard, SQL Server Managment Studio, jak również pakietu MatLab.

Nierelacyjne bazy danych i narzędzia inżynierii danych:
Przedmiot ma na celu wprowadzenie do ważnych w praktyce narzędzi inżynierii danych. Przedstawione zostaną również metody przechowywania wielkich zbiorów danych oraz wykorzystywane w praktyce metody Business Intelligence. Zostaną przedstawione zagadnienia dotyczące gromadzenia i przetwarzania z dużych zbiorów danych z wykorzystaniem bazy danych MongoDB. Obsługa modelu danych w bazie oraz jego obsługa przez dedykowany język zapytań, realizacja przykładów nierelacyjnych systemów baz danych z użyciem MongoDB.

Przetwarzanie rozproszonych danych z użyciem Apache Hadoop oraz Apache Spark. Przetwarzanie rozproszonych danych z wykorzystaniem algorytmu MapReduce. Obsługa i użycie rozproszonego systemu plików Hadoop Distributed File System (HDFS). Wykorzystanie narzędzia Apache Spark w tym języka SQL do zadań raportowania oraz bibliotek do uczenia maszynowego np. tworzenie statystyk, klasyfikacji, grupowania oraz ekstrakcji cech i redukcji wymiarów.

Hurtownie danych
Celem jest praktyczne zapoznanie się z tworzeniem hurtowni danych oraz związanymi z tym zagadnieniami takimi jak: proces ETL integracji, czyszczenia i ładowania do hurtowni danych, tworzenie wielowymiarowych struktur danych OLAP oraz struktur ROLAP, tworzenie hurtowni tematycznych (data marts) za pomocą operacji agregacji, propagacji oraz aktualizacji. Analizy zgromadzonych danych wielowymiarowych - SQL dla OLAP, operacje zwijania (roll-up), rozwijania (roll-down), selekcji (slicing), filtrowania (screening, selection filtering), zawężania (scoping), obracania (pivot, rotate) w praktycznych rozwiązaniach np. analiza sprzedaży produktów oraz ich kategorii dla klientów w określonych grupach wiekowych. Tworzenie widoków (perspektyw) dla określonego obszaru dla kostek wielowymiarowych, tworzenie KPI (Key Performance Indicators) czyli najważniejszych wskaźników z punktu widzenia biznesu. Realizacja z wykorzystaniem narzędzi MS m.in. SQL Server Managment Studio.

Metody wizualizacji dużych zbiorów danych
Przedmiot ma na celu wprowadzenie do statystyki dużych zbiorów danych, omówienie wielorodnych wykresów statystyk dużych zbiorów danych z wykorzystaniem narzędzi takich jak MS Excel, Statistica, MS Power BI, jak również dedykowanych bibliotek języka Python. Student pozna metody opracowywania infografik dużych zbiorów danych. Zagadnienia będą obejmowały również najważniejsze praktyki związane z wizualizacją danych dla biznesu. Wykorzystane zostaną narzędzia MS Power BI oraz biblioteki języka Python takie jak matplotlib, ploty, dash.

Zaprezentowane zostaną sposoby wizualizacji za pomocą różnych rodzajów diagramów, interaktywnych raportów, umiejscowieniem wyników wg położenia geograficznego oraz reprezentowania wyników w postaci tzw. dashboard-ów dla zebranych zbiorów danych, które będą umożliwiać wizualizację z dużym nasyceniem informacji łączących wiele aspektów danych na ekranie, jak również umożliwiających interakcję z użytkownikiem.

Systemy informacyjne
Przedmiot ma na celu zapoznanie uczestnika z definicją systemu informacyjnego jako elementu systemu informatycznego. Poruszane zagadnienia obejmują m.in. systemy informacyjne kierowania, systemy ekspertowe, systemy informacji przestrzennej oraz systemy wspomagania decyzji. Uzyskana wiedza pozwoli na praktyczne zrozumienie problemów przetwarzania i przechowywania informacji, która zostanie wykorzystana przez system informatyczny.

Projekt dyplomowy
Celem przedmiotu jest zastosowanie pozyskanej wiedzy w ciągu przebiegu studium do rzeczywistego problemu analizy dużego zbioru danych. Uczestnik ma na celu samodzielnie opracować system informatyczny zgodnie z wymogami określonymi przez prowadzącego.

Autor: Mariusz Dramski

Data publikacji: 22 Lip 2025

Ustawienia dostępności

Wydział Informatyki i Telekomunikacji Politechniki Morskiej w Szczecinie

Studia podyplomowe Big Data Opis studiów podyplomowych

O studiach podyplomowych Big Data

Co zyskujesz?

Jakie technologie poznasz?

Opis przedmiotów: