Trzy lata temu Harvard Business Review określił profesję analityka big data mianem "najseksowniejszego zawodu XXI wieku". To stwierdzenie w czasach coraz bardziej entuzjastycznego podejścia do zarządzania informacją nie powinno nikogo dziwić. Zawód analityka zyskuje na znaczeniu praktycznie z każdą minutą, kiedy na świecie przybywa coraz więcej danych, które nie tylko warto posiadać, ale również trzeba nimi odpowiednio zarządzać.
Mimo że obszar data science (termin zestawiany często ze specjalistami z obszaru big data) to świat liczb, stoją za nimi ludzie z wysoce wyspecjalizowanymi kompetencjami. Każdego dnia wyszukiwarka Google przetwarza ponad 24 petabajty danych, w ciągu minuty wrzucamy 100 godzin materiału wideo na YouTube, a na Facebooku co godzinę przesyłanych jest blisko 10 milionów fotografii. Produkujemy zatem niebotyczną ilość danych, w których coraz trudniej się odnaleźć, dlatego analityka staje się dla wielu organizacji naturalnym filarem ich działania.
Trudno jednakże o jedną oficjalną i uniwersalną definicję big data. Literatura przedmiotu najczęściej wspomina o czterech V, które opisują najistotniejsze cechy zbioru „wielkich danych”, a są nimi: volume (ogromna ilość), variety (wielka różnorodność), velocity (zawrotna szybkość pojawiania się i konieczności analizowania w czasie rzeczywistym) oraz value (znacząca wartość). Zazwyczaj big data kojarzy się z informacjami, które każdy z nas zostawia w internecie, ale tak naprawdę to również zbiory danych, którymi dysponują banki, ubezpieczyciele, służba zdrowia czy sklepy.
– Data Scientist wykorzystuje wszystkie dane, do których dotrze, zazwyczaj z kilku niezależnych od siebie źródeł. Dane internetowe wymagają pewnych (niestety dość rzadko spotykanych w Polsce) umiejętności technicznych, aby odpowiednio je przetworzyć. Przykładowo niewiele banków w Polsce analizuje akcje logowania klientów z serwisów online, jednocześnie starając się wywnioskować, kim może być użytkownik. Jestem jednak przekonany, że w ciągu roku bądź dwóch lat ten trend się zmieni – wyjaśnia Łukasz Dziekan, Starszy Manager w PwC.
Profil i zakres obowiązków
Firma doradcza McKinsey & Company oszacowała, że w ciągu kilku najbliższych lat obszar data science będzie potrzebował co najmniej. 1,5 mln specjalistów. Dlatego działy zarządzania danymi są najszybciej rozwijającymi się departamentami niemal już we wszystkich dużych firmach. Zespoły data management są pełne świetnych informatyków i fizyków, którzy opracowują algorytmy do obróbki trudnych do zliczenia informacji. Coraz częściej spotyka się ich również w firmach doradczych, które zaczynają świadczyć usługi z obszaru analityki danych klientom z wielu branż. Dlatego warto rozważyć karierę w konsultingu. – W naszym zespole karierę rozpoczyna się od stanowiska Data Cruncher, który powinien zarówno lubić pracę zespołową, jak i posiadać wiedzę na temat efektywnego przetwarzania danych. Następnie można awansować na stanowisko Junior Data Scientist, by po 2 latach zostać Data Scientist. Ścieżka kariery obejmuje również takie stopnie specjalistyczne, jak m.in. Data Software Developer czy Data Software Architect, oraz stanowiska managerskie – dodaje Łukasz Dziekan.
Perspektywy rozwoju
Nowa profesja dotyczy wielu obszarów wiedzy, w tym m.in. ekonomii, matematyki i statystyki. Do tego istotna jest również znajomość takich języków, jak SQL, Python, R, c#/F# czy Scala. Ale ścisła, oparta na zbiorach danych wiedza to nie wszystko, co ma znaczenie w tym zawodzie.
– Data Scientist posiada wysokie umiejętności techniczne w takich obszarach, jak przetwarzanie równoległe, bazy relacyjne i nierelacyjne, umiejętność czyszczenia danych, doskonałą znajomość algorytmów statystycznych i uczenia maszynowego, a także umiejętność szybkiego uczenia się. Analitycy z reguły rozwiązują problem po raz pierwszy i muszą zrozumieć na początku, czego tak naprawdę szukają lub czego pragną klienci jego organizacji – wyjaśnia Łukasz Dziekan. Poza tymi kompetencjami, podobnie jak w przypadku innych zawodów analitycznych, coraz większego znaczenia nabierają umiejętności komunikacyjne przydatne przy prezentacji najważniejszych wniosków swojej pracy. Warto podkreślić, że Data Scientist to nie zwykły analityk po matematyce czy socjologii. Ten zawód posiada profil stricte interdyscyplinarny. Analityk potrafi nie tylko zestawić dane, ale spojrzeć na nie z całkiem innej perspektywy. Dlatego to praca dla ludzi ciekawych świata, a wręcz ciekawskich.
– W amerykańskim modelu Data Scientist sam wyciąga wnioski, a następnie przedstawia je liderom w działach marketingu, HR czy sprzedaży. W Polsce cały czas utrzymuje się przekonanie, że specjaliści big data to panowie od „pisania selectów”. Takie podejście znacząco spłyca możliwe do osiągnięcia rezultaty dzięki rozwiązaniom z tego obszaru. Dlatego najlepszy model opiera się na współpracy zespołu biznesowego razem z analitykami big data, którzy muszą znać zarówno przedmiot, jak i cel swoich analiz – podsumowuje Łukasz Dziekan.
Starszy Manager, PwC
W PwC od: 2012 r.
Ukończyłem: Informatykę Stosowaną na Politechnice Warszawskiej
Z sektorem finansowym jestem związany od: 2007 r.
Posiadam: PRM
Specjalizuję się w: ryzyku kredytowym, CRM, kanałach elektronicznych
Karierę zaczynałem jako: Starszy Analityk w Dział Hurtowni Danych
Lubię swoją pracę, ponieważ: rozwiązuję problemy, które do tej pory były uznawane za zbyt trudne
Poza pracą: Magic. The Gathering, ekonomia behawioralna
Czy analityk big data oraz analityk data mining to analogiczne stanowiska? Jakie są podobieństwa i różnice? Czy różnica zależy od struktury, którą posiada organizacja?
Granica między tymi stanowiskami jest płynna. Z reguły jednak analityk big data, mimo że rozwiązuje podobne problemy, korzysta z zupełnie innych narzędzi. Taki specjalista powinien mieć również bardziej rozwinięte umiejętności programistyczne ze względu na dostępny stan narzędzi na rynku. Różnica polega także na rodzaju i liczbie danych używanych do rozwiązywania problemów. Jeżeli mamy do czynienia z wolumenami idącymi w setki milionów rekordów, przetwarzaniem równoległym i klastrowym pobieraniem danych ze źródeł otwartych, pracą z danymi strumieniowymi lub nieustrukturyzowanymi, to bardziej prawdopodobne, że mamy do czynienia z big data. W przypadku data mining mówimy natomiast o zwyczajnym korzystaniu z klasycznych algorytmów opierających się na zbiorach wielkości kilkuset tysięcy lub kilku milionów obserwacji.
Jakie są powiązania pomiędzy pracą analityka big data oraz analityka/specjalisty business intelligence bądź master data? Czy wszystkie te zawody można wrzucić do "pojęciowego worka" data science?
Podstawowa różnica pomiędzy Data Scientist a specjalistą z zakresu business intelligence dotyczy możliwości dokonywania analizy predyktywnej lub preskryptywnej. Tymczasem tradycyjny model business intelligence zakłada raportowanie stanu obecnego lub przeszłego. Data Scientist, mając szerszy zakres umiejętności, potrafi strukturyzować dane, a także pracować w ramach relacyjnych i nierelacyjnych struktur. Jednak najtrudniejsza umiejętność polega na łączeniu zjawisk występujących w biznesie z dostępnymi danymi i zachowaniami klientów. Na podstawie tych korelacji należy nauczyć się wyciągać wnioski, a na ich podstawie tworzyć modele ulepszające biznes.
Podam przykład: nie jest łatwo przewidzieć, kiedy klient zdecyduje się zrezygnować z usług swojego banku. Natomiast wykorzystując dostępne dane możemy na ich podstawie wysnuć hipotezę, że klient miał już trzy kredyty, a w okolicy oddziału, w którym wziął kredyt, są jeszcze dwa inne banki, które prowadzą obecnie agresywną promocję i mogą skusić naszego klienta. Data Scientist, kojarząc owe dane, wie, że klient o takim profilu bardzo często konsoliduje zobowiązania i odchodzi. Po takiej analizie powinien przedstawić wnioski dotyczące działania takiego kredytu, procesu jego sprzedaży i obsługi.
Czy analitycy big data analizują dane, które wyłącznie pozostawiamy w internecie? Co jest właściwie przedmiotem zainteresowania analityków big data?
Data Scientist wykorzystują wszystkie dane, do których dotrze, zazwyczaj z kilku niezależnych od siebie źródeł. Dane internetowe wymagają po prostu pewnych (niestety dość rzadko spotykanych w Polsce) umiejętności technicznych, aby odpowiednio je przetworzyć. Obserwując rynek bardzo niewiele banków w Polsce analizuje akcje logowania klientów z serwisów online, jednocześnie starając się wywnioskować, kim może być użytkownik. Jestem jednak przekonany, że w ciągu roku bądź dwóch lat ten trend się zmieni. Jako analitycy bardzo często sprawdzamy te dane i przekazujemy bankom informacje, z jakich odwiedzanych stron klient trafił na domenę banku.
Rynek pracy w najbliższych latach zdominuje statystyka. Czy analitycy big data zajmują ważne miejsce w tym procesie transformacji? Czy rola analityków big data rośnie w ramach organizacji?
Rynek zdominują przede wszystkim algorytmy machine learning, które w ramach ustalonych reguł będą same uczyły się na podstawie przychodzących w niemal rzeczywistym czasie danych, a modele będą zmieniały się z dnia na dzień lub częściej. Czy big data odegra ważną rolę w tym wszystkim? To zależy. Jeżeli top management uwierzy, że powinien oddać nieco ze swej kontroli algorytmom, aby to one ustalały kierunki działania, jak np. optymalne alokacje do kampanii, wyznaczanie cen (automatycznie reagujących na promocje konkurencji), i dzięki temu zobaczy większy zysk – to tak. Fundusze inwestycyjne działają w takim reżimie już od jakiegoś czasu, bo inaczej zostałyby wyparte z rynku przez szybsze i lepsze algorytmy. Natomiast banki chronione są przed takimi szybkimi zmianami w wyniku regulacji prawnych.
Do czego są wykorzystywane dane przeanalizowane przez specjalistów big data? Kto – w ramach organizacji – zajmuje się interpretacją tych analiz?
W amerykańskim modelu Data Scientist sam wyciąga wnioski, a następnie przedstawia je liderom w działach marketingu, HR czy sprzedaży. W Polsce cały czas utrzymuje się przekonanie, że specjaliści big data to panowie od „pisania selectów”. Takie podejście znacząco spłyca możliwe do osiągnięcia rezultaty dzięki rozwiązaniom z tego obszaru. Dlatego najlepszy model opiera się na współpracy zespołu biznesowego razem z analitykami big data, którzy muszą znać zarówno przedmiot, jak i cel swoich analiz.
Czy big data stworzy społeczeństwo wielkiego brata, gdzie każdy z nas będzie obserwowany, a jego oczekiwania, pragnienia i przeszłość analizowane?
Wydaje mi się, że mylimy ewidencję z inwigilacją. Z inwigilacją mamy do czynienia, kiedy użytkownik o tym nie wie, a jej wyniki wykorzystywane są przeciwko niemu. Dla nas dane mają być wykorzystywane wyłącznie do doskonalenia biznesu i osiągania przewagi konkurencyjnej, a nie działania na szkodę klientów.
Jakie kompetencje powinien posiadać analityk big data? Czy analitykami w tym obszarze zostają głównie informatycy?
Mówi się, że Data Scientis jest „jednorożcem”, czyli posiada wysokie umiejętności techniczne w takich obszarach, jak przetwarzanie równoległe, bazy relacyjne i nierelacyjne, umiejętność czyszczenia danych, doskonała znajomość algorytmów statystycznych i uczenia maszynowego, a także umiejętność szybkiego uczenia się. Analitycy z reguły rozwiązują problem po raz pierwszy i muszą zrozumieć na początku, czego tak naprawdę szukają lub czego pragną klienci jego organizacji. Analitykami big data są nie tylko informatycy. Znam w tej branży kilku fantastycznych fizyków, matematyków czy ekonomistów. W naszym zawodzie liczy się przede wszystkim otwarty umysł. Kończąc studia nie miałem większości tych umiejętności, a jednak podczas pracy w Polsce oraz Stanach Zjednoczonych nabyłem potrzebne kompetencje.
Z jakich narzędzi korzysta analityk w swojej codziennej pracy?
Nadal najważniejszy jest SQL, ale w formie zaawansowanej (tzw. rozproszony SQL). Ponadto, należy korzystać przynajmniej z jednego języka programowania, np. Python, R, c#/F#, scala. Głównie w celu rozproszenia obliczeń. Dodatkowo, kluczowe jest używanie narzędzi wizualizacyjnych, tak by nie pokazywać równań, a wykresy. To jedna z ważniejszych umiejętności – potrafić opowiadać historie na podstawie suchych danych.
Czy w ramach firm konsultingowych analitycy big data dokonują analiz danych dostarczanych przez klienta czy ich praca wykorzystywana jest również wewnątrz firmy konsultingowej, np. w analizie trendów rynkowych lub tworzeniu raportów branżowych, które są później publikowane na rynku?
Tak wysoko wykwalifikowany zespół głównie musi generować przychody i wykonuje prace na rzecz klientów. Zdarza się jednak, że poświęcamy swój czas na raporty wewnętrzne. Mój zespół tworzy bardzo bogatą wewnętrzną bazę danych z różnych, często niepowiązanych źródeł. Znajdują się w niej dane geolokalizacyjne na temat wszystkich sklepów, banków, punktów zainteresowań, dróg, dane o markach, dane z tzw. głębokiego internetu. Efekty naszych prac wykorzystujemy później w projektach, które mają na celu zapewnienie przewagi na konkurencyjnym rynku.
Z jakich źródeł pozyskują dane analitycy?
Pracujemy najczęściej na trzech rodzajach zbiorów: danych klienta, danych zakupionych i źródeł zewnętrznych. W tej kwestii PwC wyróżnia się swoim podejściem, bowiem pozyskujemy zbiory danych pozornie niezwiązanych z problemem, co paradoksalnie często skutkuje interesującymi wnioskami. Ostatnio na przykład odkryliśmy dzięki tremu, że odejście klienta z banku związane było z odejściem pracownika w oddziale.
Jak może wyglądać ścieżka kariery analityka big data?
W naszym zespole karierę rozpoczyna się od stanowiska Data Cruncher, który powinien zarówno lubić pracę zespołową, jak i posiadać wiedzę na temat efektywnego przetwarzania danych. Następnie awansuje się na stanowisko Junior Data Scientist, by po 2 lata zostać pełnoprawnym Data Scientist. Ścieżka kariery obejmuje również takie stopnie specjalistyczne, jak m.in. Data Software Developer czy Data Software Architect, oraz menedżerskie.
Czy – aby zachować konkurencyjność – analiza big data to konieczność w strategiach każdego przedsiębiorstwa, bez względu na jego wielkość i obszar działalności?
Mój mentor w Nowym Jorku powiedział kiedyś – Każda firma stanie się firmą technologiczną albo zostanie przez nią przejęta. To oczywiście duże uproszczenie, ale mówi wiele o współczesnych nam czasach. Świat zmienia się coraz szybciej, a klienci wymagają większej atencji i personalizacji. Informacja to obecnie największa wartość, a szybkość wdrażania nowych strategii będzie kluczowa w świecie biznesu. Dlatego wydaje mi się, że wszystkie firmy, począwszy od graczy średniej wielkości po duże korporacje, powinny zacząć bardzo bacznie przyglądać się analityce. Niekoniecznie mam tutaj na myśli big data. Dla większości firm wystarczającym minimum jest smart data, czyli kontrola nad danymi wewnątrz organizacji.
Dlaczego praca na tym stanowisku jest fascynująca?
Praca w obszarze data scientist łączy dwa światy – świat biznesu z jego strategicznymi wyzwaniami oraz świat nowych, ciągle się rozwijających technologii. Często dochodzimy do fascynujących wniosków, o których pracownicy nie wiedzieli, mimo że mieli z nimi do czynienia w swojej codziennej pracy. Po prostu nie zauważyli innego rozwiązania. I dlatego tak uwielbiam swoją pracę.
Starszy Konsultant, PwC
W PwC od: 2011 r.
Absolwent: Uniwersytet Warszawski
Kierunek studiów: Informatyka i Ekonometria
Planuję uzyskać: sporo doświadczenia w pracy projektowej i licencję pilota
Najbardziej lubię w mojej pracy: różnorodność zagadnień, których celem jest odpowiedź na ciekawe pytania
Wartości, które wyznaje moja organizacja, to…: różnorodność, innowacyjność, kompleksowość, przywództwo, wyznaczanie trendów
Czy zawód analityka big data to jeden z najbardziej przyszłościowych zawodów?
Data Scientist, w wielu organizacjach traktowany jako analityk big data, to zawód ceniony od kilku lat. I ten trend się utrzyma. Dostępna ilość danych (podstawowy materiał i „paliwo” w pracy analityka big data) rośnie w bardzo szybkim tempie, więc popyt na jego usługi będzie tylko wzrastać.
Czy wybór PwC jako pracodawcy był Twoim świadomym wyborem?
Praca efektywnego Data Scientist czy analityka big data wymaga spojrzenia na problem z nowej perspektywy, aby rozwiązanie stanowiło także efekt myślenia innowacyjnego czy też rewolucyjnego. Praca w PwC właśnie na to pozwala. Zebrane doświadczenie poprzez udział w projektach analitycznych dla firm z różnych branż, a przez to poznawanie nowych technik analitycznych i nowych źródeł danych, które można dołączać do już istniejących, to zdecydowana przewaga PwC.
Jakie są cechy dobrego analityka big data?
Spróbuję się odwołać do cech idealnego Data Scientist. Ważne jest doskonałe posługiwanie się warsztatem statystycznym oraz kreatywne podejście do zbioru danych. Za trudne do przecenienia uznaje się również umiejętności współpracy, bowiem pracę analityka dopełniania wsparcie całego zespołu. Sam warsztat techniczny natomiast ma również bardzo duże znaczenie. W zależności od skali działania mówimy tutaj o R i Pythonie, SQL/Hive/Pig jako podstawach w przetwarzaniu danych. Na koniec dochodzą umiejętności programowania. Znajomość Java, C# czy F# pomoże wytrawnemu analitykowi w rozwiązaniu wielu problemów, od tak prozaicznych jak napisanie własnego programu zaczytującego potrzebne do analiz dane z internetu, do możliwości samodzielnego zbudowania profesjonalnego narzędzia dla odbiorcy końcowego.
Jak doskonalisz swoje kompetencje?
Najwięcej można nauczyć się pracując z prawdziwymi danymi i rozwiązując realne problemy. Wiele problemów próbujemy też rozwiązywać w ramach sesji brainstormingowych, czyli w trakcie burzy mózgów. Do tego, wielokrotnie mamy możliwość przetestowania najnowszych rozwiązań technologicznych i odbycia właściwych szkoleń, aby nauczyć się z nich korzystać.
Czy chcesz związać się z obszarem analiz na dłużej?
Zdecydowanie. To nie tylko zawód przyszłości. Ta profesja jednocześnie jest niesamowicie ciekawa i pozwala na dokonywanie codziennie przełomowych dla biznesu odkryć.
Z jakimi zbiorami danych masz do czynienia?
Zbiory danych, na których pracuję, cechują się dużą różnorodnością. To sedno pracy analityka big data. W jednym projekcie korzystamy z wielu źródeł, obejmujących różne zachowania ludzkie – zakupy w sklepie, prowadzenie samochodu i frustrację za kierownicą bądź wygoda wyrażona bliskością przystanku autobusowego od sklepu, w którym robię zakupy.