We współczesnym świecie dane stanowią klucz do sukcesu w biznesie. Fakt, iż informacja i wiedza są niezwykle cenne, nie jest niczym nowym, nowością obecnie jest natomiast skala danych, dynamika ich zmian, a także sposoby ich analizowania oraz wykorzystania.
Wraz z rozwojem nowoczesnych technologii rośnie ilość dostępnych danych. Pojawiają się możliwości czerpania ich z coraz większej liczby źródeł, przechowywania, integracji, a przede wszystkim badania. Skutkiem wzrostu znaczenia zaawansowanej analityki danych i wyciągania z nich wniosków jest rosnące zapotrzebowanie na specjalistów w tej dziedzinie. Data Science to jeden z obszarów, w których w najbliższej przyszłości spodziewany jest najwyższy wzrost zatrudnienia. Według szacunków firmy doradczej PwC do 2020 roku popyt na specjalistów w tym zakresie wzrośnie o 2,7 mln miejsc pracy na całym świecie.
Data Science to interdyscyplinarna nauka, łącząca w sobie narzędzia analityczne, statystyczne, z zakresu ekonomii i nowoczesnych rozwiązań komputerowych. Obejmuje również bardzo popularny obecnie obszar sztucznej inteligencji.
– Wszystkie te nazwy – artificial inteligence czy machine learning – to tak naprawdę to samo, czyli Data Science – mówi Kamil Kosiński, menedżer w zespole Data Analytics PwC. Wszędzie kluczowe jest przetwarzanie informacji, które pozwala na efektywną analizę i reagowanie na zmiany. Kolejnym obszarem, w który wkracza Data Science i który jeszcze poszerzy pole jej działania, jest internet rzeczy (ang. Internet of Things).
Zaawansowana analityka i sztuczna inteligencja kojarzą się dziś przede wszystkim z autonomicznymi pojazdami, automatyzacją pracy czy rozpoznawaniem obrazów, na przykład w medycynie. Jednocześnie w biznesie oferują zupełnie nowe, dogłębne spojrzenie na klienta, marketing, logistykę, sprzedaż czy ryzyko. Przykładem zastosowania w praktyce tych rozwiązań jest powstały w Data Analytics PwC projekt MatchBeta, którego celem jest ułatwienie młodym ludziom wejścia na rynek pracy i połączenie ich z pracodawcami dzięki wykorzystaniu mechanizmów sztucznej inteligencji.
Ponieważ, jak mówi Joanna Kowal, konsultantka w zespole Data Analytics PwC, Data Science ma potencjał przeobrażenia każdej dziedziny życia, różnorodność i pole rozwoju wydaje się tu nieograniczone. Potrzebni są tylko specjaliści, którzy z coraz lepszych i coraz szybszych procesów analitycznych będą umieli wyczytać sens. Kim jest zatem Data Scientist?
Kim jest Data Scientist?
Specjalista Data Science to przede wszystkim osoba, która kompleksowo podchodzi do analizowanego zagadnienia: od zrozumienia go poprzez przygotowanie i przetworzenie danych do zbudowania modelu, zwizualizowania go i stworzenia rekomendacji na podstawie wyniku analizy. Skupianie się na jednym elemencie, na przykład analizie czy modelowaniu, to zbyt mało, by stać się Data Scientist. To właśnie dlatego specjaliści w tym zakresie nazywani są „mistrzami danych”.
– Istotnym aspektem jest multidyscyplinarność, bowiem Data Scientist może zastosować swoje umiejętności, czyli analizę danych, ich interpretację i wyciąganie wniosków, w rozmaitych dziedzinach – mówi Kamil Kosiński. Jego zespół Data Analytics w PwC realizuje projekty konsultingowe z obszaru Data Science w tak różnorodnych branżach jak: usługi finansowe (ang. financial services), telekomunikacja, sieci sprzedażowe, logistyka (ang. supply chain), przemysł. W tych branżach realizujemy między innymi projekty z zakresu: geolokalizacji, analizy kosztowe i silniki rekomendacyjne, symulacyjne optymalizacje sieci logistycznej, rozwój aplikacji IT czy wczesne wykrywanie awarii np. maszyn produkcyjnych (ang. predictive maintenance).
Ścieżka kariery
W zespole zajmującym się analizą danych dla konsultingu oprócz „mistrzów danych” pracują programiści implementujący pomysły wywodzące się z części Data Science, specjaliści od kontaktu z klientami, zajmujący się przygotowaniem wizualizacji i user experience, a także osoby specjalizujące się w różnych gałęziach biznesu.
Eksperci podpowiadają, że karierę w kierunku Data Science najlepiej rozpocząć od praktyk.
– W ten sposób zaczynali najlepsi pracownicy w naszym dziale. Wyróżniający się praktykanci są szybko zauważani, zostają u nas i szybko awansują – mówi Kamil Kosiński.
Aby rozwijać się dalej, najlepiej zdobywać doświadczenie, uczestnicząc w realizacji kolejnych projektów, co pozwala zyskiwać coraz większą znajomość zagadnień oraz narzędzi. Dzięki temu zyskuje się holistyczne spojrzenie na projekty, umiejętność nakreślania ich kierunku i zarządzania zespołem, a wówczas można przejść na stanowisko menedżerskie.
W firmie z wielkiej czwórki (Big4) etapy kariery są określone. Pierwszym jest stanowisko konsultanta, z którego można awansować na starszego konsultanta, następnie menedżera, starszego menedżera, a później dyrektora i wreszcie partnera.
– Jeśli ktoś wykonuje swoją pracę zgodnie z założeniami, które są jasno sformułowane, to w naturalny sposób przechodzi na kolejne etapy. Pozwala to zaplanować swoją ścieżkę kariery – dodaje Kamil Kosiński.
Obok ścieżki menedżerskiej od niedawna w Data Analytics PwC funkcjonuje również droga ekspercka, przeznaczona dla tych, którzy chcą poświęcić się zdobywaniu i stałemu poszerzaniu wiedzy w danym zakresie, ale nie są zainteresowani obowiązkami związanymi z zarządzaniem zespołem czy kontaktem z klientami.
Poszukiwane umiejętności
Zawód ten to hybryda twardych umiejętności technicznych z kompetencjami interpersonalnymi.
Ze względu na konieczność opracowywania danych i posługiwania się zaawansowanymi narzędziami technicznymi, potrzebne jest wykształcenie ścisłe: matematyka, informatyka, fizyka. Rozmaitość ról i specjalizacji w zespole Data Analytics sprawia, że znajdzie w nim miejsce również na przykład absolwent ekonomii, który zna zastosowanie Data Science i potrafi przekazywać otrzymywane przez zespół wyniki klientowi.
Warto zwrócić uwagę na umiejętności techniczne, programistyczne oraz pracy z bazami danych, które są kluczowe na samym początku. Podczas rekrutacji sprawdzane są predyspozycje i potencjał kandydata.
– Pierwszym etapem są testy wewnętrzne, sprawdzające aktualne umiejętności i wiedzę w zakresie machine learning, przetwarzania danych w SQL (ang. Structured Query Language), umiejętność kodowania w takich językach jak R czy Python – opisuje Kamil Kosiński. – Następnie wybrani kandydaci zapraszani są na assessment center. Rozpoczyna się ono od szkolenia, podczas którego prezentowany jest sposób rozwiązywania danego problemu, po czym uczestnicy mierzą się z takim zagadnieniem w praktyce starając się zaprogramować rozwiązanie problemu, które sami wymyślili. Na koniec następuje ocena i wyjaśnienie zadania.
Mile widziane jest praktyczne doświadczenie. Jak je zdobyć?
– Warto w praktyce sprawdzać zastosowanie różnych technik, algorytmów, metod, których nauczyliśmy się na studiach – uważa Joanna Kowal.
Oprócz twardych umiejętności technicznych liczą się również predyspozycje umysłowe i kompetencje miękkie. Ważna jest zdolność dostrzegania nieoczywistych powiązań, spostrzegawczość, otwartość myślenia i dociekliwość. Cechy te pozwalają odkrywać wśród danych kluczowe zmienne, decydujące o przydatności modelu i sukcesie projektu.
Data Scientist powinien mieć wysoko rozwinięte umiejętności komunikacyjne, by umieć przedstawić wyniki przeprowadzonej analizy danych w zrozumiały sposób.
– Warto umieć prowadzić dialog – dodaje Joanna Kowal – ponieważ w ramach wielu projektów wychodzimy poza nasz zespół i współpracujemy z innymi działami w firmie.
Ważna jest też praca zespołowa, zdolność znajdowania wspólnego języka z innymi.
– Specyfika pracy w Data Science, której obszar jest bardzo szeroki, sprawia, że nie da się być ekspertem w każdym aspekcie. Chodzi o to, by każdy był dobry w swojej dziedzinie i żeby z tej układanki powstał zespół, który wykona projekt od A do Z – tłumaczy ekspertka.
PwC
Kamil Kosiński, Menedżer, Data Science, w PwC od 3 lat
Wykształcenie: doktorat z Matematyki Stosowanej (Technische Universiteit Eindhoven), magister matematyki (Uniwersytet Warszawski) i Financial Mathematics (Universiteit van Amsterdam), licencjat z Informatyki (Uniwersytet Warszawski)
Największe plusy mojej pracy: Multidyscyplinarność. Praca z ludźmi z wielu branż czy poziomów kontaktu z klientem. Praktyczne rozwiązywanie problemów. Możliwość wpływania na kształt zespołu poprzez dobieranie szkoleń, wpływ na rekrutację, inwestycje w infrastrukturę i skupienie się na konkretnych technologiach.
Jaka będzie przyszłość mojej branży? Myślę, że w krótkim czasie specjaliści z zakresu Data Science będą równie dobrze wynagradzani i poszukiwani na rynku jak programiści czy developerzy. Coraz więcej firm będzie zatrudniać kilka osób z tej dziedziny, by móc monetyzować zbierane i przechowywane dane. W krótkim czasie pojawi się coraz więcej ciekawych Use Case’ów i praktycznych sposobów wykorzystania Data Science w biznesie.
Ukończyłam: Metody Ilościowe w Ekonomii i Systemy Informacyjne, Szkoła Główna Handlowa
Największe plusy mojej pracy: Współpraca z inspirującymi, a jednocześnie wymagającymi osobami. Realizacja ciekawych i innowacyjnych projektów zmieniających „zasady gry” dla różnorodnych branży. Świadomość, że realizowane projekty mają mierzalny wpływ na działania klientów – dane nigdy nie kłamią i w danych nic się nie ukryje.
Jaka będzie przyszłość mojej branży? Wzrastająca świadomość klientów dotycząca wykorzystania potencjału ukrytego w danych sprawia, że decyzje strategiczne i operacyjne będą podejmowane w oparciu o holistyczny obraz całej firmy, dzięki natychmiastowemu łączeniu i przetwarzaniu danych z różnych źródeł, także tych nieustrukturyzowanych i dotychczas niewykorzystywanych.
Wyzwania przyszłości w świecie danych
Zapraszamy do przeczytania rozmowy z ekspertami PwC o tym, czego można dowiedzieć się dzięki analizie danych, dlaczego przetwarzanie informacji to przyszłość i jakie są korzyści z ciągłego uczenia się.
Kim jest Data Scientist?
Kamil Kosiński: Myślę, że jest to osoba, która po pierwsze lubi pracować z danymi, a po drugie jest zainteresowana nowymi technologiami, z którymi zajęcie to ściśle się wiąże. Istotnym aspektem jest multidyscyplinarność, bowiem Data Scientist może zastosować swoje umiejętności, czyli analizę danych, ich interpretację i wyciąganie wniosków, w rozmaitych dziedzinach.
Joanna Kowal: Jako Data Scientists wypracowujemy podejście do problemu, stosując określone metody i techniki. Później podobne podejście można analogicznie użyć w innej sytuacji, a kluczem jest dostrzeganie powiązań.
Jakie zadania stoją przed specjalistą w tej dziedzinie?
Kamil: Pierwszym i najważniejszym zadaniem jest zrozumienie problemu i stworzenie koncepcji kompleksowego podejścia do danego zagadnienia. Następnie trzeba sprawdzić, czy dane, którymi dysponujemy, odzwierciedlają nasze założenia.
Joanna: Jest to etap wstępnej analizy; na jej podstawie formułujemy hipotezy, które później chcemy sprawdzać, by dogłębnie poznać temat.
Kamil: Kolejna rzecz to przetwarzanie i analizowanie danych. Wiele aspektów modelowania i uzyskiwanych wyników jest ściśle technicznych, zawierają pojęcia matematyczne, miary i wartości, które następnie przy pomocy wizualizacji prezentujemy klientowi w taki sposób, by mógł je nie tylko zrozumieć, lecz także dostrzec w nich wartość dodaną. Dlatego stosujemy formę interaktywnego dashboardu, dzięki któremu klient może zobaczyć, jak analiza tworzy się na żywo.
Joanna: Można również zobaczyć, co wpływa na osiągane wyniki, jak zmienią się one po modyfikacji danego parametru. Na podstawie uzyskanych wyników formułujemy rekomendacje.
Z czym Data Scientist ma do czynienia na co dzień w swojej pracy?
Joanna: Wielkim plusem pracy w Data Analytics, Data Science w konsultingu jest różnorodność projektów. Nie jesteśmy ograniczeni do jednej branży, każdego dnia uczymy się czegoś nowego, z innej dziedziny.
Kamil: Nasz zespół realizuje projekty w zakresie bankowości, optymalizacji sieci sprzedażowych oraz logistycznych (supply chain), mechanizmu ustalania cen (pricing), geolokalizacji.
Czym się zajmujemy? Na przykład w bankowości możemy stworzyć model, który będzie przewidywał odejścia klientów, potrafimy przeprowadzić ich segmentację behawioralną, czyli podzielić klientów na klastry pod względem ich preferencji, dzięki czemu będą mogli otrzymywać najlepiej dobrane do ich potrzeb oferty.
Z jakich źródeł pochodzą dane, którymi się Państwo posługują, i jakich narzędzi używają Państwo przy ich analizie?
Joanna: Nasze dane najczęściej pochodzą od klienta, uzupełniamy je też jednak o dane zewnętrzne, takie jak dane statystyczne, np. z GUS, dane geolokalizacyjne. Są to informacje zarówno bezpłatne, np. wiele instytucji publicznych dzieli się informacjami, które są dostępne dla wszystkich, jak i komercyjne, pochodzące np. od Google’a. Staramy się też tworzyć wewnętrzy data mart, w którym gromadzimy wszelkiego rodzaju dane zewnętrzne, tak by były łatwo dostępne w jednym miejscu na potrzeby różnych projektów.
Kamil: W praktyce wygląda to następująco: proponujemy, z jakich danych klienta chcielibyśmy skorzystać, klient przekazuje nam je w formie plików tekstowych bądź dostępu do własnych baz danych (oczywiście z zastosowaniem reguł ochrony danych i poufności). Jeśli możemy, pracujemy na własnych maszynach, jeśli nie, to na infrastrukturze klienta. Korzystamy z baz danych MySQL, używamy także technologii przetwarzania Big Data – Hadoop. Od tego momentu zaczyna się etap modelowania.
Co jest kluczowe w tej pracy?
Kamil: Niezwykle ważne jest przygotowanie danych i zrozumienie ich, co wiąże się również z wskazaniem atrybutów. Chodzi o zadanie sobie pytania: które informacje, możliwe do uzyskania z surowych danych, są istotne? W przypadku projektu bankowego mogą być to średnie zarobki czy średnie przepływy, a także wysokość ostatniego przelewu lub największy przelew zewnętrzny w ostatnim miesiącu. Jeśli przelew ten jest równy pensji, może to oznaczać, że klient traktuje dane konto jako przejściowe, a bank nie jest dla niego bankiem pierwszego wyboru. Dzięki zadaniu odpowiedniego pytania i wydobyciu informacji pochodnych uzyskujemy zmienne do modelowania.
Joanna: Ta pierwsza faza naszej pracy jest najbardziej czasochłonna i ma największy wpływ na osiągane przez nas wyniki, bo jeśli nie określimy tej zmiennej, niemożliwe będzie znalezienie jej w danych na dalszym etapie. Skutkiem tego modele będą niepełne i nie będą działały w pożądany sposób. Czyni to ten pierwszy etap kluczowym.
Dlaczego jest to zawód przyszłości?
Joanna: Danych na świecie i wokół nas jest coraz więcej, a dzięki możliwościom ustrukturyzowania i badania danych, które kiedyś były dla nas nieosiągalne, potrafimy z nich korzystać. Rośnie też zapotrzebowanie na osoby, które potrafią kompleksowo opracowywać dane, analizować je i budować modele na ich podstawie.
Jest też coraz więcej pracy w tym obszarze, bo coraz więcej firm uświadamia sobie, jak dużą wartość dodaną niesie ze sobą taka analityka.
Dodatkowo, fakt, że świat się zmienia, a wraz z nim konsumenci, ich przyzwyczajenia i postrzeganie rzeczywistości, sprawia, iż wiedza ekspercka z danej dziedziny się dezaktualizuje. Z nowych danych, dzięki pojawiającym możliwościom potrafimy wyciągać nieznane wcześniej wnioski i być może przeformułować sposób, w jaki prowadziliśmy biznes.
Wiąże się z tym również konieczność sprawdzania i rekalibrowania modeli. Musimy pamiętać, że coś, co jest dobre dzisiaj, może być dobre przez kilka następnych miesięcy czy nawet lat, ale po dłuższym czasie modele czy algorytmy mogą przestać być relewantne.
Kamil: Dlaczego to jest zawód przyszłości? Stoi za tym ludzka chęć otrzymywania najświeższych informacji i korzystania z nich. Dziś wiąże się to z analizowaniem pewnej puli informacji w efektywny sposób. Nowoczesne technologie, takie jak sztuczna inteligencja, machine learning oraz implementowanie coraz większej ilości algorytmów, czynią to coraz prostszym. Postęp technologiczny i rosnące możliwości maszyn, na których pracujemy, sprawiają, że wszystko dzieje się szybciej.
Zastosowania Data Science widzimy na każdym kroku, choćby pod postacią rekomendacji restauracji w okolicy czy produktów podczas zakupów w internecie. Podstawą tego jest przetwarzanie informacji.
Joanna: Oprócz tego jest to wykorzystywane w medycynie czy autonomicznych pojazdach. Wymieniliśmy tu tylko te zastosowania, które obecnie są już testowane, a tak naprawdę Data Science można wykorzystać w każdym aspekcie życia. Wydaje mi się więc, że w przyszłości diametralnie zmieni ona życie każdego z nas.
Jakie są wyzwania w obszarze Data Science w najbliższym czasie?
Kamil: Myślę, że wyzwaniem dla nas będzie wielkość danych, które cały czas rosną. Potrzeba coraz efektywniejszych sposobów ich przetwarzania, co wymaga od nas uczenia się nowych technologii. Są one stale rozwijane, co sprawia, że wciąż występuje dużo niewiadomych.
Kolejną kwestią jest zmienność tych technologii. Na przykład jeśli rok temu poznałem technologię Spark w wersji 1.6, dziś aktualna jest wersja 2.1, w której nastąpiło dużo zmian. Oznacza to, że jeśli nie jest się cały czas na bieżąco, to wiedza i umiejętności bardzo szybko stają się przestarzałe. Konieczność ich stałego aktualizowania uważam jednak za rzecz pozytywną. Dzięki temu jesteśmy ciągle młodzi, bo przecież ludzie, którzy niczego się już nie uczą, starzeją się.
Czy mogą Państwo opowiedzieć o zespole Data Analytics w PwC? Jak jest liczny, jakie są w nim specjalizacje i jak się rozwija?
Joanna: Nasz zespół rozwija się bardzo dynamicznie: jeszcze trzy lata temu były w nim trzy osoby, w tej chwili jest około 60. Rośniemy więc bardzo szybko, tak jak rośnie zapotrzebowanie na tego typu usługi.
Kamil: Duża część naszego zespołu to deweloperzy – programiści zajmujący się implementacją aplikacji, której pomysł wywodzi się z części Data Science. Są w nim również specjaliści w zakresie tworzenia wizualizacji i UX designerzy, a także eksperci dziedzinowi, czyli osoby, które nie muszą mieć silnych podstaw matematycznych, ale rozumieją, czym jest Data Science i co można dzięki temu osiągnąć, a z drugiej strony są ekspertami w jakiejś dziedzinie, np. bankowości.
Jaką radę daliby Państwo młodemu człowiekowi, który chciałby rozpocząć karierę w Data Science?
Joanna: Z pewnością warto zdobywać doświadczenie, sprawdzać w praktyce wiedzę zdobywaną na studiach. Można brać udział w konkursach, na przykład na platformie Kaggle, korzystać z różnego rodzaju kursów e-learningowych dostępnych w internecie. Trzeba pamiętać, że nie jest to nauka czysto teoretyczna, więc im więcej danych zastosuje się w praktyce, tym lepiej.
Dobrym pomysłem są też praktyki, szkolenia organizowane przez firmy, a także programy mentoringowe, takie jak Data Talent Lab PwC. Jego głównym celem jest pokazanie młodym ludziom, czym jest Data Science, Data Analytics, i pozwolenie im na zapoznanie się z ich praktyczną stroną.
Kamil: Zapoznanie się z kursami świadczy o motywacji do poznawania dziedziny, chęci nauki, co stanowi dobry prognostyk. My sami korzystamy z tych kursów i w ten sposób się doszkalamy. Oprócz konkursów, o których wspominała Joanna, warto zainteresować się też meet-up’ami Data Science. Spotkania takie dużo dają, między innymi dlatego, że są związane z networkingiem.