Wraz z pojawieniem się nowych możliwości, które rozpowszechniły kocepcję obliczeń rozproszonych, koszt związany z gromadzeniem danych znacznie się zmniejszył. Wielu przedsiębiorców zaczęło przechowywać dane, które nie były dotychczas wykorzystywane produkcyjnie, z nadzieją, iż drzemiący w nich potencjał pozwoli im w przyszłości uzyskać przewagę konkurencyjną. W dobie Internet of Things, ilość generowanych danych przez otaczające nas urządzenia jest ogromna. Szybko okazało się, że skoro przechowywanie danych nie wiąże się z dużymi kosztami, jedynym ograniczeniem jest kreatywność analityków.
Analityka w klasycznym wydaniu polega na znalezieniu odpowiedzi na wcześniej postawione i znane już pytania. W świecie Big Data sprawa wygląda nieco inaczej. Wyszukuje się nowych, nieodkrytych dotąd problemów i miejsc, w których można poprawić, usprawnić działalność przedsiębiorstwa, wpłynąć na działalność operacyjną i dzięki temu przyczynić się do poprawy wyniku finansowego. Przedstawione podejście wymaga dokładnego poznania i zrozumienia danych oraz otoczenia gospodarczego.
Jedną z metodologii, która pozwala na ustandaryzowanie procesów związanych z eksploracją i analizą danych jest CRISP-DM (Cross Industry Standard Process for Data Mining). Zakłada on, że każdy projekt z dziedziny analizy danych powinien składać się z następujących faz:
Jedną z metodologii, która pozwala na ustandaryzowanie procesów związanych z eksploracją i analizą danych jest CRISP-DM (Cross Industry Standard Process for Data Mining). Zakłada on, że każdy projekt z dziedziny analizy danych powinien składać się z następujących faz:
- Zrozumienie uwarunkowań biznesowych.
- Zrozumienie danych.
- Przygotowanie danych.
- Modelowanie.
- Ewaluacja.
- Wdrożenie.
Pierwszy punkt pozwala zrozumieć profil, charakter, pozycję rynkową przedsiębiorstwa, jej codzienną działalność i problemy, z którymi się mierzy. Istotne jest również zrozumienie danych, ponieważ to one są źródłem wszelkich informacji. Często jakość danych pozostawia wiele do życzenia, stąd lepsze ich zrozumienie jest niezbędne, by mogły zostać właściwie oczyszczone w następnym kroku. Szacuje się, że przygotowanie danych jest najbardziej czasochłonnym krokiem w procesach analitycznych. Modelowanie i ewaluacja polegają na budowaniu modeli i wybraniu spośród nich tego, o największej zdolności predykcyjnej. Ostatnim krokiem jest produkcyjne wdrożenie, ale cykl życia modelu statystycznego jest znacznie dłuższy, ponieważ w trakcie korzystania z modelu może okazać się, że konieczne będzie dostosowanie jego parametrów w celu polepszenia jego jakości.
[źródło: Shearer, C. (2000) The CRISP-DM Model: The New Blueprint for Data Mining. Journal of Data Warehousing, 5, 13-22.]
Predictive a Preventive Maintenance
Dbanie o jakość i niezawodność świadczonych usług jest w dzisiejszych czasach jednym z najistotniejszych elementów, który pozwala na budowanie dobrego wizerunku w oczach klientów. Dostęp do dużych zbiorów danych pochodzących z sensorów maszyn produkcyjnych umożliwił nieustanne analizowanie stanu urządzeń w celu uniknięcia jakichkolwiek niespodziewanych awarii.
Wiele firm stosuje koncepcję znaną jako preventive maintenance. Polega ona na definiowaniu zużycia sprzętu na podstawie czasu jego amortyzacji. Prace konserwacyjne wykonywane są według określonego harmonogramu, który nie ma w żaden sposób związku z rzeczywistym stanem. Jest on jedynie rekomendacją wydaną na podstawie przeszłych awarii, doświadczeń. Utrzymywanie stanu technicznego infrastruktury według tej metody jest skuteczne, jednak z jedenj strony nie chroni wystarczająco dobrze przed niespodziewanymi awariami, a z drugiej - czasem wymaga przeprowadzania akcji serwisowych wynikających z harmonogramu mimo tego, że są one całkowicie zbędne.
Predictive maintenance jest calkowicie odmienną koncepcją, która bazując na danych pochodzących z sensorów urządzeń oraz modeli statystycznych, bądź algorytmów uczenia maszynowego, jest w stanie w czasie rzeczywistym zweryfikować stan urządzenia i ocenić jakie działania są potrzebne by uniknąć niespodziewanych awarii. Dane historyczne wykorzystywane są w celu odkrycia zależności, które pozwolą przewidzieć wszelkie niepożądane zdarzenia. Powstałe modele statystyczne są następnie implementowane w ramach tzw. silników reguł, które w zależności od założeń biznesowych, mogą działac w trybie real-time, micro-batch (umożliwiając analizę danych w czasie zbliżonym do rzeczywistego) lub w trybie wsadowym. Bardziej dynamiczne rozwiązania pozwalają na automatyczne odświeżanie modeli statystycznych według określonego interwału czasowego i natychmiastowe dostosowywanie parametrów silnika reguł tak, że proces uczenia się i wdrożenia nowonauczonego modelu są w pełni zautomatyzowane.
[źródło: Mobley R. K. (2002) An Introduction to Predictive Maintanance.
Predictive Maintanance w praktyce – przykładowa implementacja Za przykład systemu analizującego zdarzenia infrastruktury, posłuży zaimplementowany w tym roku system CEP (Complex Event Processing) dla jednego z operatorów telekomunikacyjnych oparty o klaster Big Data.
Do jego powstania przyczyniły się nastepujące potrzeby biznesowe:
[źródło: Shearer, C. (2000) The CRISP-DM Model: The New Blueprint for Data Mining. Journal of Data Warehousing, 5, 13-22.]
Predictive a Preventive Maintenance
Dbanie o jakość i niezawodność świadczonych usług jest w dzisiejszych czasach jednym z najistotniejszych elementów, który pozwala na budowanie dobrego wizerunku w oczach klientów. Dostęp do dużych zbiorów danych pochodzących z sensorów maszyn produkcyjnych umożliwił nieustanne analizowanie stanu urządzeń w celu uniknięcia jakichkolwiek niespodziewanych awarii.
Wiele firm stosuje koncepcję znaną jako preventive maintenance. Polega ona na definiowaniu zużycia sprzętu na podstawie czasu jego amortyzacji. Prace konserwacyjne wykonywane są według określonego harmonogramu, który nie ma w żaden sposób związku z rzeczywistym stanem. Jest on jedynie rekomendacją wydaną na podstawie przeszłych awarii, doświadczeń. Utrzymywanie stanu technicznego infrastruktury według tej metody jest skuteczne, jednak z jedenj strony nie chroni wystarczająco dobrze przed niespodziewanymi awariami, a z drugiej - czasem wymaga przeprowadzania akcji serwisowych wynikających z harmonogramu mimo tego, że są one całkowicie zbędne.
Predictive maintenance jest calkowicie odmienną koncepcją, która bazując na danych pochodzących z sensorów urządzeń oraz modeli statystycznych, bądź algorytmów uczenia maszynowego, jest w stanie w czasie rzeczywistym zweryfikować stan urządzenia i ocenić jakie działania są potrzebne by uniknąć niespodziewanych awarii. Dane historyczne wykorzystywane są w celu odkrycia zależności, które pozwolą przewidzieć wszelkie niepożądane zdarzenia. Powstałe modele statystyczne są następnie implementowane w ramach tzw. silników reguł, które w zależności od założeń biznesowych, mogą działac w trybie real-time, micro-batch (umożliwiając analizę danych w czasie zbliżonym do rzeczywistego) lub w trybie wsadowym. Bardziej dynamiczne rozwiązania pozwalają na automatyczne odświeżanie modeli statystycznych według określonego interwału czasowego i natychmiastowe dostosowywanie parametrów silnika reguł tak, że proces uczenia się i wdrożenia nowonauczonego modelu są w pełni zautomatyzowane.
[źródło: Mobley R. K. (2002) An Introduction to Predictive Maintanance.
Predictive Maintanance w praktyce – przykładowa implementacja Za przykład systemu analizującego zdarzenia infrastruktury, posłuży zaimplementowany w tym roku system CEP (Complex Event Processing) dla jednego z operatorów telekomunikacyjnych oparty o klaster Big Data.
Do jego powstania przyczyniły się nastepujące potrzeby biznesowe:
- Poprawa relacji z klientem podczas kontaktu z linią wsparcia.
- Przyśpieszenie procesu wykrywania i naprawy usterek infrastruktury opowiedzialnej za dostarczanie sygnału internetowego oraz telewizyjnego do klientów.
- Od technicznej strony, zostały postawione następujące wymagania:
Stworzenie rozwiązania CEP opartego o silnik reguł (Rules Engine). - Skalowalność rozwiązania ze względu na ilość reguł stosowanych dla każdego nadchodzącego zdażenia infrastruktury.
- Zdolność do przetwarzania danych tak szybko jak są one dostępne (w praktyce przetwarzanie wsadowe (batch) każde 15/60 minut dla ok. 80 Gb danych) .
- Oparcie o rozwiązania open-source dostępne na platformie Cloudera CDH.
Zaimplementowany system CEP został przedstawiony na poniższej grafice:
Rysunek 1
Jego elementy można scharakteryzować następująco:
- Dane z elementów infrastruktury zostają załadowane z klastra HDFS (tabele Hive).
- Po ich walidacji odbywa się faza detekcji interesujących zdarzeń zgodnie z predefiniowanymi regułami biznesowymi.
- Historia analizy zostaje zapisana dla celów dalszego ulepszania i rozwijania reguł biznesowych, natomiast wyniki aktualne są udostępniane dla zainteresowanych systemów zewnętrznych, w tym wypadku systemu należącego do IT Hotline, a w przyszłości również do systemu działu odpowiedzialnego za usuwanie usterek infrastruktury.
- Pracownik IT Hotline po otrzymaniu zgłoszenia w ciągu kilku sekund otrzymuje informację o prawdopodobnej przyczynie usterki, o czym informuje kontaktującego się z nim klienta, po czym przysyła informacje dalej do działu infrastruktury.
Z technicznego punktu widzenia do implementacji zostały użyte następujące elementy zawarte na platformie Cloudera CDH:Hive/Impala, Spark, Solr, Oozie oraz serwis web oparty o Wildfly.
Aktualnie po udanym wdrożeniu na produkcję, następnym planowanym krokiem rozwoju systemu jest udoskonalenie go w taki sposób aby możliwe było proaktywne zgłaszanie miejsc występowania usterek i umożliwienie usunięcia ich zanim nastąpią w praktyce (np. wymiana karty sieciowej). W tym celu statyczne reguły biznesowe (matematyczne) zostana zastąpione przez algorytmy machine learning.
Auatorzy:
Dawid Benski – lat 34, Starszy Architekt działu Insights & Data w firmie Capgemini Software Solutions Center. we Wrocławiu. Posiada 7 lat doświadczenia w projektach bazodanowych i Business Intelligence oraz 3 lata doświadczenia w projektach Big Data.
Michał Dura – lat 25, Inżynier Oprogramowania w dziale Insights & Data w firmie Capgemini Software Solutions Center. we Wrocławiu. Posiada 2 lata doświadczenia w projektach Big Data.