20.05.2019

Co kryją dane? kilka słów o Big Data

ZOBACZ WIĘCEJ

Zarządzanie

Ceetrus z nową strukturą organizacyjną

W Polsce, Rumunii, Rosji i na Ukrainie zarządza obecnie Tatian Diaconu. Za działalność operacyjną odpowiada Ada Walentek. Laurence Paquet kończy współpracę z polskim oddziałem na rzecz międzynarodowych struktur.

Sodexo HUB – nowa inicjatywa networkingowa

Sodexo uruchomiło projekt Sodexo HUB - spotkania dla liderów biznesowych,sprzyjające wymianie wiedzy i budowaniu kontaktów. Pierwsze spotkanie zrealizowane w końcu maja było dedykowane zarządzającym hotelami i dotyczyło tematyki FM.

Co kryją dane? kilka słów o Big Data

Wszystkie otaczające nas zjawiska mierzymy, analizujemy, wizualizujemy. W tej walce od wielu lat wspomagają nas komputery. Uzbrojeni w narzędzia sztucznej inteligencji wkraczamy w świat Przemysłu 4.0.

Savills zarządcą centrum handlowego w Pabianicach

Firma doradcza Savills została wybrana na zarządcę centrum handlowo-rozrywkowego Tkalnia w Pabianicach. Projekt, którego otwarcie zaplanowane jest na koniec drugiego kwartału 2019 r. powstaje w wyniku rewitalizacji starej fabryki włókienniczej.

Wszystkie otaczające nas zjawiska mierzymy, analizujemy, wizualizujemy. W tej walce od wielu lat wspomagają nas komputery. Uzbrojeni w narzędzia sztucznej inteligencji wkraczamy w świat Przemysłu 4.0.

Autor: Krzysztof Bielas, analityk danych, APA Group

 

Dane, wszędzie dane!

Powiew wiatru, promienie słoneczne, praca robota, kursy na giełdzie. Gdy je zmierzymy, każde można zamienić w strumień danych. Ale dane same w sobie są bezużyteczne – dopiero zinterpretowane dostarczą nam informacji o prędkościach, natężeniu, liczbie cykli pracy czy wystąpieniu krachu. Czy zawsze zgodnie z prawdą? Analitycy muszą zmierzyć się ze zjawiskami takimi jak mniejsze lub większe braki danych, ich niewłaściwy format, irracjonalne wartości czy jednostki. Bywają one trudne do wykrycia i zazwyczaj stanowią potencjalne uszczuplenie naszej wiedzy. Jakość danych jest absolutnie kluczowa.

Nasze obserwacje łączy jeszcze jedna ważna własność – wszystkie odbywają się w czasie. Czas jest podstawowym parametrem, opisującym związki przyczynowo-skutkowe, przynajmniej w znanej nam części Wszechświata. Na jednej osi czasu możemy wykreślić temperaturę i wilgotność w hali produkcyjnej, tętno serca pracownika czy interwał potrzebny na wykonanie przez niego konkretnej pracy.

Praktycznie jesteśmy w stanie rejestrować współwystępowanie wielu, często pozornie niezwiązanych ze sobą zjawisk. Są tylko dwa problemy: po pierwsze, danych jest dużo. Żadna ludzka percepcja nie jest w stanie wydajnie monitorować tak wielu informacji. Po drugie, samo przyswojenie danych nie stanowi klucza do sukcesu. Dane trzeba zrozumieć.

Lawinowy wzrost

Rozważmy linię produkcyjną, na której pracuje kilka robotów. Załóżmy, że monitorujemy ich parametry elektryczne i dynamiczne oraz parametry otoczenia. Z łatwością naliczymy kilkadziesiąt, jeśli nie kilkaset takich parametrów. Jak często musimy je mierzyć? Przykładowo, pomiar temperatury otoczenia z częstotliwością 1 kHz (czyli 1000 pomiarów w każdej sekundzie) brzmi absurdalnie; taka sama częstotliwość zastosowana do pomiaru natężenia prądu może już mieć swoje uzasadnienie. Częstotliwość pomiaru powinna być więc dostosowana do charakteru mierzonego procesu. Na potrzeby szacowania załóżmy jednak po prostu rejestrację w odstępach sekundowych. Po jednym dniu musimy liczyć się już z gigabajtami danych – tylko dla kilku urządzeń! Jeżeli chcemy przeprowadzać analizę strumieniowo, i to dla danych różnego typu (od grafiki, np. z kamer fabrycznych, po dane dźwiękowe), to jesteśmy o krok od pojęcia Big Data, które definiuje się z grubsza przez tzw. 3V (Volume, Velocity, Variety). Będziemy potrzebowali komputera.

Od komputera do dziecka i z powrotem

Zdolności arytmetyczne komputerów od dawna przewyższają wielokrotnie możliwości przeciętnego człowieka. Mnożenie dużych liczb, optymalizacja numeryczna, a nawet rachunki symboliczne to dziedziny, w których komputer nie ma sobie równych. Z drugiej strony, zadania trywialne dla rocznego dziecka, takie jak rozpoznawanie twarzy czy wyczuwanie nastroju bliskiej osoby, okazują się trudne do wykonania przez maszynę. Stanowi to ilustrację tzw. Paradoksu Moraveca i zazwyczaj tłumaczy się ewolucyjną genezą ludzkości.

Wróćmy do naszych danych. Na pierwszy rzut oka znamy dobrze dziedzinę, która opisuje oraz pomaga w zrozumieniu prawidłowości zachowań większych zbiorów elementów – to statystyka. Dzięki niej szacujemy np. średnie zachmurzenie oraz jego potencjalną korelację z napięciem na ogniwach fotowoltaicznych. Uzbrojeni w rachunek prawdopodobieństwa możemy pokusić się np. o prognozowanie zużycia energii elektrycznej w następnym miesiącu. Ale jak przekazać komputerowi, co jest typowym zachowaniem robota, a co anomalią w jego pracy? Który dzienny profil mocy przedsiębiorstwa jest typowy, a któremu należy się przyjrzeć bliżej? Które dane wskazują na kradzież energii elektrycznej? Metody czysto statystyczne mogą okazać się tu niewystarczające. W sukurs przychodzą nam narzędzia sztucznej inteligencji, takie jak drążenie danych (data mining) i uczenie maszynowe (machine learning).

Obserwuj i ucz się

Najogólniej mówiąc, uczenie maszynowe to zbiór metod programowania, w których reguły postępowania nie są zapisane explicite, ale są weryfikowane i modyfikowane przez program poprzez konfrontację z rezultatami. Pozorny paradoks dotyczący możliwości komputera i dziecka nie pojawił się tu przez przypadek – to właśnie uczenie maszynowe, a w szczególności sztuczne sieci neuronowe, dokonały przełomu w rozwiązywaniu problemów trudnych do zdefiniowania wprost (notabene sieci neuronowe są projektowane nie inaczej, jak poprzez naśladowanie pracy neuronów w mózgu).

Metody uczenia maszynowego możemy podzielić z grubsza na dwie klasy: uczenie nadzorowane oraz nienadzorowane. Podczas gdy to pierwsze polega na posiadaniu wstępnej wiedzy (takiej jak przykłady) oraz nauczeniu modelu danego wzorca, to drugie jest w wielu przypadkach tożsame z drążeniem danych, czyli z wyławianiem wymiernych informacji i wzorców, np. poprzez klasyfikację (grupowanie) danych, bez uprzedniej wiedzy o ich strukturze.

Techniki te są wręcz stworzone do wyszukiwania anomalii, typowania podejrzanych działań, jak również do optymalizacji procesów czy predykcji.

Skuteczność algorytmów uczenia maszynowego polega m.in. na nieustannym i niejako automatycznym korygowaniu wewnętrznych parametrów, tak aby zminimalizować potencjalny błąd modelu.

Klasycznym przykładem może być tzw. predictive maintenance, gdzie korzystając z bogatego zbioru danych, model jest w stanie nauczyć się, jakie okoliczności prowadzą nieuchronnie do awarii urządzenia (częstokroć nie ma dobrego teoretycznego opisu, czego maszyna tak naprawdę się uczy). Pozwala to nie tylko uelastycznić harmonogram prac konserwacyjnych, ale również ograniczyć liczbę przestojów produkcji. Prawdziwa eksplozja zastosowań tego typu technik w obszarze Internetu Rzeczy (IoT – Internet of Things) stanowi wręcz modelową realizację pojęcia Przemysłu 4.0.

Świetlana przyszłość?

Znaczenie zaawansowanych narzędzi eksploracji danych trudno dziś przecenić. Zapewniają one usprawnienie procesów produkcyjnych, optymalizację zużycia zasobów, dostarczają wiedzę o korelacjach między zdarzeniami i źródłach awarii – wiedzę, k tórej próżno byłoby szukać poprzez naoczną obserwację i analizę. Umiejętność drążenia danych i wyciągania z nich wniosków stanowi też fundament przełomów – tych obecnych i przyszłych – których jesteśmy i niewątpliwie będziemy świadkami w niedalekiej przyszłości. Autonomiczne pojazdy, zastosowanie dronów, telemedycyna – to tylko przykłady tego typu rewolucji. Uczenie maszynowe wkracza też śmiało w obszar nauk przyrodniczych, takich jak astrofizyka, co świadczy przede wszystkim o jego uniwersalności. Obraz byłby z pewnością niekompletny, gdybyśmy do tej beczki miodu nie dodali choćby łyżki dziegciu. Apetyt na dane będzie mieć teoretycznie każda władza, tym większy, im bardziej będzie ona zbiurokratyzowana. W 2015 r. naukowcy z Cambridge University wykazali, jak analiza zachowań na profilu społecznościowym przybliża profil psychologiczny badanej osoby. Okazało się, że wiedza o 10, 70, 150 i 300 polubieniach dostarcza nam obraz dokładniejszy, niż posiadają odpowiednio: współpracownik, kolega, rodzeństwo, małżonek tej osoby. Co powstrzyma rząd przed wykorzystaniem tego typu informacji np. do represjonowania niewygodnej opozycji? Wszystko to stawia pod dużym znakiem zapytania ochronę prywatności jednostki i bez wątpienia doprowadzi do przedefiniowania pojęcia „dane osobowe”. Tekst wypada zakończyć parafrazą znanego cytatu: „Kto ma dane i umie je interpretować, ten ma władzę absolutną”.