W ostatnich dniach IBM udostępnił nową, 17. już wersję
flagowego produktu z rodziny SPSS – IBM SPSS
Modeler. Nowości dodane w bieżącej wersji wydają się być konsekwencją
znaczących zmian wprowadzonych 15 miesięcy temu.
Zmianą, która jest najbardziej
widoczna po uruchomieniu programu są nowe węzły umożliwiające
wczytywanie podanych m.in. w formacie ESRI danych geoprzestrzennych,
modyfikację tych danych, a także budowanie modeli predykcyjnych i wizualizacji
na ich podstawie.
Zmianą, która jest najbardziej widoczna po uruchomieniu programu są nowe węzły umożliwiające wczytywanie podanych m.in. w formacie ESRI danych geoprzestrzennych, modyfikację tych danych, a także budowanie modeli predykcyjnych i wizualizacji na ich podstawie.
Wraz ze stworzeniem nowych węzłów
stworzone zostały także nowe funkcje, zwane przestrzennymi. Przykład takiej
funkcji stanowi funkcja close_to, która sprawdza, czy dwa
obiekty mieszczą się w określonej odległości od siebie. Funkcja ta wydaje się
bardzo przydatna przy warunkowym łączeniu zbiorów danych, gdzie jednym z
warunków łączenia może być określony dystans między zdarzeniami (np. promień
100 metrów).
Dzięki wprowadzonym zmianom użytkownicy
będą mieli możliwość budowania modeli przewidujących nie tylko skalę zjawiska,
ale także miejsce i czas jego wystąpienia. Oczywistym jest, iż naturalnymi beneficjentami
wprowadzonych funkcji są klienci chcący analizować procesy logistyczne, a także
klienci z branży handlowej, którzy mogą przykładowo rozbudować istniejące
modele segmentacji punktów sprzedaży o nowe dane - dane geoprzestrzenne.
W związku z omawianymi zmianami na
myśl przychodzi mi krótki filmik ukazujący wykorzystanie narzędzi IBM SPSS
przez policje w Memphis:
Innymi ciekawym zastosowaniem
opisywanych funkcjonalności wydaje się analiza awarii w sieciach energetycznych
i wodociągowych oraz analiza rozprzestrzeniania się korków w mieście lub
powodzi.
W wersji siedemnastej programu IBM SPSS Modeler rozbudowana została nie
tylko możliwość analizy danych geoprzestrzenych, ale także analiz BIG DATA. Zgodnie z oczekiwaniami, w
obecnej wersji możliwa jest budowa i scoring większej liczby modeli po stronie
źródła danych, w tym modeli służących do przeprowadzania analizy sekwencji (koszykowej) oraz analizy skupień. Odbiorcami tych zmian są w pierszej kolejności
portale i sklepy internetowe trzymające dane na platformie Hadoop, które będą mogły
tworzyć mechanizmy rekomendacji treści i produktów bez konieczności przesyłania
i próbkowania danych między źródłem a serwerem obliczeniowym. Przyczyni się to
z pewnością do skrócenia czasu i zwiększenia dokładności przeprowadzanej
analizy.
Dodatkowo, modele analizy skupień
budowane w oparciu o BIG DATA zostały
rozbudowane o możliwość wykrywania skupień rzadkich, zwanych też anomaliami. Jest
to przestroga m.in. dla osób trudniących się wyłudzeniami nienależnych
świadczeń z tytułu ubezpieczeń AC. Od teraz modele służące identyfikacji
nadużyć będą mogły być wzbogacone o szereg danych dostepnych ‘w sieci’, co
wpłynie znacząco na wzrost ich trafności.
Należy również dodać, że oprócz wspieranych w
wersji 16 źródeł danych, tj.: IBM InfoSphere BigInsights, Cloudera,
Hortonworks, MapR, Apache, narzędzie wpiera dodatkowo Apache Cassandra,
MongoDB oraz Oracle NoSQL.
Na koniec warto też wspomnieć, że
SPSS Modeler 17 wspiera R w wersji 3.1. Dzięki temu użytkownicy dostają
możliwość wykorzystania najnowszych bibliotek R w ramach przepływów danych
SPSS, a także, dzięki kreatorowi Niestandardowych
okien dialogowych dla R, definiowania oraz współdzielenia wezłów
wykorzystujących owe biblioteki.
Należy również dodać, że oprócz wspieranych w wersji 16 źródeł danych, tj.: IBM InfoSphere BigInsights, Cloudera, Hortonworks, MapR, Apache, narzędzie wpiera dodatkowo Apache Cassandra, MongoDB oraz Oracle NoSQL.
Czekam z niecierpliwością na kolejne wpisy..
OdpowiedzUsuńŻyczę cierpliwości i odpowiedniej determinacji w prowadzeniu tego bloga.
OdpowiedzUsuńBardzo ciekawie napisane. Super wpis. Pozdrawiam serdecznie.
OdpowiedzUsuń