Dane to nie tylko liczby

Ogromna większość informacji składowanych w firmach nie pochodzi z baz danych. Są to raczej dokumenty zawierające tekst, który często jest bardzo istotny. Nie ma jednak najmniejszego sensu składowanie tak dużych ilości tekstu, jeżeli z wiedzy w nim zgromadzonej nie da się korzystać.
 REKLAMA 
 ERP-VIEW.PL- STREAMSOFT 
Business Intelligence wielu kojarzy się jedynie z przetwarzaniem na ogromną skalę różnorodnych liczb. W większości podręczników, prezentacji i przykładów dominują wyniki sprzedaży w podziale na różne segmenty, kraje, sprzedawców, sklepy, regiony i tak dalej. Surowe dane podlegają agregacji pod kątem różnych kryteriów, przeprowadzana jest analiza statystyczna: wyliczenia sum pośrednich i całkowitych, wyliczanie procentowych udziałów w całości, mierzenie średnich, median, odchyleń standardowych, budowanie modelów predykcyjnych z wykorzystaniem liniowej lub wielomianowej regresji. I to wszystko na małą, średnią oraz naprawdę ogromną skalę. Od wielu lat mechanizmy i algorytmy, systemy i rozwiązania są skutecznie rozwijane tak, że już mało kto podważa wiarygodność stwierdzenia, że nie ma podejmowania świadomych i dobrych decyzji bez skutecznej analizy danych. Jednak należałoby zadać sobie pytanie, czy ten matematyczny świat cyfr, liczb i wyliczeń daje właściwy obraz rzeczywistości, czy z całą pewnością możemy stwierdzić, że przy podejmowaniu decyzji wzięliśmy pod uwagę pełen zakres dostępnej dla nas informacji?

Tymczasem z każdą sekundą przybywa informacji w formie elektronicznej. Dokumenty, prezentacje, umowy, raporty, emaile, zdjęcia, czy filmy wprost wylewają się z naszych komputerów. W listopadzie ubiegłego roku odbyło się sympozjum organizowane przez Gartnera dotyczące zarządzania informacją w firmach. W głównym materiale konferencyjnym znalazło się następujące stwierdzenie:
Do roku 2015, organizacje zdolne do zintegrowania wysoce wartościowych, różnorodnych i nowych typów danych w spójnej infrastrukturze zarządzania informacją osiągną o 20% lepszy wynik finansowy od swoich konkurentów w danej branży.
1 Bum. Jest to bardzo mocne stwierdzenie. Nie sposób teraz polemizować z tą treścią, ani wnikać w sposoby wyliczenia takiej wartości. Przyjmijmy więc zatem roboczo, że tak może być, co zresztą intuicyjnie zgadza się z przekonaniem, że bez analizy różnorodnych danych i informacji trudno o podejmowanie dobrych decyzji, bo niby na jakiej podstawie? Przecież ignorując całą treść wytworzoną przez kolegów i koleżanki z firmy i próbując wyważyć dawno otwarte drzwi poprzez robienie wszystkiego samemu, mnoży się koszty i nie osiąga wysokiej jakości pracy. To wszystko, jak kamyczek do kamyczka przekłada się na nieefektywność całej organizacji, która zaczyna się topić w oceanie wytworzonych przez siebie i gromadzonych informacji.

Marzenie o świecie idealnym

Czytając ten wstęp można pomyśleć sobie, że fajnie tak sobie napisać o integracji wysoce wartościowych i nowych typów danych, ale jak to zrobić? Proponuję zatem na początku trochę pomarzyć. Zacznijmy od prostego spostrzeżenia, że z różnorodną treścią w sposób naturalny radzi sobie Internet. Czyż do Facebooka nie da się wrzucić właściwie wszystkiego? Nie ważne czy jest to link do fajnego artykułu, czy zaproszenie na jakieś wydarzenia, czy zdjęcie, filmik czy plik. W sposób naturalny szybko zorientujemy się kto co lubi, czego nie lubi i sami chcący lub niechcący wciągamy się w wir wymiany wysoce wartościowych i nowych typów danych. Dlaczego nie miałoby tak być w przedsiębiorstwie?

Z drugiej strony tak przyzwyczailiśmy się do wyszukiwarki w Internecie, że nie słyszałem, aby ktoś skarżył się, że czegoś nie można tam znaleźć. Nawet, jeżeli istnieje coś takiego, to raczej bylibyśmy skłonni winą za to obarczyć daną stronę internetową, że została nieprofesjonalnie przygotowana, ponieważ wyszukiwarka jej „nie łyka”. Tutaj przypomina mi się historia starszej pani, już po 70-ce, której tłumaczyłem jak do przeglądarki internetowej wprowadzić prosty adres strony, którą była zainteresowana. Kiedy to wytłumaczyłem, nie kryła szczerego zdziwienia, ponieważ do tej pory sądziła, że aby mieć dostęp do jakichkolwiek stron internetowych, to w miejscu adresu należy koniecznie wpisać google.pl.

Zatem, jeżeli w Internecie świat wygląda tak ślicznie i tam świetnie radzimy sobie z różnorodną informacją codziennie wykorzystując ją w naszej pracy, to dlaczego nie miałoby tak być wewnątrz firmy, w świecie za firewallem? Czy nie byłoby lepiej, gdyby istniał tam nie tylko tradycyjny intranet, ale cała galaktyka różnych stron i serwisów z wyszukiwarką na czele?

Brutalna rzeczywistość

Pomimo tego, że mamy już drugą dekadę XXI wieku, to mentalnie wiele firm tkwi jeszcze w poprzednim stuleciu. Portal intranetowy traktowany jest jako nowa forma słupa ogłoszeniowego, planszy na której dział komunikacji wewnętrznej, kadry i zarząd publikuje swoje odezwy do pracowników. Pliki przechowywane są na nieśmiertelnych udziałach sieciowych, gdzie każdy dokument ma przynajmniej 20 różnych wersji. Często odnalezienie istotnych informacji wymaga nie lada ekwilibrystyki współpracy z kilkoma różnymi systemami, z których każdy ma długie i skomplikowane formularze do wypełnienia, zanim wyrzuci istotne dla nas wyniki. A najtrudniejsze jest to, że aby coś odnaleźć najpierw należy wiedzieć, gdzie to może być. Zupełnie odwrotnie niż w Internecie!

Firma Findwise w tym roku przeprowadziła ankietę na temat wyszukiwania w przedsiębiorstwach, jej wyniki na podstawie odpowiedzi ponad 500 respondentów z całego świata2 pokazują, że firmy nie są przygotowane do wprowadzenia tego typu zmian. Nie ma co tutaj narzekać na polskie warunki, po prostu w tej chwili, choć wiele o tym się mówi (75% uznaje wyszukiwanie jako krytyczny element sukcesu), to jednak nie podejmowane są konkretne działania. Brak strategii, budżetu i ludzi, którzy mieliby się zająć tym zadaniem. Ale nie będziemy przecież rezygnować z naszych marzeń, tylko dlatego, że w tej chwili nie jest zbyt wesoło! Zatem zaczynami krok po kroku.

Po pierwsze – strategia

Rozmawiając o strategii musimy mieć świadomość, że działalność każdego zdrowego przedsiębiorstwa można podsumować jako maksymalizacja zysku przy minimalizacji kosztów. Zatem zadaniem najważniejszym będzie dla nas opracowanie i wyliczenie, ile da się zyskać na wprowadzeniu proponowanych przez nas zmian.

Sprawa prosta nie jest, ponieważ, żeby pokazać, ile można poprawić, trzeba najpierw zacząć mierzyć skuteczność i wydajność poszczególnych procesów biznesowych. W zależności od specyfiki prowadzonego biznesu przykładów można mnożyć wiele i tak dla procesu sprzedaży można mierzyć ile czasu dziennie pracownicy szukają informacji o kliencie i produktach w systemach firmy, aby móc skutecznie połączyć jedno z drugim; ile średnio czasu potrzebuje pracownik call centre, żeby odnaleźć informacje o które pyta klient; jak długo pracownicy szukają konkretnego dokumentu w intranecie.

Dobra strategia powinna zawierać w odniesieniu do zidentyfikowanych procesów biznesowych nasze cele: zwiększenie sprzedaży o 15% poprzez lepiej celowane oferty handlowe, zwiększenie satysfakcji użytkownika o 5% poprzez szybszą i dokładniejszą obsługę telefoniczną, odnalezienie informacji w intranecie w 75% przypadków poprzez wprowadzenie maksymalnie dwuczłonowego zapytania i trzy kliknięcia. Koniec końców te procenty powinny oznaczać bardzo konkretne pieniądze do zdobycia. No, oczywiście znacznie większe pieniądze niż inwestycja we wprowadzane zmiany.

Kolejnym niezbędnym elementem strategii jest plan. Dlatego poza celami dobrze jest wyznaczyć sobie drogę poprzez bardzo konkretne krótkoterminowe projekty, usprawniające działanie organizacji oraz bardziej długoterminowe inicjatywy, które zapewnią rozwój i ciągłą poprawę organizacji w zakresie ogarniania naszych informacji. Nieodłącznie wiąże się z tym planowanie zasobów i budżetu na realizację nakreślonych wizji wraz z mechanizmami pozwalającymi na monitorowanie i kontrolę przebiegu wprowadzanych zmian. Oczywiste? To dlaczego tak nie jest?

Po drugie – informacje

Termin zarządzania informacją nie dla wszystkich jest jasny i nie zawsze dokładnie wiadomo, o co w nim tak naprawdę chodzi. Dlatego proponuję przyjrzeć się podstawowym elementom.

Najważniejszą rzeczą w zarządzaniu jest … zarządzanie. A to oznacza, że trzeba pochylić się nieco nad sposobem, w jaki organizujemy informację w firmie. W wielu miejscach pojawiło się już stanowisko CIO, co w polskich warunkach można przełożyć na członka zarządu odpowiedzialnego za przetwarzanie informacji. I to właśnie od CIO powinno wymagać się strategicznych wizji i określenia kierunku rozwoju organizacji odpowiadając na wymogi współczesności.

Idąc dalej, trzeba powiedzieć, że CIO powinien mieć silną ekipę, która już na nieco niższym poziomie jest w stanie przekuwać strategię na konkretne posunięcia w poszczególnych obszarach zarządzania informacją. Tutaj na pierwszym planie wysuwają się procesy biznesowe, czyli de facto podział ról i obowiązków w firmie, zdefiniowanie kolejności wykonywania zadań przy przetwarzaniu, dostępie i analizie danych. Także w tym obszarze ważną rolą wydaje się być Information Manager (a jakże!), który powinien podejmować kluczowe decyzje co do bardzo konkretnych zmian zachodzących w tym mikro-świecie. Niezawodnym kryterium dla niego winno być zawsze zgodność ze strategią rozwoju, do której zresztą powinien skutecznie wnosić o niezbędne zmiany i korekty, bo świat się szybko zmienia.

W kontekście zarządzania informacją nie sposób nie wspomnieć o bezpieczeństwie. Zwykle dzieje się tak, że nie wszyscy powinni wszystko wiedzieć, chociaż bardzo by chcieli. Dlatego muszą istnieć polityki dostępu do informacji, czyli kto co ma obejrzeć. Jednak żeby to było możliwe musimy zdefiniować przynajmniej dwie rzeczy: role użytkowników i klasy dokumentów/ informacji. O ile nie tak trudno jest posegregować użytkowników pod katem pełnionych przez nich ról, o tyle znacznie trudniej jest dokonać klasyfikacji rodzaju przetwarzanej treści. Polityka zabezpieczeń, to w najprostszym wydaniu to połączenie w pary ról użytkowników i klas dokumentów, nadając tym parom prawa do odczytu, zapisu, usuwania lub w ogóle pozbawiając dostępu.

Wychodząc od klasyfikacji przetwarzanej treści warto pokusić się o pójście kilka kroków dalej i zbudować firmowy model metadanych i taksonomię. Chociaż brzmi to groźnie, to tak naprawdę polega na zdefiniowaniu, jakie dodatkowe informacje powinny być dołączone do przetwarzanej treści, żeby lepiej ją analizować, wyszukiwać i w końcu lepiej ją zrozumieć. Warto też się przyłożyć do zbudowania słownictwa, które pozwoli nam na lepszą komunikację wewnątrz firmy, bez niepotrzebnych nieporozumień.

Po trzecie - technologia

Tak naprawdę, dopiero posiadając określoną wizję strategiczną oraz mając pod kontrolą źródła informacji można przystąpić do wdrażania systemów informatycznych, bo generalnie zarządzanie bałaganem powoduje jeszcze większy bałagan. Tutaj nie jestem w stanie pohamować pokusy i napiszę, że nader często jest to ignorowane. Z reguły bowiem napięte terminy, budżety, brak ludzi sprawia, że przystępuje się do prostego wdrażania wyszukiwarki, które ma za zadanie zadośćuczynić ambicji bycia firmą, która w nowoczesny sposób przetwarza różnorodne informacje. Jednak nie odrobione lekcje i tak trzeba będzie nadrobić i szybko się można przekonać, że albo pojawi się niezadowolenie z zawiedzionych ambicji, albo rzeczywiście zaczniemy podchodzić do całego zagadnienie trochę bardziej poważnie. Od jakiegoś już czasu czołowi dostawcy technologii Business Intelligence dostrzegają konieczność pochylenia się nad danymi tekstowymi, lub inaczej niestrukturalnymi. I tak SAS wykupił firmę Teragram, dzięki której do swojej gamy rozwiązań wprowadził ciekawe narzędzia analizy lingwistycznej. IBM posiada swój Content Analytics oraz od niedawna produkty przejętej firmy Vivisimo, Microsoft oferuje zaawansowane narzędzie do wyszukiwania pod marką FAST Search Server for SharePoint 2010. HP też próbuje wejść w tę niszę poprzez oferowanie rozwiązań Autonomy, brytyjskiej firmy, którą nabył w zeszłym roku za niebagatelną kwotę 11 mld dolarów. Oracle także nie chce zostać w tyle i poza swoim dotychczasowym produktem Secure Enterprise Search można skorzystać z platformy Endeca, która także niedawno została przejęta. Mówiąc o wyszukiwaniu nie można nie wspomnieć o Google, który także ma produkt do indeksowania i wyszukiwania różnorodnych danych wewnątrz przedsiębiorstw – Google Search Appliance. Jeżeli dodamy do tego cały pakiet dojrzałych już rozwiązań klasy open source, jak SolR czy Elastic Search, to można się nieco pogubić w całej tej ofercie. Jednak każde z tych rozwiązań ma swoje mocne i słabsze strony, a wybór może związać z danym dostawcą na dłuższy czas. Dlatego ważny to wybór.

Właściwie każdy z wymienionych wyżej produktów da się wbudować w infrastrukturę informatyczną przedsiębiorstw na zasadzie usług. Można pokusić się nawet o nową redefinicję SaaS – Search as a Service. W ten sposób technologia wyszukiwania może być wpięta niejako w tle do różnorodnych aplikacji biznesowych tak, że użytkownicy nie będą mieli pojęcia, że jest to silnik wyszukiwania. Ważna tutaj jest pewna zmiana myślenia o tych technologiach. Nie jest to tylko pole z zapytaniem, przycisk szukaj i lista wyników. Aplikacje mogą w tle zadawać bardziej lub mniej skomplikowane zapytania, a szybkość odpowiedzi poniżej 1s sprawi, że widok poszczególnych elementów ekranu użytkownika może uzyskać spersonalizowany, atrakcyjny graficznie i dynamiczny charakter. Jest to technologia bardzo wdzięczna, dające spore pole do popisu dla tych, którzy potrafią ją skutecznie wdrażać.

Lingwistyka

Pracując z danymi tekstowymi nie sposób uciec od zagadnień lingwistycznych. Po prostu, żeby móc syntetyzować wiedzę zawartą w dokumencie, trzeba umieć ten tekst najpierw zrozumieć. Lingwistyka komputerowa to już dojrzała dziedzina wiedzy, dzięki której jesteśmy w stanie wydobywać z tekstu słowa kluczowe, imiona i nazwiska ludzi, nazwy firm lub miejscowości, daty itd. Jesteśmy w stanie wyszukiwać z uwzględnieniem form fleksyjnych wyrazów, z wykorzystaniem prostych relacji pomiędzy pojęciami, jak synonimy lub bardziej skomplikowanych z wykorzystaniem taksonomii dziedzinowych lub ontologii. Wiedza zawarta w dokumentach może być klasyfikowana automatycznie jak również automatycznie tagowana wraz z wykryciem tonu wypowiedzi (np. pozytywna, negatywna, neutralna), a wszystko po to, żeby lepiej odnajdywać interesujące nas informacje.

Ciekawym rozwiązaniem jest także możliwość zadawania zapytań w języku naturalnym, co w połączeniu z systemami rozpoznającymi mowę może nam dać w efekcie inteligentnego bota, serwującego nam żądaną informację.

Rzecz ostatnia, acz najważniejsza – użytkownicy


Każdy użytkownik Internetu wie, że są strony co wyglądają źle i takie co wyglądają dobrze. Z tych pierwszych szybko uciekamy, a na tych drugich z przyjemnością pozostajemy. Nie ma absolutnie żadnego powodu, żeby portale firmowe zniechęcały swoim wyglądem i mechanizmami dostępu do korzystania z nich!

Tymczasem dział wiedzy dotyczący użyteczności serwisów internetowych już jest dość dojrzały z pewną ilością specjalistów w tej branży. Lata doświadczeń i badań sprawiły, że nie jest wiedzą tajemną jak dobierać kolory przycisków, jak budować układ strony, gdzie umieszczać podstawowe elementy sterowania stroną. Jeżeli będziemy chcieli skorzystać z dobrodziejstw tego obszaru wiedzy praktycznej, to zyskamy wiele i zwiększymy bardzo modny ostatnio i ważny współczynnik „adopcji” (ang. „system adoption”) rozwiązania informatycznego i zmiany w firmie.

Findability = Odnajdywalność

Ogromna większość informacji składowanych w firmach nie pochodzi z baz danych. Są to raczej dokumenty zawierające tekst, który często jest bardzo istotny. Nie ma jednak najmniejszego sensu składowanie tak dużych ilości tekstu, jeżeli z wiedzy w nim zgromadzonej nie da się korzystać. A bez odpowiednich narzędzi po prostu staje się to niemożliwe. Ale wydaje mi się, że nie w narzędziach tkwi sekret sukcesu, ale w sposobie ich wykorzystywania. Można przecież do upadłego biegać z młotkiem i gwoździami starając się zbudować dom, ale bez planu, umiejętności, środków, zasobów staje się to mało realne.

Doświadczenie Findwise w pracy z ponad 100 klientami nad projektami związanymi z wyszukiwaniem pokazuje, że niezbędnymi elementami sprawnego nawigowania po oceanie informacji to przede wszystkim myślenie strategiczne i długoterminowe o tym przedsięwzięciu, sprawne zarządzanie informacją, umiejętne wdrożenie technologii wyszukiwania z elementami dostosowania mechanizmów lingwistycznych oraz dbałość o przejrzystość i użyteczność interfejsu aplikacji. Wszystko to razem nosi dość prostą nazwę Findability – czyli Odnajdywalność po naszemu.

Dlatego życzę, aby do 2015 roku wszyscy osiągnęli o 20% lepszy wynik finansowy od swoich konkurentów z branży poprzez lepszą Odnajdywalność informacji! Paweł Wróblewski Od przeszło 8 lat zajmuje się rozwiązaniami informatycznymi z zakresu wyszukiwania i analizy informacji tekstowej. Jest jednym z pierwszych propagatorów zastosowania mechanizmów lingwistyki komputerowej w analizie danych w przedsiębiorstwach i instytucjach związanych z bezpieczeństwem publicznym. Od stycznia 2012 roku odpowiada za rozwój szwedzkiej firmy Findwise na terenie polski, której celem jest dostarczanie usług konsultingowych i wdrożeniowych w celu usprawniania procesu świadomego podejmowania decyzji wykorzystując najnowocześniejsze narzędzia wyszukiwania i analizy danych tekstowych. Prywatnie szczęśliwy mąż Anny pracującej jako adiunkt na Politechnice Warszawskiej, z którą udaje się nie tylko wychowywanie trzech córek, ale także współpraca na gruncie innowacyjnych rozwiązań opartych na wyszukiwaniu.

Ups! Wszyscy nie mogą być lepsi, bo niby od kogo? :-)

Źródło: robertjesionek.wordpress.com/
Autor: Paweł Wróblewski

PRZECZYTAJ RÓWNIEŻ:


Back to top