Przejdź do głównej treści

Text Mining a codzienna rzeczywistość

Katgoria: BUSINESS INTELLIGENCE / Utworzono: 21 czerwiec 2013

Text Mining a codzienna rzeczywistość

Otaczający nas świat zmienia się ostatnio w niesamowitym tempie. Rozwój komputerów, sieci Internet, poczty elektronicznej, a ostatnio również serwisów społecznościowych to czynniki, które przemodelowały utrwalone przez wieki standardy komunikacji międzyludzkiej. Nie tylko dostęp do informacji stał się powszechny, ale powszechne stało się również tworzenie treści publikowanych z wykorzystaniem różnorodnych kanałów informacyjnych.

REKLAMA
ERP-VIEW.PL- STREAMSOFT
Każdy użytkownik Internetu może w sposób nieskrępowany wyrażać swoje poglądy i opinie w sieci web, do której dostęp mają ludzie na całym świecie. Według różnych szacunków podaje się, iż ilość danych przechowywanych w postaci nieustrukturyzowanej, czyli w postaci luźnego tekstu lub plików audio oraz wideo, stanowi ponad 85% wszystkich danych przechowywanych w postaci cyfrowej. Natomiast zdecydowana większość aktualnie eksploatowanych zintegrowanych systemów zarządzania jest skoncentrowana na efektywnym przetwarzaniu danych ustrukturyzowanych. Oznacza to, że zakres informacji uwzględnianych przy podejmowaniu strategicznych decyzji jest stosunkowo niewielki. W związku z tym faktem nasuwają się pytania:

Każdy użytkownik Internetu może w sposób nieskrępowany wyrażać swoje poglądy i opinie w sieci web, do której dostęp mają ludzie na całym świecie. Według różnych szacunków podaje się, iż ilość danych przechowywanych w postaci nieustrukturyzowanej, czyli w postaci luźnego tekstu lub plików audio oraz wideo, stanowi ponad 85% wszystkich danych przechowywanych w postaci cyfrowej. Natomiast zdecydowana większość aktualnie eksploatowanych zintegrowanych systemów zarządzania jest skoncentrowana na efektywnym przetwarzaniu danych ustrukturyzowanych. Oznacza to, że zakres informacji uwzględnianych przy podejmowaniu strategicznych decyzji jest stosunkowo niewielki. W związku z tym faktem nasuwają się pytania:
  • czy stać nas na ignorowanie tak dużej ilości istniejących danych?
  • jak można skutecznie wykorzystać informacje dostępne w postaci luźnego tekstu?
  • w jakich obszarach zastosowań możemy wykorzystać dane nieustrukturyzowane?

Obszary zastosowań.

Odpowiedzią na tego typu zagadnienia są technologie Text Mining. Analiz Text Mining można użyć np. do wydobywania z dokumentów kluczowych informacji (tworzenie podsumowań, streszczeń). Narzędzia te umożliwiają również zdobywanie wiedzy o trendach, relacjach, jakie wiążą ludzi, organizacje lub miejsca poprzez automatyczne zbieranie i porównywanie informacji z dokumentów określonego typu (przychodzących maili, listów od klientów itp.) Ponadto możemy je wykorzystywać do klasyfikowania i organizowania dokumentów ze względu na ich zawartość (np. automatyczna preselekcja dokumentów z określonymi rodzajami tematów i przydzielanie ich do odpowiedniego folderu czy też do przeczytania dla odpowiedniej osoby).

Inne zastosowania to organizowanie repozytoriów z informacjami dotyczącymi dokumentów, które pozwolą na skuteczne wyszukiwanie treści, przeprowadzanie analiz sentymentu lub inaczej mówiąc eksploracji opinii, aby poznać nastawienie naszych klientów do oferowanych produktów lub usług - czy jest pozytywne czy negatywne i jak zmienia się w czasie lub w trakcie prowadzonych działań marketingowych. W marketingu możemy dostosować treść komunikacji do sposobu, w jaki mówią, myślą i spędzają czas nasi klienci. Działy PR mogą wykorzystać pozytywne opinie w prasie lub łagodzić negatywne skutki sytuacji kryzysowych.

Działy obsługi klienta mogą słuchać klientów i współpracować z nimi z wykorzystaniem zupełnie nowych kanałów. W badaniach rynku analizy Text Mining pozwalają lepiej zrozumieć postrzeganie pozycji naszych produktów i usług w stosunku do konkurencji. Możemy zidentyfikować miejsca i zdarzenia, w których nasza reklama lub promocja może być pozytywnie odbierana. I wreszcie korzystając z wypowiedzi konsumentów możemy odkrywać ich konkretne potrzeby i określić cechy produktów, które użytkownicy lubią, lub o których maja negatywne opinie.

Źródła danych nieustrukturyzowanych.

Dane do analiz Text Mining mogą pochodzić z różnych źródeł. Mogą to być zarówno dane zewnętrzne, jak i wewnętrzne. Wśród zewnętrznych bardzo cennym źródłem informacji są media społecznościowe, czyli wszystkie miejsca w sieci Web, gdzie użytkownicy Internetu mogą zamieszczać własne wpisy, komentarze, opinie itp. Źródłami wewnętrznymi mogą być notatki pracowników Call Center dotyczące rozmów z klientami korespondencja przesyłana pocztą elektroniczną, wszelkie dokumenty firmowe, takie jak umowy, oferty, zbiory publikacji, transkrypcje rozmów Call Center, opisy szkód ubezpieczeniowych, notatki policjantów, pytania otwarte z badań ankietowych itd.

Proces analiz Text Mining

Text Mining to technika, która bazując na metodach Data Mining oraz metodach NLP (ang. Natural Language Processing) umożliwia analizowanie kolekcji tekstowych. Zapewnia ona dużo szerszy zakres funkcjonalności niż tylko wyszukiwanie informacji poprzez przetwarzanie tekstu, wydobycie wiedzy i rozumienie pojedynczych dokumentów. Aplikacje Text Mining działają na cyfrowej formie danych tekstowych, dzięki czemu umożliwiają również identyfikację zależności i wzorców oraz wizualizację tych zależności i wzorców.

Pierwszym krokiem w procesie analizy Text Mining jest zwykle tokenizacja, za pomocą której identyfikowane są podstawowe frazy tekstowe, które nie będą podlegać dalszej dekompozycji. Nieprzetworzony tekst jest reprezentowany przez sekwencję znaków, z których komputer musi wyodrębnić owe frazy.

Po tokenizacji zazwyczaj przeprowadza się proces leksykalny, który może składać się z oznaczania części mowy, stemmingu- czyli automatycznego odnajdywania rdzeni lub pni wyrazów, przypisywania słowom ich bazowej formy (na przykład dać jest bazową formą dla słów dały, dam, daliśmy etc.). Działania te mają na celu uproszczenie całego procesu.

W dalszym etapie do zidentyfikowanych fraz przypisuje się wagi, które w zależności od wybranej metody ważenia, podkreślają istotność ich rozkładu w ramach kolekcji dokumentów tekstowych. W tym miejscu uzyskujemy numeryczną reprezentację danych tekstowych i możemy użyć standardowych metod Data Mining w celu dalszej eksploracji.

Oferta SAS w dziedzinie Text Mining

SAS oferuje szereg narzędzi umożliwiających efektywne wdrożenie analiz Text Mining. W portfolio produktów firmy znajduja się one w grupie o nazwie Text Analytics. Są tam wyspecjalizowane narzędzia do automatycznego pobierania dokumentów z sieci Internet oraz Intranet, kategoryzacji treści, analizy sentymentu, budowania ontologii, tworzenia automatycznych streszczeń, a także powiązania analiz Text Mining z analizami Data Mining.

Zasilanie repozytorium dokumentów źródłowych może pochodzić ze stron WWW, systemu RSS, a także lokalnego lub zdalnego systemu plików, blogów, forów, portali społecznościowych takich jak Facebook, Twiter i wielu innych źródeł. SAS Web Crawler pozwala na pobieranie treści stron internetowych ze zidentyfikowanych źródeł lub realizację wyszukiwania stron w Internecie spełniających zadane kryteria w zakresie treści i słów kluczowych. Rozwiązanie to pozwala na bardzo wydajne pobieranie treści stron internetowych, nawet do 1000 wątków jednocześnie, dzięki czemu zasilanie repozytorium treści internetowych będzie odbywało się bardzo wydajnie.

Kategoryzacja możliwa jest poprzez automatyczne grupowanie dokumentów według treści lub poprzez przypisanie do ustalonej struktury drzewiastej tzw. taksonomii. Informacje, dokumenty lub witryny sieci Web organizowane są przy użyciu intuicyjnego katalogu hierarchicznego, według którego mogą być one przeglądane. Dokumenty klasyfikowane są automatycznie przy użyciu łatwo modyfikowalnych reguł umożliwiających dokładną kategoryzację, zapewniając skojarzenie nowego materiału z istniejącymi źródłami w czasie rzeczywistym.

To zapewnia szybkość, skuteczną organizację informacji, dostępność, możliwość odnajdywania i udostępniania wiedzy, przy jednoczesnym zmniejszeniu obciążenia związanego z procesem kategoryzacji treści, takich jak ręczne oznaczanie i retrospektywne indeksowanie.

Analiza sentymentu może pomóc organizacjom w precyzyjnym monitorowaniu opinii konsumentów poprzez unikatową technologię, która stosuje zarówno sztukę, jak i naukę do oceny witryn sieci Web, wewnętrznych danych Call Center, wiadomości e-mail i innych danych tekstowych. Poprzez zastosowanie modeli i reguł językowych, które mogą być definiowane przez ekspertów biznesowych, można zdefiniować pozytywne, negatywne i neutralne uczucia skojarzone z wyrazami użytymi do opisu produktów, usług, itp. W rezultacie można użyć opinii konsumenta do rozwijania i utrzymywania bardziej skutecznych produktów i strategii.

Korzyści

Powyższe rodzaje analiz mogą być wzbogacone poprzez bogaty zestaw narzędzi lingwistycznych oraz modelowania analitycznego służących do odkrycia, ekstrakcji i przewidywania wiedzy z wielu dokumentów tekstowych. Po przekształceniu tekstu, dzięki czemu może on być użyty w narzędziach Data Mining, tematy i kompozycje są identyfikowane jako wyraźne związki. Tak opisane dokumenty można łączyć w stosowne grupy gotowe do analiz eksploracyjnych lub modelowania.

Interaktywna eksploracja pozwala na odnajdywanie wcześniej nieznanych wzorców w zbiorach dokumentów i zastosowanie ich bezpośrednio w modelach predykcyjnych, zaprezentowanie ich w ramach korporacyjnej taksonomii lub firmowych pulpitów nawigacyjnych – maksymalizując wartość zdobytej wiedzy ze wszystkich źródeł informacji.

Rozwiązanie to pozwala na oszczędności finansowe i ograniczenie zasobów, dzięki automatyzacji czasochłonnych zadań związanych z czytaniem i rozumieniem tekstów. Konsolidując dane strukturalne oraz źródła informacji tekstowych, użytkownik uzyskuje bardziej dokładny i kompletny widok organizacji.

Źródło: SAS
Autor: dr inż. Mariusz Dzieciątko

Najnowsze wiadomości

Customer-specific AI: dlaczego w 2026 roku to ona przesądza o realnym wpływie AI na biznes
W 2026 roku sztuczna inteligencja przestaje być ciekawostką technologiczną, a zaczyna być rozliczana z realnego wpływu na biznes. Organizacje oczekują dziś decyzji, którym można zaufać, procesów działających przewidywalnie oraz doświadczeń klientów, które są spójne w skali. W tym kontekście coraz większe znaczenie zyskuje customer-specific AI - podejście, w którym inteligencja jest osadzona w danych, procesach i regułach konkretnej firmy, a nie oparta na generycznych, uśrednionych modelach.
PROMAG S.A. rozpoczyna wdrożenie systemu ERP IFS Cloud we współpracy z L-Systems
PROMAG S.A., lider w obszarze intralogistyki, rozpoczął wdrożenie systemu ERP IFS Cloud, który ma wesprzeć dalszy rozwój firmy oraz integrację kluczowych procesów biznesowych. Projekt realizowany jest we współpracy z firmą L-Systems i obejmuje m.in. obszary finansów, produkcji, logistyki, projektów oraz serwisu, odpowiadając na rosnącą skalę i złożoność realizowanych przedsięwzięć.
SkyAlyne stawia na IFS dla utrzymania floty RCAF
SkyAlyne, główny wykonawca programu Future Aircrew Training (FAcT), wybrał IFS Cloud for Aviation Maintenance jako cyfrową platformę do obsługi technicznej lotnictwa i zarządzania majątkiem. Wdrożenie ma zapewnić wgląd w czasie rzeczywistym w utrzymanie floty, zasoby i zgodność, ograniczyć przestoje oraz zwiększyć dostępność samolotów szkoleniowych RCAF w skali całego kraju. To ważny krok w modernizacji kanadyjskiego systemu szkolenia załóg lotniczych.
Wykorzystanie AI w firmach rośnie, ale wolniej, niż oczekiwano. Towarzyszy temu sporo rozczarowań
Wykorzystanie sztucznej inteligencji w firmach rośnie, ale tempo realnych wdrożeń pozostaje znacznie wolniejsze od wcześniejszych oczekiwań rynku. Dane pokazują, że z rozwiązań AI korzysta dziś wciąż niewiele przedsiębiorstw, a menedżerowie coraz częściej wskazują na bariery regulacyjne, koszty oraz brak powtarzalnych efektów biznesowych. W praktyce technologia jest testowana głównie w wybranych obszarach, a kluczowe decyzje nadal pozostają po stronie człowieka. Również w firmach, które wdrożyły AI, nierzadko towarzyszą temu rozczarowania.

Europejski przemysł cyfryzuje się zbyt wolno – ERP, chmura i AI stają się koniecznością
BPSCEuropejski przemysł średniej wielkości wie, że cyfryzacja jest koniecznością, ale wciąż nie nadąża za tempem zmian. Ponad 60% firm ocenia swoje postępy w transformacji cyfrowej jako zbyt wolne, mimo rosnącej presji konkurencyjnej, regulacyjnej i kosztowej. Raport Forterro pokazuje wyraźną lukę między świadomością potrzeby inwestycji w chmurę, ERP i AI a realną zdolnością do ich wdrożenia – ograniczaną przez braki kompetencyjne, budżety i gotowość organizacyjną.



Najnowsze artykuły

5 pułapek zarządzania zmianą, które mogą wykoleić transformację cyfrową i wdrożenie ERP
Dlaczego jedne wdrożenia ERP dowożą korzyści, a inne kończą się frustracją, obejściami w Excelu i spadkiem zaufania do systemu? Najczęściej decyduje nie technologia, lecz to, jak organizacja prowadzi zmianę: czy liderzy biorą odpowiedzialność za decyzje czy tempo jest dopasowane do zdolności absorpcji oraz czy ludzie dostają klarowność ról i realne kompetencje. Do tego dochodzi pytanie: co po go-live - stabilizacja czy chaos w firmie? Poniżej znajdziesz 5 pułapek, które najczęściej wykolejają transformację i praktyczne sposoby, jak im zapobiec.
SAP vs Oracle vs Microsoft: jak naprawdę wygląda chmura i sztuczna inteligencja w ERP
Wybór systemu ERP w erze chmury i sztucznej inteligencji to decyzja, która determinuje sposób działania organizacji na lata — a często także jej zdolność do skalowania, adaptacji i realnej transformacji cyfrowej. SAP, Oracle i Microsoft oferują dziś rozwiązania, które na pierwszy rzut oka wyglądają podobnie, lecz w praktyce reprezentują zupełnie odmienne podejścia do chmury, AI i zarządzania zmianą. Ten artykuł pokazuje, gdzie kończą się deklaracje, a zaczynają realne konsekwencje biznesowe wyboru ERP.
Transformacja cyfrowa z perspektywy CFO: 5 rzeczy, które przesądzają o sukcesie (albo o kosztownej porażce)
Transformacja cyfrowa w finansach często zaczyna się od pytania o ERP, ale w praktyce rzadko sprowadza się wyłącznie do wyboru systemu. Dla CFO kluczowe jest nie tylko „czy robimy pełną wymianę ERP”, lecz także jak policzyć ryzyko operacyjne po uruchomieniu, ocenić wpływ modelu chmurowego na koszty OPEX oraz utrzymać audytowalność i kontrolę wewnętrzną w nowym modelu działania firmy.
Agentic AI rewolucjonizuje HR i doświadczenia pracowników
Agentic AI zmienia HR: zamiast odpowiadać na pytania, samodzielnie realizuje zadania, koordynuje procesy i podejmuje decyzje zgodnie z polityką firmy. To przełom porównywalny z transformacją CRM – teraz dotyczy doświadczenia pracownika. Zyskują HR managerowie, CIO i CEO: mniej operacji, więcej strategii. W artykule wyjaśniamy, jak ta technologia redefiniuje rolę HR i daje organizacjom przewagę, której nie da się łatwo nadrobić.
Composable ERP: Przewodnik po nowoczesnej architekturze biznesowej
Czy Twój system ERP nadąża za tempem zmian rynkowych, czy stał się cyfrową kotwicą hamującą rozwój? W dobie nieciągłości biznesowej tradycyjne monolity ustępują miejsca elastycznej architekturze Composable ERP. To rewolucyjne podejście pozwala budować środowisko IT z niezależnych modułów (PBC) niczym z klocków, zapewniając zwinność nieosiągalną dla systemów z przeszłości. W tym raporcie odkryjesz, jak uniknąć pułapki długu technologicznego, poznasz strategie liderów rynku (od SAP po MACH Alliance) i wyciągniesz lekcje z kosztownych błędów gigantów takich jak Ulta Beauty. To Twój strategiczny przewodnik po transformacji z cyfrowego "betonu" w adaptacyjną "plastelinę".

Przeczytaj Również

Real-Time Intelligence – od trendu do biznesowego must-have

Sposób prowadzenia działalności gospodarczej dynamicznie się zmienia. Firmy muszą stale dostosowywa… / Czytaj więcej

EPM – co to jest? Czy jest alternatywą dla BI?

Nowoczesne systemy BI i EPM dostarczają wiedzy potrzebnej do efektywnego zarządzania firmą. Czy zna… / Czytaj więcej

W jaki sposób firmy zwiększają swoją odporność na zmiany?

Do zwiększenia odporności na zmiany, konieczna jest pełna kontrola nad codziennymi procesami zapewn… / Czytaj więcej

Dlaczego systemy kontrolingowe są potrzebne współczesnym firmom?

Narzędzia Corporate Performance Management (CPM) pozwalają na przyśpieszenie tempa podejmowania dec… / Czytaj więcej

Hurtownie danych – funkcje i znaczenie dla BI

Przepisów na sukces biznesu jest na rynku wiele. Nie ulega jednak wątpliwości, że jednym z kluczowy… / Czytaj więcej

Po co dane w handlu? Okazuje się, że ich analityka może dać nawet 30 proc. większe zyski!

Jak wynika z badania firmy doradczej Capgemni, producenci FMCG oraz firmy związane z handlem detali… / Czytaj więcej