Przejdź do głównej treści

Salesforce wprowadził benchmark dużych modeli językowych AI. Czy pomoże wybrać?

Katgoria: CRM / Utworzono: 11 lipiec 2024
Salesforce wprowadził benchmark dużych modeli językowych AI. Czy pomoże wybrać?
Salesforce wprowadził pierwszy na świecie benchmark LLM, który ma pomóc firmom w ocenie szybko rosnącej liczby dużych modeli językowych (LLM) do wykorzystania w ich systemach zarządzania relacjami z klientami (CRM).

REKLAMA
ERP-VIEW.PL- STREAMSOFT
 
Nowy benchmark to kompleksowe ramy oceny, które mierzą wydajność LLM w odniesieniu do czterech kluczowych miar: dokładności, kosztów, szybkości oraz zaufania i bezpieczeństwa. Został on zaprojektowany do oceny typowych przypadków użycia w sprzedaży i usługach, w tym prospectingu, lead nurturingu, a także podsumowań szans sprzedaży i przypadków usług. Benchmark udostępnia użytkownikom tabelę liderów, aby pomóc profesjonalistom zdecydować, który LLM najlepiej sprawdzi się w przypadku ich indywidualnych potrzeb. Salesforce będzie nadal włączać nowe scenariusze przypadków użycia do benchmarku i ulepszać ocenę LLM.
Dlaczego jest to ważne?

Istniejące benchmarki LLM są ograniczone do przypadków zastosowań akademickich i konsumenckich, a ich znaczenie dla biznesu jest bardzo niewielkie. Brakuje w nich również odpowiednich ocen ekspertów i nie uwzględniają one dokładności, szybkości, kosztów i kwestii zaufania. Te niedociągnięcia sprawiły, że firmy nie mają wiarygodnej metody oceny skuteczności generatywnych rozwiązań CRM opartych na sztucznej inteligencji. Bez wyraźnego poczucia, jak LLM sprawdzają się w tych metrykach dla konkretnych przypadków użycia, firmy muszą podejmować decyzje „po omacku”.

Opracowany przez Salesforce AI Research benchmark w wyjątkowy sposób wykorzystuje rzeczywiste dane CRM, a także eksperckie oceny dokonywane przez praktyków. Umożliwia to firmom wykorzystanie benchmarku do podejmowania bardziej strategicznych decyzji dotyczących sposobu włączenia generatywnej sztucznej inteligencji do ich systemów CRM.

Co mierzy benchmark?

Dokładność: Ta kategoria obejmuje cztery podkategorie: rzeczowość, kompletność, zwięzłość i zgodność z instrukcjami. Im dokładniejsze są przewidywania lub zalecenia, tym bardziej wartościowe będą wyniki dla zespołów w całej organizacji – a im bardziej wartościowe wyniki, tym lepsze działania mogą podjąć w celu poprawy obsługi klienta. Jeśli model jest wystarczająco dokładny dla danego przypadku użycia, ważne jest również, aby wziąć pod uwagę inne wskaźniki. Nawet jeśli model nie jest wystarczająco dokładny, techniki takie jak szybka inżynieria i dostrajanie mogą go poprawić.

Koszt: Metryka kosztów jest skategoryzowana jako wysoka, średnia i niska, w oparciu o percentyle. Jest to szacunkowy koszt operacyjny, który różni się w zależności od przypadku użycia. Klienci mogą ocenić opłacalność różnych rozwiązań LLM, aby upewnić się, że są one zgodne z ich budżetem i strategiami alokacji zasobów.

Szybkość: Ta metryka ocenia szybkość reakcji i wydajność LLM w przetwarzaniu oraz dostarczaniu informacji. Krótszy czas reakcji poprawia doświadczenie użytkownika, skracając czas oczekiwania klientów i umożliwiając zespołom sprzedaży oraz obsługi szybkie reagowanie na zapytania lub problemy.

Zaufanie i bezpieczeństwo: Ten wskaźnik mierzy zdolność LLM do ochrony wrażliwych danych klientów, przestrzegania przepisów dotyczących prywatności danych, zabezpieczania informacji oraz powstrzymywania się od stronniczości i toksyczności. Oceniając niezawodność LLM dla CRM, ten benchmark daje organizacjom poczucie przejrzystości w zakresie zaufania i bezpieczeństwa.

Dzięki platformie Einstein 1 firmy Salesforce, klienci mogą wybierać spośród istniejących rozwiązań LLM lub tworzyć własne modele spełniające ich unikalne potrzeby biznesowe. Wybierając modele dla swoich przypadków użycia CRM przy użyciu benchmarku, firmy mogą wdrażać bardziej skuteczne i wydajne rozwiązania generatywnej sztucznej inteligencji.

Organizacje biznesowe chcą wykorzystać sztuczną inteligencję do napędzania wzrostu, obniżania kosztów i dostarczania spersonalizowanych doświadczeń klientów, a nie do planowania przyjęcia urodzinowego dla dzieci czy streszczania lektur szkolnych. Nasi klienci prosili o specjalnie opracowany sposób oceny i wyboru spośród mnożących się nowych modeli sztucznej inteligencji. Cieszymy się, że możemy wprowadzić pierwszy na świecie benchmark LLM dedykowany CRM, aby pomóc im poruszać się po złożonym krajobrazie modeli. Ten benchmark to nie tylko miara; to kompleksowa, dynamicznie ewoluująca struktura, która umożliwia firmom podejmowanie świadomych decyzji, równoważąc dokładność, koszty, szybkość i zaufanie – powiedziała Clara Shih, dyrektor generalna Salesforce AI.


Źródło: Salesforce

Najnowsze wiadomości

Customer-specific AI: dlaczego w 2026 roku to ona przesądza o realnym wpływie AI na biznes
W 2026 roku sztuczna inteligencja przestaje być ciekawostką technologiczną, a zaczyna być rozliczana z realnego wpływu na biznes. Organizacje oczekują dziś decyzji, którym można zaufać, procesów działających przewidywalnie oraz doświadczeń klientów, które są spójne w skali. W tym kontekście coraz większe znaczenie zyskuje customer-specific AI - podejście, w którym inteligencja jest osadzona w danych, procesach i regułach konkretnej firmy, a nie oparta na generycznych, uśrednionych modelach.
PROMAG S.A. rozpoczyna wdrożenie systemu ERP IFS Cloud we współpracy z L-Systems
PROMAG S.A., lider w obszarze intralogistyki, rozpoczął wdrożenie systemu ERP IFS Cloud, który ma wesprzeć dalszy rozwój firmy oraz integrację kluczowych procesów biznesowych. Projekt realizowany jest we współpracy z firmą L-Systems i obejmuje m.in. obszary finansów, produkcji, logistyki, projektów oraz serwisu, odpowiadając na rosnącą skalę i złożoność realizowanych przedsięwzięć.
SkyAlyne stawia na IFS dla utrzymania floty RCAF
SkyAlyne, główny wykonawca programu Future Aircrew Training (FAcT), wybrał IFS Cloud for Aviation Maintenance jako cyfrową platformę do obsługi technicznej lotnictwa i zarządzania majątkiem. Wdrożenie ma zapewnić wgląd w czasie rzeczywistym w utrzymanie floty, zasoby i zgodność, ograniczyć przestoje oraz zwiększyć dostępność samolotów szkoleniowych RCAF w skali całego kraju. To ważny krok w modernizacji kanadyjskiego systemu szkolenia załóg lotniczych.
Wykorzystanie AI w firmach rośnie, ale wolniej, niż oczekiwano. Towarzyszy temu sporo rozczarowań
Wykorzystanie sztucznej inteligencji w firmach rośnie, ale tempo realnych wdrożeń pozostaje znacznie wolniejsze od wcześniejszych oczekiwań rynku. Dane pokazują, że z rozwiązań AI korzysta dziś wciąż niewiele przedsiębiorstw, a menedżerowie coraz częściej wskazują na bariery regulacyjne, koszty oraz brak powtarzalnych efektów biznesowych. W praktyce technologia jest testowana głównie w wybranych obszarach, a kluczowe decyzje nadal pozostają po stronie człowieka. Również w firmach, które wdrożyły AI, nierzadko towarzyszą temu rozczarowania.

Europejski przemysł cyfryzuje się zbyt wolno – ERP, chmura i AI stają się koniecznością
BPSCEuropejski przemysł średniej wielkości wie, że cyfryzacja jest koniecznością, ale wciąż nie nadąża za tempem zmian. Ponad 60% firm ocenia swoje postępy w transformacji cyfrowej jako zbyt wolne, mimo rosnącej presji konkurencyjnej, regulacyjnej i kosztowej. Raport Forterro pokazuje wyraźną lukę między świadomością potrzeby inwestycji w chmurę, ERP i AI a realną zdolnością do ich wdrożenia – ograniczaną przez braki kompetencyjne, budżety i gotowość organizacyjną.



Najnowsze artykuły

5 pułapek zarządzania zmianą, które mogą wykoleić transformację cyfrową i wdrożenie ERP
Dlaczego jedne wdrożenia ERP dowożą korzyści, a inne kończą się frustracją, obejściami w Excelu i spadkiem zaufania do systemu? Najczęściej decyduje nie technologia, lecz to, jak organizacja prowadzi zmianę: czy liderzy biorą odpowiedzialność za decyzje czy tempo jest dopasowane do zdolności absorpcji oraz czy ludzie dostają klarowność ról i realne kompetencje. Do tego dochodzi pytanie: co po go-live - stabilizacja czy chaos w firmie? Poniżej znajdziesz 5 pułapek, które najczęściej wykolejają transformację i praktyczne sposoby, jak im zapobiec.
SAP vs Oracle vs Microsoft: jak naprawdę wygląda chmura i sztuczna inteligencja w ERP
Wybór systemu ERP w erze chmury i sztucznej inteligencji to decyzja, która determinuje sposób działania organizacji na lata — a często także jej zdolność do skalowania, adaptacji i realnej transformacji cyfrowej. SAP, Oracle i Microsoft oferują dziś rozwiązania, które na pierwszy rzut oka wyglądają podobnie, lecz w praktyce reprezentują zupełnie odmienne podejścia do chmury, AI i zarządzania zmianą. Ten artykuł pokazuje, gdzie kończą się deklaracje, a zaczynają realne konsekwencje biznesowe wyboru ERP.
Transformacja cyfrowa z perspektywy CFO: 5 rzeczy, które przesądzają o sukcesie (albo o kosztownej porażce)
Transformacja cyfrowa w finansach często zaczyna się od pytania o ERP, ale w praktyce rzadko sprowadza się wyłącznie do wyboru systemu. Dla CFO kluczowe jest nie tylko „czy robimy pełną wymianę ERP”, lecz także jak policzyć ryzyko operacyjne po uruchomieniu, ocenić wpływ modelu chmurowego na koszty OPEX oraz utrzymać audytowalność i kontrolę wewnętrzną w nowym modelu działania firmy.
Agentic AI rewolucjonizuje HR i doświadczenia pracowników
Agentic AI zmienia HR: zamiast odpowiadać na pytania, samodzielnie realizuje zadania, koordynuje procesy i podejmuje decyzje zgodnie z polityką firmy. To przełom porównywalny z transformacją CRM – teraz dotyczy doświadczenia pracownika. Zyskują HR managerowie, CIO i CEO: mniej operacji, więcej strategii. W artykule wyjaśniamy, jak ta technologia redefiniuje rolę HR i daje organizacjom przewagę, której nie da się łatwo nadrobić.
Composable ERP: Przewodnik po nowoczesnej architekturze biznesowej
Czy Twój system ERP nadąża za tempem zmian rynkowych, czy stał się cyfrową kotwicą hamującą rozwój? W dobie nieciągłości biznesowej tradycyjne monolity ustępują miejsca elastycznej architekturze Composable ERP. To rewolucyjne podejście pozwala budować środowisko IT z niezależnych modułów (PBC) niczym z klocków, zapewniając zwinność nieosiągalną dla systemów z przeszłości. W tym raporcie odkryjesz, jak uniknąć pułapki długu technologicznego, poznasz strategie liderów rynku (od SAP po MACH Alliance) i wyciągniesz lekcje z kosztownych błędów gigantów takich jak Ulta Beauty. To Twój strategiczny przewodnik po transformacji z cyfrowego "betonu" w adaptacyjną "plastelinę".

Przeczytaj Również

282% więcej wdrożeń AI - jak CIO wchodzą w erę skalowania według Salesforce

Wzrost liczby pełnych wdrożeń AI o 282% rok do roku pokazuje, że CIO globalnych firm definitywnie w… / Czytaj więcej

Salesforce kończy erę marketingu „Prosimy nie odpowiadać na tę wiadomość!” dzięki Marketing Cloud Next

Firma Salesforce ogłosiła wprowadzenie na rynek rozwiązania Marketing Cloud Next, które stanowi ist… / Czytaj więcej

Salesforce wprowadza Agentforce 3

Nowe, wirtualne centrum dowodzenia Agentforce Command Center oferuje pełen nadzór nad agentami AI… / Czytaj więcej

Apart stawia na Salesforce

Apart  jako pierwsza firma w tej branży w naszym kraju wdrożył rozwiązania technologiczne Sale… / Czytaj więcej

10 Trendów CRM, które zmienią rynek w 2025 roku – część X

W ciągu dziewięciu poprzednich części szczegółowo przeanalizowaliśmy transformację rynku CRM: od ro… / Czytaj więcej

10 Trendów CRM, które zmienią rynek w 2025 roku – część IX

W poprzedniej części naszego cyklu przyjrzeliśmy się innowacyjnemu podejściu do wyceny systemów CRM… / Czytaj więcej