#50 — KPI „każdy buduje 5 agentów" mierzy złą rzecz

Drogi czytelniku,

Kilka miesięcy temu rozmawiałem z dyrektor innowacji z dużej firmy technologicznej. Jako główny wskaźnik innowacji w AI przyjęli liczbę agentów na pracownika. Każdy zespół miał zbudować lub wdrożyć pięć agentów „na głowę". Urok tego podejścia jest zrozumiały. To prosta liczba, która zmienia się tylko w jednym kierunku i brzmi jak historia o pracownikach, którzy uczą się nowych narzędzi. Problem w tym, że nie przekłada się na P&L (chyba że w zwiększonych kosztach narzędzi).

Spotykam się z tym teraz często i jest to naturalne dla nowej technologii, która nie ma sprawdzonych wzorców wdrożenia. Firma sumuje, ile AI „uruchamia", i przedstawia to jako wartość, którą AI stworzyło, podczas gdy prawdziwa wartość jest zwykle nieznana.

Skąd się bierze ten wskaźnik

Firmy nie wymyśliły nawyku liczenia agentów — został im on sprzedany. Salesforce prowadzi „Agentic Enterprise Index" zbudowany wokół danych takich jak 119% wzrostu liczby agentów w pierwszej połowie 2025 roku i 65% miesięcznego wzrostu częstotliwości rozmów pracowników z agentami. Jensen Huang z Nvidii roztacza wizję przyszłości ze stu agentami na jednego człowieka. Sugerowany przekaz jest taki, że liczba agentów i interakcji to miara transformacji sama w sobie. Nic dziwnego, biorąc pod uwagę, że więcej działających agentów oznacza większe przychody dla Nvidii, OpenAI, Anthropic i wszystkich innych sprzedających moc obliczeniową czy tokeny.

To nie tylko dostawcy. Dyrektor generalny McKinsey zaczął cytować liczbę agentów w swojej firmie jako ważny wskaźnik: 25 000 agentów AI obok 60 000 ludzi, w porównaniu do 3000 półtora roku wcześniej, co ma być dowodem na ich przewagę. Steve Newman, który kieruje obszarem technologii w EY, miał oczywistą odpowiedź: liczba agentów nie przekłada się na wartość. Kiedy firmy sprzedające doradztwo transformacyjne same mierzą sukces liczbą agentów, łatwo zrozumieć, jak ten nawyk się rozprzestrzenia. Alfred Lin, partner w Sequoia, ujął to bardziej dosadnie w Forbesie: poziom „adopcji AI” to wskaźnik próżności.

Jednak gdy spojrzymy, jak niektórzy dostawcy faktycznie pobierają opłaty za AI, to zobaczymy, że rynek zaczyna wymuszać zmiany. Intercom liczy sobie $0.99 za każdy problem rozwiązany przez ich agenta Fin, bez opłat za stanowisko czy agenta. Sierra pobiera pieniądze dopiero, gdy ich agent zamknie sprawę bez interwencji człowieka. HubSpot przechodzi od cen za użycie do cen za rozwiązanie. Salesforce wprowadził „Agentic Work Units" i rozlicza za wykonaną pracę, a nie za posiadane licencje. Sierra wyjaśnia, dlaczego stary model jest zepsuty: przy opłacie za stanowisko, wzrost efektywności AI oznacza, że klient potrzebuje mniej stanowisk, więc dostawca działa przeciwko własnemu produktowi, lub musi podnosić cenę jednostkową, co zniechęca nabywców. Warto się nad tym przez chwilę zastanowić. Firmy najbliższe tej technologii przyjrzały się wolumenowi jako podstawie do rozliczeń i odrzuciły ją — dlaczego wdrażający mieliby wokół niego budować własną wewnętrzną kartę wyników?

Prawo Goodharta

Warto pamiętać o prawie Goodharta. Gdy miara staje się celem, do którego dążą ludzie, przestaje być wiarygodną miarą czegokolwiek. Uczyń „pięć agentów na pracownika" celem, a na pewno skończysz z pięcioma agentami na pracownika. To, czy którykolwiek z nich wykonuje użyteczną pracę, to osobne pytanie. W praktyce ktoś opakowuje prompt wokół arkusza kalkulacyjnego, rejestruje go w spisie agentów i idzie dalej, a dashboard wypełnia się na zielono, podczas gdy sposób realizacji procesów się nie zmienia.

Zmienia się natomiast szybkość zmian. Agent dąży do celu bardziej bezkompromisowo niż człowiek. Jeśli „płacisz” mu za krótszy czas obsługi, stanie się bardzo dobry w pozbywaniu się klientów z linii, niezależnie od tego, czy uzyskali odpowiedź. Spróbuj mierzyć zespół deweloperów udziałem kodu napisanego przez AI, a dostaniesz mnóstwo kodu, który się skompilował i którego nikt nie przeczytał. Gartner oczekuje, że ponad 40% projektów agentów AI zostanie skasowanych do końca 2027 roku, a głównym powodem jest „niejasna wartość biznesowa". Większość jest anulowanych, bo gdy ktoś w końcu zapyta, co agenty zrobiły dla biznesu, nikt nie potrafi powiązać ich działania z konkretnym wynikiem.

Kaskada

Miara transformacji AI, która faktycznie coś znaczy, to nie jedna liczba, lecz łańcuch powiązanych wskaźników, z jedną zasadą. Wszystko, co raportują wskaźniki niskopoziomowe, musi sumować się do czegoś realnego na górze.

Zacznijmy od góry. Poziom 0 to pozycja w rachunku zysków i strat, którą próbujesz poprawić – koszt obsługi (cost-to-serve), marża operacyjna. Poziom 1 to dźwignia operacyjna, która faktycznie zmienia tę pozycję; dla kosztu obsługi będzie to koszt jednostkowy sprawy pomnożony przez ich wolumen. Poziom 2 opisuje kondycję procesu, w którym działa automatyzacja: ile spraw jest obsługiwanych od początku do końca, jak długo to trwa, ile wraca. Poziom 3, na samym dole, to informacja o tym, ile sam agent, porównany z człowiekiem, którego zastępuje, kosztuje netto na sprawę i jak często udziela poprawnej odpowiedzi.

A teraz spróbuj znaleźć „pięć agentów na pracownika" gdziekolwiek w tym łańcuchu. Nie ma niczego takiego nawet na Poziomie 3. Nie istnieje działanie, które przenosi „liczbę wdrożonych agentów" do „kosztu obsługi", więc ta liczba po prostu jest, bez przełożenia na coś, co jest istotne dla zarządu.

Dwie bramki

Poziom 3 to miejsce, gdzie pomiary zwykle tracą rygor, ponieważ pierwszy nasuwający się wskaźnik – bezpośredni koszt obsługi sprawy przez agenta – sprawia, że agent wygląda znacznie lepiej, niż jest w rzeczywistości. Aby zmierzyć to prawidłowo, trzeba zadać dwa pytania, oba w odniesieniu do człowieka, którego agent zastąpił.

Pierwsze pytanie dotyczy realnego kosztu. Agent zużywający 1 zł na inferencję obok człowieka kosztującego 50 zł wygląda na pięćdziesiąt razy tańszego, ale prawie nigdy tak nie jest, gdy dokończysz obliczenia. Jeśli człowiek musi przeczytać efekt pracy agenta i go zatwierdzić, płacisz za ten czas. Każda sprawa, w której agent się pomyli i którą człowiek musi potem poprawić, to sprawa za 50 zł, za którą zapłaciłeś już dwa razy. To, co chcemy wyliczyć, to pełny koszt uwzględniający weryfikację i poprawki. Kiedy to zrobimy, to większość optymistycznych twierdzeń o dziesięciokrotnej obniżce kosztów gdzieś znika.

Drugie pytanie brzmi, czy jakość jest wystarczająco dobra, a „wystarczająco dobra” jest definiowana przez konkretny krok w procesie. Agent nie musi być „mądrzejszy od człowieka”; musi być wystarczająco niezawodny, biorąc pod uwagę, ile kosztuje błąd w tym konkretnym miejscu. Pięcioprocentowy wskaźnik błędów może być nieistotny przy kategoryzacji wydatków, ale stanowi istotne naruszenie w przypadku reklamacji w branży regulowanej. Właśnie dlatego poprzeczkę jakości można ustawić tylko w odniesieniu do tego, ile faktycznie kosztuje błąd w danym miejscu. To asymetria kosztu błędu z ostatniego numeru i to ona naprawdę decyduje, czy agent powinien mieć cokolwiek wspólnego z danym krokiem.

Prosty scorecard pomija trzy rzeczy, które to podejście uwidacznia. Po pierwsze: obniżenie kosztu sprawy i umożliwienie jednej osobie obsłużenia większej ich liczby to nie to samo i lądują w różnych pozycjach rachunku wyników. Uwolnienie czasu pracowników staje się pieniądzem tylko wtedy, gdy ten czas zostanie ponownie wykorzystany lub etaty zredukowane – w przeciwnym razie po prostu wyparowuje. Po drugie: gdy pojawiają się oszczędności, oddziel to, co zrobiła AI, od tego, co zrobiło samo przeprojektowanie procesu. Spora część zysku może pochodzić z samego przeprojektowania (mniej kroków, mniej przekazań, mniej poprawek), które proces obsługiwany przez ludzi mógłby osiągnąć bez rachunku za inferencję. Po trzecie: konsekwencje długoterminowe. Wskaźnik błędów jest widoczny od pierwszego dnia, podczas gdy anulowane umowy pojawiają się dopiero miesiące później, długo po tym, jak pilotaż został zatwierdzony jako sukces.

Przykład — Obsługa reklamacji

Weźmy zespół reklamacyjny obsługujący 200 000 spraw rocznie, każda kosztująca w pełni 50 zł. To 10 mln zł widniejące na Poziomie 0 jako koszt obsługi. Teraz wrzućmy w środek tego procesu agenta.

Dostawca na początek poda wskaźnik rozwiązania spraw (resolution rate), a pierwszą rzeczą, którą trzeba zrozumieć na temat tej liczby, jest to, jak gwałtownie zmienia się ona między wdrożeniami. Fin od Intercom osiąga około 66-67% skuteczności u swoich 8000 klientów, najsilniejsze wdrożenia Sierry dochodzą ich zdaniem do 90%, a wiele agentów w latach 2024 i 2025 nigdy nie przekroczyło progu dwudziestu kilku procent. Zatem stwierdzenie „wdrożyliśmy agenta” nie niesie prawie żadnej informacji. Kluczowy jest wskaźnik rozwiązania spraw i w zależności od jego wartości, albo osiągnąłeś poważne oszczędności, albo narobiłeś sobie kosztownego bałaganu.

Powiedzmy, że agent zamyka 60% reklamacji od początku do końca za 1 zł za sztukę, a pozostałe 40% kieruje do człowieka (50 zł za sprawę), zanim zrobi coś nieodwracalnego. Na slajdzie agent kosztuje 1 zł za sprawę — wygląda na jakieś pięćdziesiąt razy taniej od człowieka. Uczciwy koszt netto to jednak 21 zł, a koszt obsługi spada z 10 mln zł do około 4,2 mln zł. To realna oszczędność, ale agent jest tańszy mniej więcej dwa i pół raza, a nie pięćdziesiąt.

Ten sam agent, te same 200 000 spraw. To, co zamienia „pięćdziesiąt razy taniej" w „nieco ponad dwa razy", to wyłącznie kwestia tego, które koszty policzysz: sam rachunek za inferencję, czy rachunek za inferencję plus koszt obsłużenia przez człowieka wszystkiego, czego agent nie domknął.

Jakość obsługi decyduje, czy w ogóle powinieneś uruchamiać tę automatyzację. Błędnie zamknięta reklamacja to zazwyczaj duży koszt — może oznaczać nawet utratę klienta, zgłoszenie do UOKiK, straty reputacyjne. Jeśli wskaźnik rozwiązania na poziomie 66% oznacza, że mniej więcej jedna trzecia reklamacji jest po cichu zamykana błędnie, koszt tych pomyłek z pewnością przewyższy oszczędności na pensjach, które próbowałeś osiągnąć. Wskaźnik, który należy śledzić, to zatem odsetek reklamacji zamkniętych poprawnie, przy wskaźniku błędów, na który firma faktycznie może sobie pozwolić.

Briefing

Podczas CamundaCon w Amsterdamie 20 maja firma Camunda zaprezentowała ProcessOS, „agentowy system operacyjny”, który ma odkrywać, przeprojektowywać i ciągle optymalizować procesy biznesowe, a nie tylko automatyzować te już opisane. Został on zaprezentowany 1200 firmom z wyraźnym przesłaniem: stanie się firmą „AI-native” oznacza najpierw przeprojektowanie procesów u podstaw, a nie doczepianie agentów do starych. Niezależnie od tego, czym ten produkt okaże się w praktyce, jest to znacząca zmiana stanowiska ze strony głównego dostawcy orkiestracji, który teraz sprzedaje przeprojektowanie procesów jako produkt, pokazując agentów jako jego konsekwencję.

Google na konferencji I/O 19-20 maja udostępniło Gemini 3.5 Flash, a wersja Pro ma pojawić się w przyszłym miesiącu. Interesująca jest cena. Nowy Flash działa przy koszcie za token około trzy razy wyższym niż model, który zastępuje. Ponieważ zużywa też znacznie więcej tokenów na zadanie, niezależne testy przeprowadzone przez Artificial Analysis wykazały, że koszt realizacji tego samego zadania jest około pięć razy wyższy. To na tyle dużo, że w zadaniach agentowych często okazuje się droższy niż wersja Pro poprzedniej generacji. Google idzie tutaj w ślady OpenAI i Anthropic: zarówno GPT-5.5, jak i Claude Opus 4.7, okazały się droższe niż ich poprzednicy. Wygodne założenie, że inferencja zawsze tanieje, nie sprawdza się w rzeczywistości, o czym warto pamiętać budując business case na wdrożenie.

Pytania do managementu

Czy nasz wskaźnik zaawansowania transformacji liczy agentów i wdrożenia, czy śledzi realną zmianę w konkretnej pozycji rachunku zysków i strat?
Czy dla każdej automatyzacji znamy koszt netto po uwzględnieniu nadzoru i poprawek, a nie tylko rachunek za inferencję? Czy sprawdziliśmy, że agent jest tańszy po doliczeniu czasu weryfikacji przez człowieka?
Czy „ukończone szkolenie z AI" (obowiązek z Artykułu 4 EU AI Act, obowiązujący od lutego 2025 r.) trafiło na slajd dla zarządu jako wynik transformacji? Ukończenie obowiązkowego szkolenia pokazuje, że organizacja jest zgodna z przepisami (compliance). Nie mówi nic o tym, czy stworzono jakąkolwiek wartość.
Kiedy porównujemy agenta z człowiekiem, czy jest to człowiek pracujący w ramach przeprojektowanego procesu, czy starego? I czy poprzeczka jakości jest ustawiona względem tego, ile faktycznie kosztuje błąd na tym konkretnym etapie?

Podsumowanie

Cokolwiek zdecydujesz się mierzyć przy pierwszym wdrożeniu, w efekcie stanie się celem, który będzie starała się osiągnąć organizacja. Numer 46 newslettera poruszał ten temat w odniesieniu do wyboru pierwszego przypadku użycia; jest to co najmniej tak samo istotne dla liczby, na podstawie której oceniasz pracę. Nagradzaj za liczbę zbudowanych agentów, a będziesz mieć organizację, która jest bardzo dobra w produkowaniu agentów i mało zainteresowana tym, czy na siebie zarabiają.

Dla każdego KPI mierzącego efekty wdrożenia AI warto zadać jedno kluczowe pytanie — czy potrafimy wykazać zależność między jego wartością a mierzalnym wpływem na P&L? „Pięć agentów na pracownika" nie przechodzi tego testu.

Zachowaj równowagę, Krzysztof

Krzysztof Goworek jest założycielem Quintant — firmy doradczej, która prowadzi przedsiębiorstwa od eksperymentów z AI do realnej, mierzalnej wartości.