#53 — Wiedza, której nikt nie posiada

Drogi Czytelniku,

We wrześniu zeszłego roku Harvard Business Review nazwał coś, co większość z nas już poznała: workslop. Badacze ze Stanfordu i firmy BetterUp zdefiniowali go jako treści generowane przez AI, które wyglądają na ukończoną pracę, ale nie ma w nich śladu ludzkiego myślenia, więc całe myślenie musi wykonać odbiorca. Przebadali ponad tysiąc pracowników. Czterdzieści jeden procent z nich otrzymało workslop w ciągu poprzedzającego miesiąca, a każdy taki przypadek kosztował odbiorcę średnio dwie godziny na rozszyfrowanie, naprawę lub wykonanie pracy od nowa.

Kluczowy jest głębszy problem, który pozostaje niezarządzony, bo w organizacjach nie mamy mechanizmów, by go mierzyć.

Ekonomika pracy umysłowej się zmieniła, a jej rozliczanie za tym nie nadążyło. Wytworzenie dokumentu, raportu czy działającego fragmentu kodu kosztowało kiedyś więcej niż samo jego zrozumienie: trzeba było przyswoić materiał, a potem jeszcze go stworzyć i dopracować. To połączenie zostało zerwane. Model produkuje dziś w sekundy to, czego przyswojenie wciąż zajmuje człowiekowi godziny.

Organizacje zapełniają się więc materiałami, których nikt nie przeczytał: prezentacjami tworzonymi w minuty i przeglądanymi przez trzydzieści sekund, analizami wklejanymi do kolejnej prezentacji, kodem, który się kompiluje i przechodzi review, ale którego nikt w zespole nie rozumie. Wszystko to wygląda, jakby praca posuwała się naprzód. Niewiele z tego sprawia, że ktokolwiek wie więcej niż wcześniej.

To jest dług poznawczy. Przypomina on dług technologiczny, ale to nie to samo. Dług technologiczny to bałaganiarski kod, który zdecydowałeś się wypuścić z zamiarem posprzątania go później. Dług poznawczy to brak zrozumienia: nie zbudowałeś go, bo maszyna wykonała tę część pracy, która by cię czegoś nauczyła.

Dlaczego maszynowo tworzone treści nie zapadają w pamięć

Mechanizm jest starszy niż AI. Psychologowie od lat 70. wiedzą, że znacznie lepiej zapamiętujemy to, co sami wytworzymy, niż to, co otrzymamy. Slamecka i Graf nazwali to w 1978 roku efektem generowania i potwierdziły go kolejne badania. Odpowiedź wypracowaną samodzielnie zapamiętujemy o wiele lepiej niż tę, którą tylko przeczytaliśmy.

Drugi efekt potęguje pierwszy. Kiedy oczekujemy, że narzędzie przechowa dla nas informację, sami przestajemy ją przechowywać. Sparrow i współpracownicy wykazali to w 2011 roku, w erze Google: ludzie, którzy wiedzieli, że mogą coś później sprawdzić, zapamiętywali, gdzie to znaleźć, a nie co to było (Science). Zastąpmy wyszukiwarkę modelem, który pisze całą odpowiedź, a ta sama zmiana obejmie samo myślenie. Zostajemy z promptem, który wpisaliśmy, i z bardzo niewielką częścią tego, co model nam powiedział.

Trzeci efekt sprawia, że dwa pierwsze trudniej zauważyć. Płynny output daje nam poczucie, że rozumiemy rzeczy, których nie rozumiemy. Rozenblit i Keil nazwali to w 2002 roku iluzją głębi wyjaśniania: ludzie są pewni, że potrafiliby wyjaśnić, jak działa rower albo rynek, dopóki nie zostaną o to poproszeni. Dopracowany briefing od AI budzi tę samą pewność siebie, a jego płynność jest mylona ze zrozumieniem, którego u czytelnika tak naprawdę nie ma.

Wszystkie trzy efekty pojawiają się razem w jednym badaniu. Bastani i współpracownicy, w artykule opublikowanym w PNAS, objęli badaniem około tysiąca uczniów szkół średnich i dali im dostęp do tutora AI. Ci, którzy używali go bez ograniczeń, osiągnęli o 48% lepsze wyniki w zadaniach próbnych. Kiedy na czas egzaminu narzędzie im zabrano, ci sami uczniowie uzyskali wyniki o 17% gorsze niż rówieśnicy, którzy nigdy go nie mieli. Wypadli dobrze, ale niczego się nie nauczyli — dokładnie to widać w 17-punktowym spadku na egzaminie.

Koszt ląduje na cudzym biurku

Osoba, która wygenerowała slop, zaoszczędziła czas i poczuła się bardziej produktywna. Koszt pojawił się ponownie trzy biurka dalej i nikt go nie zmierzył. W skali całej firmy tworzy to narrację, która poprawia nastrój każdemu z osobna, podczas gdy całość zwalnia. HBR oszacował ten ukryty podatek na 186 dolarów miesięcznie na każdego pracownika, który taki materiał dostaje. Ponieważ workslop trafia do 41% z nich, w firmie liczącej dziesięć tysięcy osób daje to ponad dziewięć milionów dolarów rocznie, których nie rejestruje żaden dashboard.

Dlatego tak łatwo to przeoczyć. Widzimy tempo i jednostkową oszczędność czasu. Koszt pojawia się później, w innym miejscu.

Kiedy pod treścią nic nie ma

Do tej pory zakładaliśmy, że output AI jest przynajmniej poprawny, a to, czego brakuje, to zrozumienie, które człowiek zbudowałby, tworząc go. Duża część generowanych treści nie osiąga nawet tego standardu.

Kiedy ktoś otwiera ogólne okno czatu i prosi o napisanie raportu, model nie ma dostępu do danych firmy, jej plików ani sposobu, w jaki faktycznie działa. Produkuje tekst, który dobrze się czyta, bo do tego te systemy są szkolone, ale nie potrafi zakotwiczyć tego tekstu w niczym, co jest prawdą o firmie. W rezultacie pojawiają się zmyślenia: liczby, których nikt nie sprawdził, twierdzenia dopasowane bardziej do brzmienia niż do faktów, pewne siebie stwierdzenia o firmie, której model nigdy nie widział.

Taka treść jest groźna w inny sposób: może być wprost nieprawdziwa, a brzmi równie pewnie i autorytatywnie. Problem tkwi w dopracowanej formie. Czytelnik bierze płynność za dowód wartości i nie ma jak tego zweryfikować.

Jak to wpływa na organizację

Jeśli ten stan potrwa kilka lat, zaczną cierpieć trzy obszary organizacji.

Pierwszy to pamięć instytucjonalna. Firma może dokumentować każdą decyzję i wciąż zapominać, jak działa, ponieważ zrozumienie żyło w jej ludziach. Kiedy rozumowanie oddaje się modelowi, dokumentów przybywa, a ludzie, którzy stali za tym rozumowaniem, odchodzą lub zmieniają stanowisko. Pozostanie dobrze udokumentowana firma, która nie potrafi już sama siebie wyjaśnić.

Drugi to kurczący się zasób osądu. Seniorzy, którzy potrafią stwierdzić, kiedy output AI jest błędny, choć tego nie widać, wyrobili sobie ten instynkt, wykonując tę pracę samodzielnie przez lata. Juniorzy już jej nie wykonują. Digital Economy Lab ze Stanfordu znalazło w zeszłym roku pierwsze twarde dowody w danych płacowych: zatrudnienie pracowników w wieku 22-25 lat na stanowiskach najbardziej narażonych na AI spadło o około 16% od pojawienia się tej technologii (Canaries in the Coal Mine). Firma zachowuje osąd, który zbudowali jej obecni seniorzy, i przestaje rozwijać go w następnym „pokoleniu" pracowników.

Trzeci to odporność, która ujawnia się tylko wtedy, gdy pojawia się rzadki, trudny przypadek. Badanie Harvardu i BCG na 758 konsultantach wykazało, że AI podniosło wydajność w zadaniach mieszczących się w jej kompetencjach i obniżyło ją w zadaniach spoza nich, gdzie ludzie zdawali się na pewny siebie, błędny output (HBS working paper). Praca, którą wchłania AI, jest w większości rutynowa, a to właśnie praca rutynowa buduje osąd potrzebny w trudniejszych przypadkach. Kiedy nadchodzi czarny łabędź, AI nie potrafi sobie z nim poradzić, a człowiek obok nie ma wprawy.

Ten sam wzorzec, poziom wyżej

Istnieje wersja tego zjawiska w skali cywilizacji. Modele trenowane na danych generowanych przez inne modele ulegają degradacji. Shumailov i współpracownicy w artykule w Nature z 2024 roku nazwali to załamaniem modelu (model collapse). To odpowiednik chowu wsobnego: trenowany w kółko na własnych wynikach model degeneruje się, traci różnorodność, gubi rzadkie warianty i zaczyna odtwarzać coraz węższą, uśrednioną wersję rzeczywistości. Społeczeństwo, które ciągle produkuje informacje, których prawie nikt nie przyswaja, przeprowadza na sobie wolniejszą wersję tego samego eksperymentu.

Co się zmienia, gdy systemy stają się dobre

Oczywista odpowiedź brzmi, że jest to problem prymitywnego użycia AI, a lepsze użycie go eliminuje. Zbudujmy porządne systemy agentowe zamiast okien czatu: osadzone w danych i procesach firmy, z ograniczeniami uniemożliwiającymi zmyślanie, na tyle autonomiczne, by produkować materiał, który się broni. Czy to rozwiązuje problem długu poznawczego?

Pomaga to z częścią problemu. Ugruntowany system produkuje znacznie mniej takich treści, a wiedza, z której czerpie, jest przechowywana w trwałym, sprawdzalnym miejscu, zamiast znikać po każdym prompcie. Wiedza nie musi w całości siedzieć w ludzkich głowach; może żyć w korpusie danych i architekturze, które odzwierciedlają, jak działa firma. To realna poprawa w stosunku do okna czatu.

Trudniejsza część nie znika; przenosi się na mniejszą liczbę osób. Ktoś nadal musi wiedzieć, co system zawiera, a co pomija, gdzie przestaje być wiarygodny i kiedy dane, na których się opiera, straciły aktualność. To mniejsza grupa posiadająca bardziej wymagający rodzaj wiedzy. A im lepiej system działa, tym mniej ktokolwiek czuje potrzebę, by go rozumieć, i wtedy ludzie przestają go sprawdzać. Rzadki przypadek, w którym system się myli, jest wtedy tym, na który nikt nie jest gotowy.

Lotnictwo nauczyło się tego na przykładzie autopilota: w miarę jak automatyzacja stawała się coraz pewniejsza, zanikały umiejętności manualne (FAA udokumentowała to w 2013 r.), a koszt pojawiał się w tych bardzo rzadkich sytuacjach, kiedy zawiodła. Sumarycznie poziom bezpieczeństwa transportu lotniczego jednak stale rośnie — automatyzacja jest coraz lepsza, ale istnieją też bardzo szczegółowe i kompleksowe procedury, których przestrzegają piloci i personel techniczny. To samo ryzyko i ta sama szansa tkwią w systemach agentowych. Zadanie polega na tym, by zdecydować, którzy ludzie muszą rozumieć sam system, i trzymać ich wystarczająco blisko jego rozumowania i ograniczeń, by mogli wkroczyć, gdy zawiedzie.

Co robi z tym poważna organizacja

Żaden z tych argumentów nie przemawia przeciwko używaniu AI i nie to jest moim celem. Pytanie brzmi, gdzie odbywa się myślenie i kto ostatecznie za nie odpowiada.

Firmy, które dobrze sobie z tym poradzą, będą działać celowo. Zdecydują, którą pracę ludzie muszą wykonywać sami, ponieważ niektóre zadania istnieją po to, by budować zrozumienie u osoby, która je wykonuje, a kiedy oddajemy je maszynie, tracimy to zrozumienie. Potraktują zalew treści AI jako osobny problem zarządczy i tak zorganizują pracę, by zanim cokolwiek dotrze do klienta, regulatora czy zarządu, konkretna osoba potrafiła odtworzyć stojące za tym rozumowanie.

Prawo zmierza w tym samym kierunku. EU AI Act wymaga ludzkiego nadzoru nad systemami wysokiego ryzyka, a nadzór ten liczy się tylko wtedy, gdy osoba nadzorująca jest w stanie faktycznie prześledzić decyzję. Jeśli ktoś podpisuje się pod decyzją, nie umiejąc wyjaśnić, jak system do niej doszedł, niczego nie nadzoruje.

Zaprojektowanie pracy tak, by budowała zrozumienie, zamiast je ograniczać, jest rozwiązywalnym problemem. Sprowadza się to do tego, jakie role zdefiniujemy dla ludzi i które decyzje pozostaną w ich rękach. Na tym spędzam teraz większość czasu i jest to praca, której spodziewam się po większości poważnych organizacji w ciągu dwóch lat, niezależnie od tego, czy to planują, czy nie.

Briefing

SpaceX zdecydował się kupić Anysphere, firmę stojącą za agentem do kodowania Cursor, za 60 miliardów dolarów w transakcji zakupu akcji, co jest jednym z największych dotychczasowych przejęć w segmencie narzędzi AI dla przedsiębiorstw. CNBC przedstawia to jako ruch mający na celu zmniejszenie dystansu do rywali w wyścigu AI w kodowaniu. Warstwa narzędzi do kodowania z AI konsoliduje się w rękach kilku dużych właścicieli, co każe zapytać, kto za dwa lata będzie kontrolował narzędzia, od których zależą twoi inżynierowie.

Salesforce kupuje Fin, autonomicznego agenta do obsługi klienta (wcześniej znanego jako Intercom), za około 3,6 miliarda dolarów i włącza go do Agentforce (TechCrunch). Agentowa obsługa klienta przechodzi od pilotażu do platformy, a wraz z nią przenoszą się pytania o ludzki nadzór.

Microsoft przeszedł z Copilot Cowork na model cenowy oparty na zużyciu i podobno rozważa hostowaną przez siebie wersję DeepSeek jako tańszą opcję modelową (Axios). Przejście od stałych opłat do rozliczania za zużycie przypomina, że w korporacyjnym AI wciąż poruszamy się po ruchomych piaskach.

Pytania dla twojego zespołu liderów

Które zadania oddaliśmy AI głównie po to, by zaoszczędzić czas, podczas gdy prawdziwą wartością było zrozumienie, które człowiek zbudowałby, wykonując tę pracę? Czy niechcący utraciliśmy część tego zrozumienia?
Gdyby KNF, UODO lub nasz własny zarząd poprosił kogoś o odtworzenie rozumowania stojącego za decyzją wspieraną przez AI, czy ta osoba byłaby w stanie to zrobić? EU AI Act uznaje nadzór za realny tylko wtedy, gdy nadzorujący jest w stanie prześledzić decyzję.
Kto buduje osąd, który pozwala nam wyłapać, kiedy model jest pewny siebie i w błędzie? Co stanie się z zasobem tego osądu, gdy juniorzy przestaną wykonywać pracę, dzięki której powstawał?
Kiedy oceniamy wartość AI, czy patrzymy tylko na to, co wyprodukowała, czy również na to, co nasi ludzie z tego zrozumieli? Mierzenie samego outputu ukrywa zrozumienie, które być może tracimy.

Podsumowanie

AI sprawiła, że produkcja treści stała się niemal darmowa, podczas gdy jej zrozumienie pozostaje kosztowne, a powstała w ten sposób luka to dług poznawczy. Łatwo go przeoczyć, ponieważ wygląda jak poprawa tempa pracy, a nie jak widoczna strata, i ponieważ koszt zazwyczaj spada na kogoś innego niż osoba, która go stworzyła. Jeśli się nim nie zarządza, osłabia pamięć instytucjonalną, zasób osądu i odporność, na której polegasz w rzadkich, trudnych przypadkach. Firmy, które dobrze sobie z tym radzą, świadomie decydują, w których miejscach ludzie muszą wykonywać trud myślenia.

Zachowaj równowagę, Krzysztof Goworek

Krzysztof Goworek jest założycielem Quintant — firmy doradczej, która prowadzi przedsiębiorstwa od eksperymentów AI do realnej, mierzalnej wartości.