Drogi Czytelniku,
Na początku czerwca dział Experiences + Devices w Microsoft polecił tysiącom swoich inżynierów, aby przestali używać Claude Code i przeszli na GitHub Copilot. Narzędzie nie zawiodło; działało tak dobrze, że inżynierowie sięgali po nie nieustannie. Ponieważ Claude Code rozlicza klientów enterprise za zużycie tokenów, miesięczny koszt wzrósł do około 2000 USD na inżyniera i roczny budżet działu na AI wyparował w ciągu jednego kwartału. Kilka dni później, w nocy 12 czerwca, Anthropic wyłączyło swoje dwa najpotężniejsze modele, Fable 5 i Mythos 5, dla wszystkich użytkowników na świecie. Powodem była dyrektywa kontroli eksportu wydana przez US Commerce Department, która zabroniła firmie udostępniania ich obcokrajowcom, w tym jej własnym pracownikom nieposiadającym amerykańskiego obywatelstwa. Uwaga — oznacza to, że Andrej Karpathy, który niedawno dołączył do Anthropic, również dostał zakaz dostępu do modelu. Ponieważ Anthropic nie było w stanie precyzyjnie odseparować zagranicznych użytkowników, wyłączyło modele całkowicie. Wielu developerów zaczęło już korzystać z modelu, bo jego jakość jest bardzo dobra — w sobotę obudziła ich niespodzianka.
W jednym przypadku koszt wymknął się spod kontroli, w drugim produkt zniknął z dnia na dzień. O problemach z tym, że modele frontier bywają nieopłacalnie drogie, mówi się od jakiegoś czasu. Mieliśmy też do czynienia z prawdopodobnie celowym obniżaniem poziomu rozumowania modelu. Sytuacja, w której topowy model został z dnia na dzień całkowicie wyłączony, wydarzyła się po raz pierwszy.
Technologia, która się nie ustabilizowała
Warto powiedzieć, dlaczego generatywna AI cechuje się takimi problemami, podczas gdy reszta stosu technologicznego w firmach — nie. Software-as-a-Service i chmura obliczeniowa miały swoją burzliwą młodość, po czym ustabilizowały się. Nadal podnoszą ceny i zmieniają warunki, ale robią to zazwyczaj według opublikowanych harmonogramów i w granicach, na które klienci są w stanie się przygotować. Dlatego firma może budować wieloletnią zależność od AWS czy Salesforce i specjalnie się tym nie przejmować. Generatywna AI nie osiągnęła jeszcze tego etapu z dwóch powodów.
Pierwszy jest taki, że technologia jest wciąż młoda i rozwija się we wszystkich kierunkach naraz — jej możliwości, cena i architektura zmieniają się z kwartału na kwartał. Założenie, że koszt inferencji będzie zawsze spadał — bo tak zazwyczaj objawia się postęp technologiczny, nie jest aktualne: Fable 5 kosztuje 50 USD za milion tokenów wyjściowych. Ponieważ nowsze modele Claude używają tokenizera, który generuje do 35% więcej tokenów dla tego samego tekstu, model, którego nominalna cena się nie zmieniła, może wciąż kosztować o jedną trzecią więcej za pojedyncze zapytanie. Agenty AI potęgują ten efekt, ponieważ jedno zadanie agentowe zużywa od pięciu do trzydziestu razy więcej tokenów niż zwykła wymiana zdań z chatbotem.
Drugi powód jest istotniejszy: generatywna AI ingeruje w funkcjonowanie cywilizacji znacznie głębiej niż jakakolwiek wcześniejsza fala IT. Awaria SaaS to niedogodność dla osób używających konkretnego narzędzia. Natomiast model, który można nakłonić do napisania działającego exploita, to obiekt zupełnie innej kategorii — taki, który rząd traktuje jako kwestię bezpieczeństwa narodowego. Co dokładnie wywołało dyrektywę w sprawie Fable 5, wciąż jest przedmiotem sporu. Oficjalnym powodem było wykrycie sposobu na pokonanie guardrails modelu. Jednak badacz zaangażowany w projekt twierdzi, że praca miała charakter defensywny, a nie ofensywny, a Amazon, jeden z największych inwestorów Anthropic, podobno już wcześniej zgłaszał obawy. Decyzja ta zapadła również w trakcie wielomiesięcznego sporu między Anthropic a administracją, co może sugerować, że jest to odwet. Anthropic przez ostatnie trzy miesiące informowało świat, jak niebezpieczny jest ten model, więc trudno się dziwić, że rząd w końcu potraktował te ostrzeżenia dosłownie. Chmura obliczeniowa nigdy nie została objęta nakazem kontroli eksportu.
Praktyczny wniosek: nie powinieneś planować rozwiązań tak, jakby AI miała ustabilizować się w spokojną, przewidywalną usługę w takim samym tempie jak chmura. W dającej się przewidzieć przyszłości jej cena i dostępność pozostaną trudne do przewidzenia.
Drabina ekspozycji
Skoro zależność pozostanie niestabilna, pytanie brzmi: jak dużą część procesów biznesowych warto na niej opierać? Niemal każde zadanie, które można powierzyć modelowi frontier, da się wykonać z mniejszym poziomem ryzyka. Można wyobrazić sobie te poziomy jako szczeble drabiny, uporządkowane według tego, jak bardzo zależysz od zewnętrznego dostawcy AI. Najniżej jest zwykły kod deterministyczny — reguły i walidacje. Nie korzysta z żadnego modelu, więc nie ma kosztu za tokeny ani dostawcy AI, który mógłby odciąć dostęp. Zostaje zwykłe ryzyko oprogramowania, a jego poziom zależy od tego, czy uruchamiasz je on-premise, czy w SaaS. Wyżej jest mały model lub model open-weights. Jest tańszy od modelu frontier i łatwiej go zastąpić, więc wzrost ceny lub utrata dostępu mają mniejszy wpływ. Najwyżej jest API modelu frontier. Daje najwięcej możliwości, ale najbardziej zależysz od jego ceny i dostępności.
Najwygodniej potraktować topowy model jako domyślny, bo jest najłatwiejszy do wdrożenia. API modelu frontier potrafi sensownie odpowiedzieć na niemal każde pytanie, więc w końcu zadajemy mu każde pytanie. W rezultacie realizujemy znacznie więcej swoich operacji, niż musimy, korzystając z narzędzia, które jest poza naszą kontrolą. Rozwiązanie to przypisywana Einsteinowi zasada, żeby wszystko realizować tak prosto, jak się da, ale nie prościej.
Zasady upraszczania
Używaj reguł deterministycznych tam, gdzie zadanie jest deterministyczne. Dotyczy to zdecydowanej większości zadań — walidacji pola, kierowania żądania według znanych warunków, pobierania danych według stałego schematu, sprawdzania wartości względem progu. Takie problemy reguła rozwiązuje dokładnie, od razu i bez kosztu za każde użycie. Mamy też sprawdzone, stabilne i dobrze przebadane modele ML, które doskonale sprawdzają się w zadaniach decyzyjnych czy predykcji. Część wiarygodności programu AI bierze się z umiejętności wskazania, gdzie AI nie jest potrzebne.
Warto natomiast korzystać z narzędzi GenAI do szybkiego i sprawnego generowania kodu deterministycznego. W tym sprawdzają się świetnie i jest to zadanie design-time, a nie run-time, więc niedostępność narzędzia nie zatrzymuje procesów operacyjnych.
Tam, gdzie model GenAI jest potrzebny, użyj najmniejszego, który spełnia próg jakości dla danego zadania. Za możliwości, których nie używasz, płacisz dwa razy — raz w cenie, raz w budowaniu zależności od dostawcy. Weźmy proste zadanie klasyfikacji: sortowanie zgłoszeń do wsparcia według typu. Z wykorzystaniem modelu frontier będzie kosztować kilkadziesiąt groszy za wywołanie. Z dobrze dobranym modelem średniej wielkości kosztuje ułamek tej kwoty, a jakość jest taka sama. Oszczędność jest oczywista. Mniej oczywiste jest to, że mniejszy model to także mniejsza zależność. Model open-weights, taki jak M3 od MiniMax — który według ostatnich doniesień dorównuje modelom frontier w części benchmarków za ułamek ceny — można pobrać i uruchomić lokalnie. Wtedy żadna decyzja eksportowa ani zmiana cennika nie odbierze ci go z dnia na dzień.
Kolejny przypadek dotyczy wąskiego zakresu zadań — takich, które mają duży wolumen i są krytyczne dla ciągłości działania. Dla nich warto rozważyć uruchomienie małego modelu na własnej infrastrukturze. Wtedy nie płacisz za każde użycie i nikt z zewnątrz nie może wyłączyć ci modelu. Ma to sens wtedy, gdy spełnione są dwa warunki naraz: zadanie jest na tyle wąskie, że mały model je wykona, a ty masz zespół zdolny uruchomić i utrzymać ten model na produkcji. Oddajesz część możliwości modelu frontier w zamian za kontrolę. Dla uzgadniania płatności to dobra wymiana; dla otwartej analizy — zła. Decyzja w sprawie Fable 5 była decyzją rządu USA o tym, kto może używać amerykańskiego modelu. Model open-weights na własnej infrastrukturze to rozwiązanie, którego polityka eksportowa obcego rządu nie dosięgnie.
Briefing
Mistral AI wykorzystał konferencję AI Now w Paryżu pod koniec maja, aby przedstawić strategię obejmującą cały stos technologiczny. Firma uruchomiła platformę agentową Vibe, weszła w przemysłowe AI dla przemysłu lotniczego i motoryzacyjnego oraz szczegółowo opisała plany budowy centrów danych. CEO Arthur Mensch zapowiedział, że firma rozważy projektowanie własnych chipów. Dla europejskich przedsiębiorstw analizujących ryzyko koncentracji sygnał jest jasny: kontynent ma teraz dostawcę o skali frontier, planującego pokrycie całego stosu rozwiązań: od krzemu po agenty, a nie cienką warstwę owiniętą wokół amerykańskich modeli.
Tymczasem Microsoft zaczął dystansować się od swojego najbliższego partnera: szef działu AI firmy powiedział, że Microsoft został “uwolniony” od OpenAI, aby samodzielnie dążyć do superinteligencji na własnych modelach MAI. Kończy to okres, w którym strategia AI Microsoftu i OpenAI były w praktyce tożsame. Firma, która zbudowała najsilniejszą pozycję w enterprise AI, opierając się na jednym dostawcy, teraz traktuje tę zależność jako coś, z czego należy wyrosnąć.
Anthropic złożyło poufny wniosek o wejście na giełdę przy wycenie bliskiej 965 miliardów USD, na kilka tygodni przed tym, jak rząd wyłączył ich flagowe modele.
Pytania dla Twojego zespołu zarządzającego
- Dla naszych pięciu największych obciążeń AI, na którym szczeblu drabiny ekspozycji znajduje się każde z nich? Czy jest to najniższy szczebel, który faktycznie by sobie poradził z zadaniem? Ile z nich to problemy deterministyczne, które rozwiązujemy za pomocą probabilistycznego, rozliczanego za użycie modelu?
- Gdyby nasz główny model podwoił cenę lub zniknął dziś w nocy, które procesy by się zatrzymały i jakie byłyby skutki biznesowe? Czy mamy plan postępowania w takiej sytuacji?
- Czy mamy kompetencje, aby samodzielnie uruchomić model tam, gdzie jest to naprawdę istotne, czy nasza zależność od jednego zewnętrznego dostawcy jest w praktyce permanentna?
- Czy którekolwiek z naszych krytycznych procesów działają na modelu, którego dostępność jest uzależniona od polityki eksportowej obcego rządu? Jeśli tak, czy rozumiemy i akceptujemy ryzyko?
Podsumowanie
Cena i dostępność modeli frontier będą się zmieniać tak długo, jak długo technologia będzie się dynamicznie rozwijać i będzie uznawana za dającą przewagę geopolityczną — czyli jeszcze przez dłuższy czas. To, co jest pod naszą kontrolą, to jak duża część biznesu się na niej opiera. Celem jest używanie najtańszego i najbardziej stabilnego narzędzia, które wykona dane zadanie. Dzięki temu będziemy znacznie lepiej zarządzać ryzykiem nieprzewidywalności kosztów i działań wynikających z decyzji politycznych, a procesy w organizacji będą bardziej przewidywalne i efektywne. No ale niestety uzyskanie takiego stanu wymaga więcej pracy niż proste powierzenie decyzji LLM-om.
Zachowaj równowagę, Krzysztof Goworek
Krzysztof Goworek jest założycielem Quintant — firmy doradczej, która prowadzi przedsiębiorstwa od eksperymentów AI do realnej, mierzalnej wartości.