Do końca 2025 roku wszystko, co związane z czatem, prowadziliśmy bezpośrednio przez OpenAI. Jedno konto, jeden klucz, jeden rachunek. W styczniu 2026 roku przeszliśmy na agregator multi-modelowy. Oto, co się naprawdę wydarzyło.

Co mieliśmy

  • OpenAI enterprise tier — $~$8k/miesiąc na wszystkich powierzchniach
  • Wszystkie uzupełnienia czatu na gpt-4o lub gpt-4o-mini
  • Jeden model osadzania, jeden model obrazów (DALL-E 3)
  • Bezpośrednia integracja SDK w czterech usługach

Co spowodowało zmianę

  • Claude Opus 4.6 uzyskiwał zauważalnie lepsze wyniki w naszych ocenach kodowania agentowego
  • Gemini 3 Pro stał się wyraźnym zwycięzcą w analizie dokumentów o długim kontekście
  • Chcieliśmy przetestować modele open-source (DeepSeek, Llama 4) bez uruchamiania infrastruktury inferencyjnej
  • Obsługa pięciu dostawców oznaczała pięć umów, pięć cykli rozliczeniowych, pięć pulpitów ograniczeń szybkości

Migracja

Przeszliśmy na agregator kompatybilny z OpenAI (właściwie ten — używamy naszego własnego produktu w produkcji). Cała zmiana polegała na zastąpieniu baseURL i apiKey w SDK. Różnica w kodzie wynosiła 8 linii w czterech usługach.

// Before
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// After
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Co zmieniło się w rachunku

  • Czat (GPT-4o → mieszany GPT-4o + Claude Sonnet w zależności od zadania): -22%
  • Kodowanie agentowe (przeniesione do Claude Opus): +8%, ale oceny poprawiły się o 15 punktów
  • Analiza długiego kontekstu (przeniesiona do Gemini 3 Pro): -40%
  • Generowanie obrazów (przeniesione z DALL-E 3 do Nano Banana): -65%

Efekt netto na miesięcznym rachunku: -28%. Lepszy wybór modelu na każdej powierzchni + niższe stawki za token od agregatorów upstream, z którymi nie musimy negocjować bezpośrednio.

Trzy rzeczy, które poszły nie tak

  • Różnice w formacie strumieniowym SSE. Claude strumieniuje nieco inaczej niż OpenAI. Nasza logika bufora po stronie klienta przestała działać na około 10 minut, dopóki nie dodaliśmy warstwy zgodności.
  • Liczenie tokenów. Różne modele tokenizują inaczej. Nasza wewnętrzna metryka "użyte tokeny na rozmowę" musiała zostać skalibrowana na nowo dla każdego modelu.
  • Buforowanie oparte na nazwie modelu. Nasz bufor podpowiedzi używał gpt-4o jako klucza. Kiedy zaczęliśmy kierować niektóre żądania do Claude, otrzymywaliśmy nieaktualne trafienia z bufora. Lekcja: zawsze uwzględniaj model w kluczach bufora.

Czy zrobilibyśmy to ponownie?

Tak — z trzech powodów niezwiązanych z kosztami.

  • Opcjonalność. Kiedy OpenAI miało 40-minutową awarię 3 kwietnia, nasza powierzchnia czatu działała dalej, ponieważ ruch automatycznie przeszedł na Anthropic i Gemini. To samo w sobie jest warte migracji.
  • Równość modeli to przeszłość. W 2026 roku nie ma "najlepszego modelu". Jest najlepszy model dla każdego zadania. Agregacja to sposób, w jaki faktycznie można to wykorzystać.
  • Jeden rachunek. Finanse chciały tego bardziej niż inżynieria. Jedna faktura, jedna relacja z dostawcą, jedna umowa na 12 dostawców.

Jeśli prowadzisz jakąkolwiek znaczącą działalność na jednym dostawcy, zmiana zwraca się w pierwszym miesiącu.