Do końca 2025 roku wszystko, co związane z czatem, prowadziliśmy bezpośrednio przez OpenAI. Jedno konto, jeden klucz, jeden rachunek. W styczniu 2026 roku przeszliśmy na agregator multi-modelowy. Oto, co się naprawdę wydarzyło.
Co mieliśmy
- OpenAI enterprise tier — $~$8k/miesiąc na wszystkich powierzchniach
- Wszystkie uzupełnienia czatu na
gpt-4olubgpt-4o-mini - Jeden model osadzania, jeden model obrazów (DALL-E 3)
- Bezpośrednia integracja SDK w czterech usługach
Co spowodowało zmianę
- Claude Opus 4.6 uzyskiwał zauważalnie lepsze wyniki w naszych ocenach kodowania agentowego
- Gemini 3 Pro stał się wyraźnym zwycięzcą w analizie dokumentów o długim kontekście
- Chcieliśmy przetestować modele open-source (DeepSeek, Llama 4) bez uruchamiania infrastruktury inferencyjnej
- Obsługa pięciu dostawców oznaczała pięć umów, pięć cykli rozliczeniowych, pięć pulpitów ograniczeń szybkości
Migracja
Przeszliśmy na agregator kompatybilny z OpenAI (właściwie ten — używamy naszego własnego produktu w produkcji). Cała zmiana polegała na zastąpieniu baseURL i apiKey w SDK. Różnica w kodzie wynosiła 8 linii w czterech usługach.
// Before
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// After
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Co zmieniło się w rachunku
- Czat (GPT-4o → mieszany GPT-4o + Claude Sonnet w zależności od zadania): -22%
- Kodowanie agentowe (przeniesione do Claude Opus): +8%, ale oceny poprawiły się o 15 punktów
- Analiza długiego kontekstu (przeniesiona do Gemini 3 Pro): -40%
- Generowanie obrazów (przeniesione z DALL-E 3 do Nano Banana): -65%
Efekt netto na miesięcznym rachunku: -28%. Lepszy wybór modelu na każdej powierzchni + niższe stawki za token od agregatorów upstream, z którymi nie musimy negocjować bezpośrednio.
Trzy rzeczy, które poszły nie tak
- Różnice w formacie strumieniowym SSE. Claude strumieniuje nieco inaczej niż OpenAI. Nasza logika bufora po stronie klienta przestała działać na około 10 minut, dopóki nie dodaliśmy warstwy zgodności.
- Liczenie tokenów. Różne modele tokenizują inaczej. Nasza wewnętrzna metryka "użyte tokeny na rozmowę" musiała zostać skalibrowana na nowo dla każdego modelu.
- Buforowanie oparte na nazwie modelu. Nasz bufor podpowiedzi używał
gpt-4ojako klucza. Kiedy zaczęliśmy kierować niektóre żądania do Claude, otrzymywaliśmy nieaktualne trafienia z bufora. Lekcja: zawsze uwzględniaj model w kluczach bufora.
Czy zrobilibyśmy to ponownie?
Tak — z trzech powodów niezwiązanych z kosztami.
- Opcjonalność. Kiedy OpenAI miało 40-minutową awarię 3 kwietnia, nasza powierzchnia czatu działała dalej, ponieważ ruch automatycznie przeszedł na Anthropic i Gemini. To samo w sobie jest warte migracji.
- Równość modeli to przeszłość. W 2026 roku nie ma "najlepszego modelu". Jest najlepszy model dla każdego zadania. Agregacja to sposób, w jaki faktycznie można to wykorzystać.
- Jeden rachunek. Finanse chciały tego bardziej niż inżynieria. Jedna faktura, jedna relacja z dostawcą, jedna umowa na 12 dostawców.
Jeśli prowadzisz jakąkolwiek znaczącą działalność na jednym dostawcy, zmiana zwraca się w pierwszym miesiącu.