Až do konce roku 2025 jsme vše, co souviselo s chatem, provozovali přímo přes OpenAI. Jeden účet, jeden klíč, jeden účet. V lednu 2026 jsme přešli na multi-modelový agregátor. Tady je, co se skutečně stalo.
Co jsme měli
- OpenAI enterprise tier — $~$8k/měsíc napříč všemi povrchy
- Všechny chatové dokončení na
gpt-4onebogpt-4o-mini - Jeden embedding model, jeden obrazový model (DALL-E 3)
- Přímá integrace SDK ve čtyřech službách
Co spustilo přechod
- Claude Opus 4.6 dosahoval znatelně lepších výsledků v našich agentních kódovacích hodnoceních
- Gemini 3 Pro se stal jasným vítězem pro analýzu dlouhých dokumentů
- Chtěli jsme testovat open-source modely (DeepSeek, Llama 4) bez nutnosti zřizovat inferenční infrastrukturu
- Provozování pěti poskytovatelů znamenalo pět smluv, pět fakturačních cyklů, pět dashboardů s omezením rychlosti
Migrace
Přešli jsme na OpenAI-kompatibilní agregátor (tento, vlastně — používáme náš vlastní produkt v produkci). Celá změna spočívala v nahrazení baseURL a apiKey v SDK. Rozdíl v kódu byl 8 řádků napříč čtyřmi službami.
// Před
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// Po
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Co se změnilo na účtu
- Chat (GPT-4o → smíšený GPT-4o + Claude Sonnet podle úkolu): -22%
- Agentní kódování (přešlo na Claude Opus): +8%, ale hodnocení se zlepšilo o 15 bodů
- Analýza dlouhého kontextu (přešlo na Gemini 3 Pro): -40%
- Generování obrázků (přešlo z DALL-E 3 na Nano Banana): -65%
Čistý efekt na měsíční účet: -28%. Lepší volba modelu na každém povrchu + nižší sazby za token od upstream agregátorů, které nemusíme přímo vyjednávat.
Tři věci, které se pokazily
- Rozdíly ve formátu streamování SSE. Claude streamuje mírně odlišně od OpenAI. Naše logika bufferu na straně klienta se rozbila na asi 10 minut, dokud jsme nepřidali kompatibilní shim.
- Počítání tokenů. Různé modely tokenizují odlišně. Naše interní metrika "použité tokeny na konverzaci" potřebovala být rekalibrována pro každý model.
- Caching založený na názvu modelu. Naše cache promptů používala
gpt-4ojako klíč. Když jsme začali směrovat některé požadavky na Claude, dostávali jsme zastaralé cache hity. Poučení: vždy zahrňte model do klíčů cache.
Udělali bychom to znovu?
Ano — ze tří důvodů, které nesouvisí s náklady.
- Volitelnost. Když měl OpenAI 40minutový výpadek 3. dubna, naše chatová plocha běžela dál, protože provoz automaticky přešel na Anthropic a Gemini. To samo o sobě stojí za migraci.
- Parita modelů skončila. V roce 2026 neexistuje "nejlepší model". Existuje nejlepší model pro každý úkol. Agregace je způsob, jak tuto skutečnost skutečně využít.
- Jeden účet. Finance to chtěly více než inženýři. Jedna faktura, jeden vztah s dodavatelem, jedna smlouva pro 12 poskytovatelů.
Pokud provozujete jakýkoli významný objem u jednoho poskytovatele, přechod se zaplatí již v prvním měsíci.