Až do konce roku 2025 jsme vše, co souviselo s chatem, provozovali přímo přes OpenAI. Jeden účet, jeden klíč, jeden účet. V lednu 2026 jsme přešli na multi-modelový agregátor. Tady je, co se skutečně stalo.

Co jsme měli

  • OpenAI enterprise tier — $~$8k/měsíc napříč všemi povrchy
  • Všechny chatové dokončení na gpt-4o nebo gpt-4o-mini
  • Jeden embedding model, jeden obrazový model (DALL-E 3)
  • Přímá integrace SDK ve čtyřech službách

Co spustilo přechod

  • Claude Opus 4.6 dosahoval znatelně lepších výsledků v našich agentních kódovacích hodnoceních
  • Gemini 3 Pro se stal jasným vítězem pro analýzu dlouhých dokumentů
  • Chtěli jsme testovat open-source modely (DeepSeek, Llama 4) bez nutnosti zřizovat inferenční infrastrukturu
  • Provozování pěti poskytovatelů znamenalo pět smluv, pět fakturačních cyklů, pět dashboardů s omezením rychlosti

Migrace

Přešli jsme na OpenAI-kompatibilní agregátor (tento, vlastně — používáme náš vlastní produkt v produkci). Celá změna spočívala v nahrazení baseURL a apiKey v SDK. Rozdíl v kódu byl 8 řádků napříč čtyřmi službami.

// Před
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Po
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Co se změnilo na účtu

  • Chat (GPT-4o → smíšený GPT-4o + Claude Sonnet podle úkolu): -22%
  • Agentní kódování (přešlo na Claude Opus): +8%, ale hodnocení se zlepšilo o 15 bodů
  • Analýza dlouhého kontextu (přešlo na Gemini 3 Pro): -40%
  • Generování obrázků (přešlo z DALL-E 3 na Nano Banana): -65%

Čistý efekt na měsíční účet: -28%. Lepší volba modelu na každém povrchu + nižší sazby za token od upstream agregátorů, které nemusíme přímo vyjednávat.

Tři věci, které se pokazily

  • Rozdíly ve formátu streamování SSE. Claude streamuje mírně odlišně od OpenAI. Naše logika bufferu na straně klienta se rozbila na asi 10 minut, dokud jsme nepřidali kompatibilní shim.
  • Počítání tokenů. Různé modely tokenizují odlišně. Naše interní metrika "použité tokeny na konverzaci" potřebovala být rekalibrována pro každý model.
  • Caching založený na názvu modelu. Naše cache promptů používala gpt-4o jako klíč. Když jsme začali směrovat některé požadavky na Claude, dostávali jsme zastaralé cache hity. Poučení: vždy zahrňte model do klíčů cache.

Udělali bychom to znovu?

Ano — ze tří důvodů, které nesouvisí s náklady.

  • Volitelnost. Když měl OpenAI 40minutový výpadek 3. dubna, naše chatová plocha běžela dál, protože provoz automaticky přešel na Anthropic a Gemini. To samo o sobě stojí za migraci.
  • Parita modelů skončila. V roce 2026 neexistuje "nejlepší model". Existuje nejlepší model pro každý úkol. Agregace je způsob, jak tuto skutečnost skutečně využít.
  • Jeden účet. Finance to chtěly více než inženýři. Jedna faktura, jeden vztah s dodavatelem, jedna smlouva pro 12 poskytovatelů.

Pokud provozujete jakýkoli významný objem u jednoho poskytovatele, přechod se zaplatí již v prvním měsíci.