Proč jsme přešli z přímého OpenAI na multi-modelový agregátor

Skutečná čísla o přechodu z OpenAI na agregovanou API. Latence, spolehlivost, dopad na účet a tři věci, které se pokazily.

Až do konce roku 2025 jsme vše, co souviselo s chatem, provozovali přímo přes OpenAI. Jeden účet, jeden klíč, jeden účet. V lednu 2026 jsme přešli na multi-modelový agregátor. Tady je, co se skutečně stalo.

Co jsme měli

OpenAI enterprise tier — $~$8k/měsíc napříč všemi povrchy
Všechny chatové dokončení na gpt-4o nebo gpt-4o-mini
Jeden embedding model, jeden obrazový model (DALL-E 3)
Přímá integrace SDK ve čtyřech službách

Co spustilo přechod

Claude Opus 4.6 dosahoval znatelně lepších výsledků v našich agentních kódovacích hodnoceních
Gemini 3 Pro se stal jasným vítězem pro analýzu dlouhých dokumentů
Chtěli jsme testovat open-source modely (DeepSeek, Llama 4) bez nutnosti zřizovat inferenční infrastrukturu
Provozování pěti poskytovatelů znamenalo pět smluv, pět fakturačních cyklů, pět dashboardů s omezením rychlosti

Migrace

Přešli jsme na OpenAI-kompatibilní agregátor (tento, vlastně — používáme náš vlastní produkt v produkci). Celá změna spočívala v nahrazení baseURL a apiKey v SDK. Rozdíl v kódu byl 8 řádků napříč čtyřmi službami.

// Před
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Po
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Co se změnilo na účtu

Chat (GPT-4o → smíšený GPT-4o + Claude Sonnet podle úkolu): -22%
Agentní kódování (přešlo na Claude Opus): +8%, ale hodnocení se zlepšilo o 15 bodů
Analýza dlouhého kontextu (přešlo na Gemini 3 Pro): -40%
Generování obrázků (přešlo z DALL-E 3 na Nano Banana): -65%

Čistý efekt na měsíční účet: -28%. Lepší volba modelu na každém povrchu + nižší sazby za token od upstream agregátorů, které nemusíme přímo vyjednávat.

Tři věci, které se pokazily

Rozdíly ve formátu streamování SSE. Claude streamuje mírně odlišně od OpenAI. Naše logika bufferu na straně klienta se rozbila na asi 10 minut, dokud jsme nepřidali kompatibilní shim.
Počítání tokenů. Různé modely tokenizují odlišně. Naše interní metrika "použité tokeny na konverzaci" potřebovala být rekalibrována pro každý model.
Caching založený na názvu modelu. Naše cache promptů používala gpt-4o jako klíč. Když jsme začali směrovat některé požadavky na Claude, dostávali jsme zastaralé cache hity. Poučení: vždy zahrňte model do klíčů cache.

Udělali bychom to znovu?

Ano — ze tří důvodů, které nesouvisí s náklady.

Volitelnost. Když měl OpenAI 40minutový výpadek 3. dubna, naše chatová plocha běžela dál, protože provoz automaticky přešel na Anthropic a Gemini. To samo o sobě stojí za migraci.
Parita modelů skončila. V roce 2026 neexistuje "nejlepší model". Existuje nejlepší model pro každý úkol. Agregace je způsob, jak tuto skutečnost skutečně využít.
Jeden účet. Finance to chtěly více než inženýři. Jedna faktura, jeden vztah s dodavatelem, jedna smlouva pro 12 poskytovatelů.

Pokud provozujete jakýkoli významný objem u jednoho poskytovatele, přechod se zaplatí již v prvním měsíci.

Proč jsme přešli z přímého OpenAI na multi-modelový agregátor — a co nás to stálo

Co jsme měli

Co spustilo přechod

Migrace

Co se změnilo na účtu

Tři věci, které se pokazily

Udělali bychom to znovu?

Číst dále

Veo 3.1 vs Runway Aleph — který AI video model zvolit v roce 2026?

Flux Kontext Pro vs Nano Banana vs 4o Image — referenční test generování obrázků 2026

Integrace AI hudby do vaší aplikace se Suno v4.5 — průvodce za 30 minut

Platíte jen za volání. Nic víc.