Prečo sme prešli z priameho OpenAI na multi-modelový agregátor

Skutočné čísla o prechode z OpenAI-only na agregovanú API. Latencia, spoľahlivosť, vplyv na faktúru a tri veci, ktoré sa pokazili.

Až do konca roku 2025 sme všetko, čo súviselo s chatom, prevádzkovali priamo cez OpenAI. Jeden účet, jeden kľúč, jedna faktúra. V januári 2026 sme prešli na multi-modelový agregátor. Tu je, čo sa skutočne stalo.

Čo sme mali

OpenAI podniková úroveň — $~$8k/mesiac na všetkých povrchoch
Všetky chatové dokončenia na gpt-4o alebo gpt-4o-mini
Jeden model na vkladanie, jeden model na obrázky (DALL-E 3)
Priama integrácia SDK v štyroch službách

Čo spustilo presun

Claude Opus 4.6 dosahoval viditeľne lepšie výsledky na našich hodnoteniach agentického kódovania
Gemini 3 Pro sa stal jasným víťazom pre analýzu dokumentov s dlhým kontextom
Chceli sme testovať open-source modely (DeepSeek, Llama 4) bez potreby inštalácie inferenčnej infraštruktúry
Prevádzkovanie piatich poskytovateľov znamenalo päť zmlúv, päť fakturačných cyklov, päť dashboardov pre limitovanie rýchlosti

Migrácia

Prešli sme na OpenAI-kompatibilný agregátor (tento konkrétny — používame náš vlastný produkt v produkcii). Celá zmena spočívala v nahradení baseURL a apiKey v SDK. Rozdiel v kóde bol 8 riadkov v štyroch službách.

// Predtým
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Potom
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Čo sa zmenilo na faktúre

Chat (GPT-4o → zmiešaný GPT-4o + Claude Sonnet podľa úlohy): -22%
Agentické kódovanie (presun na Claude Opus): +8%, ale hodnotenia sa zlepšili o 15 bodov
Analýza s dlhým kontextom (presun na Gemini 3 Pro): -40%
Generovanie obrázkov (presun z DALL-E 3 na Nano Banana): -65%

Čistý efekt na mesačnej faktúre: -28%. Lepšia voľba modelu na každom povrchu + nižšie ceny za token od upstream agregátorov, s ktorými nemusíme priamo vyjednávať.

Tri veci, ktoré sa pokazili

Rozdiely v formáte streaming SSE. Claude streamuje trochu inak ako OpenAI. Naša logika bufferovania na strane klienta sa pokazila asi na 10 minút, kým sme nepridali kompatibilný shim.
Počítanie tokenov. Rôzne modely tokenizujú rôzne. Naša interná metrika "použité tokeny na konverzáciu" musela byť pre každý model znovu kalibrovaná.
Kešovanie založené na názve modelu. Naša keš pre prompty používala gpt-4o ako kľúč. Keď sme začali smerovať niektoré požiadavky na Claude, dostávali sme zastarané hity z keše. Poučenie: vždy zahrňte model do kľúčov keše.

Urobili by sme to znova?

Áno — z troch dôvodov, ktoré nesúvisia s nákladmi.

Možnosti. Keď mal OpenAI výpadok na 40 minút 3. apríla, naša chatová plocha pokračovala v prevádzke, pretože prevádzka automaticky prešla na Anthropic a Gemini. To samo o sebe stojí za migráciu.
Parita modelov je preč. V roku 2026 neexistuje "najlepší model". Existuje najlepší model pre každú úlohu. Agregácia je spôsob, ako túto skutočnosť skutočne využiť.
Jedna faktúra. Financie to chceli viac ako inžinieri. Jedna faktúra, jeden vzťah s dodávateľom, jedna zmluva pre 12 poskytovateľov.

Ak prevádzkujete akýkoľvek významný objem na jednom poskytovateľovi, prechod sa zaplatí už v prvom mesiaci.

Prečo sme prešli z priameho OpenAI na multi-modelový agregátor — a čo nás to stálo

Čo sme mali

Čo spustilo presun

Migrácia

Čo sa zmenilo na faktúre

Tri veci, ktoré sa pokazili

Urobili by sme to znova?

Čítať ďalej

Veo 3.1 vs Runway Aleph — ktorý AI video model použiť v roku 2026?

Flux Kontext Pro vs Nano Banana vs 4o Image — referenčný test generovania obrázkov 2026

AI hudba vo vašej aplikácii so Suno v4.5 — 30-minútový integračný sprievodca

Platíte len za volania. Nič viac.