Až do konca roku 2025 sme všetko, čo súviselo s chatom, prevádzkovali priamo cez OpenAI. Jeden účet, jeden kľúč, jedna faktúra. V januári 2026 sme prešli na multi-modelový agregátor. Tu je, čo sa skutočne stalo.
Čo sme mali
- OpenAI podniková úroveň — $~$8k/mesiac na všetkých povrchoch
- Všetky chatové dokončenia na
gpt-4oalebogpt-4o-mini - Jeden model na vkladanie, jeden model na obrázky (DALL-E 3)
- Priama integrácia SDK v štyroch službách
Čo spustilo presun
- Claude Opus 4.6 dosahoval viditeľne lepšie výsledky na našich hodnoteniach agentického kódovania
- Gemini 3 Pro sa stal jasným víťazom pre analýzu dokumentov s dlhým kontextom
- Chceli sme testovať open-source modely (DeepSeek, Llama 4) bez potreby inštalácie inferenčnej infraštruktúry
- Prevádzkovanie piatich poskytovateľov znamenalo päť zmlúv, päť fakturačných cyklov, päť dashboardov pre limitovanie rýchlosti
Migrácia
Prešli sme na OpenAI-kompatibilný agregátor (tento konkrétny — používame náš vlastný produkt v produkcii). Celá zmena spočívala v nahradení baseURL a apiKey v SDK. Rozdiel v kóde bol 8 riadkov v štyroch službách.
// Predtým
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// Potom
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Čo sa zmenilo na faktúre
- Chat (GPT-4o → zmiešaný GPT-4o + Claude Sonnet podľa úlohy): -22%
- Agentické kódovanie (presun na Claude Opus): +8%, ale hodnotenia sa zlepšili o 15 bodov
- Analýza s dlhým kontextom (presun na Gemini 3 Pro): -40%
- Generovanie obrázkov (presun z DALL-E 3 na Nano Banana): -65%
Čistý efekt na mesačnej faktúre: -28%. Lepšia voľba modelu na každom povrchu + nižšie ceny za token od upstream agregátorov, s ktorými nemusíme priamo vyjednávať.
Tri veci, ktoré sa pokazili
- Rozdiely v formáte streaming SSE. Claude streamuje trochu inak ako OpenAI. Naša logika bufferovania na strane klienta sa pokazila asi na 10 minút, kým sme nepridali kompatibilný shim.
- Počítanie tokenov. Rôzne modely tokenizujú rôzne. Naša interná metrika "použité tokeny na konverzáciu" musela byť pre každý model znovu kalibrovaná.
- Kešovanie založené na názve modelu. Naša keš pre prompty používala
gpt-4oako kľúč. Keď sme začali smerovať niektoré požiadavky na Claude, dostávali sme zastarané hity z keše. Poučenie: vždy zahrňte model do kľúčov keše.
Urobili by sme to znova?
Áno — z troch dôvodov, ktoré nesúvisia s nákladmi.
- Možnosti. Keď mal OpenAI výpadok na 40 minút 3. apríla, naša chatová plocha pokračovala v prevádzke, pretože prevádzka automaticky prešla na Anthropic a Gemini. To samo o sebe stojí za migráciu.
- Parita modelov je preč. V roku 2026 neexistuje "najlepší model". Existuje najlepší model pre každú úlohu. Agregácia je spôsob, ako túto skutočnosť skutočne využiť.
- Jedna faktúra. Financie to chceli viac ako inžinieri. Jedna faktúra, jeden vzťah s dodávateľom, jedna zmluva pre 12 poskytovateľov.
Ak prevádzkujete akýkoľvek významný objem na jednom poskytovateľovi, prechod sa zaplatí už v prvom mesiaci.