Až do konca roku 2025 sme všetko, čo súviselo s chatom, prevádzkovali priamo cez OpenAI. Jeden účet, jeden kľúč, jedna faktúra. V januári 2026 sme prešli na multi-modelový agregátor. Tu je, čo sa skutočne stalo.

Čo sme mali

  • OpenAI podniková úroveň — $~$8k/mesiac na všetkých povrchoch
  • Všetky chatové dokončenia na gpt-4o alebo gpt-4o-mini
  • Jeden model na vkladanie, jeden model na obrázky (DALL-E 3)
  • Priama integrácia SDK v štyroch službách

Čo spustilo presun

  • Claude Opus 4.6 dosahoval viditeľne lepšie výsledky na našich hodnoteniach agentického kódovania
  • Gemini 3 Pro sa stal jasným víťazom pre analýzu dokumentov s dlhým kontextom
  • Chceli sme testovať open-source modely (DeepSeek, Llama 4) bez potreby inštalácie inferenčnej infraštruktúry
  • Prevádzkovanie piatich poskytovateľov znamenalo päť zmlúv, päť fakturačných cyklov, päť dashboardov pre limitovanie rýchlosti

Migrácia

Prešli sme na OpenAI-kompatibilný agregátor (tento konkrétny — používame náš vlastný produkt v produkcii). Celá zmena spočívala v nahradení baseURL a apiKey v SDK. Rozdiel v kóde bol 8 riadkov v štyroch službách.

// Predtým
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Potom
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Čo sa zmenilo na faktúre

  • Chat (GPT-4o → zmiešaný GPT-4o + Claude Sonnet podľa úlohy): -22%
  • Agentické kódovanie (presun na Claude Opus): +8%, ale hodnotenia sa zlepšili o 15 bodov
  • Analýza s dlhým kontextom (presun na Gemini 3 Pro): -40%
  • Generovanie obrázkov (presun z DALL-E 3 na Nano Banana): -65%

Čistý efekt na mesačnej faktúre: -28%. Lepšia voľba modelu na každom povrchu + nižšie ceny za token od upstream agregátorov, s ktorými nemusíme priamo vyjednávať.

Tri veci, ktoré sa pokazili

  • Rozdiely v formáte streaming SSE. Claude streamuje trochu inak ako OpenAI. Naša logika bufferovania na strane klienta sa pokazila asi na 10 minút, kým sme nepridali kompatibilný shim.
  • Počítanie tokenov. Rôzne modely tokenizujú rôzne. Naša interná metrika "použité tokeny na konverzáciu" musela byť pre každý model znovu kalibrovaná.
  • Kešovanie založené na názve modelu. Naša keš pre prompty používala gpt-4o ako kľúč. Keď sme začali smerovať niektoré požiadavky na Claude, dostávali sme zastarané hity z keše. Poučenie: vždy zahrňte model do kľúčov keše.

Urobili by sme to znova?

Áno — z troch dôvodov, ktoré nesúvisia s nákladmi.

  • Možnosti. Keď mal OpenAI výpadok na 40 minút 3. apríla, naša chatová plocha pokračovala v prevádzke, pretože prevádzka automaticky prešla na Anthropic a Gemini. To samo o sebe stojí za migráciu.
  • Parita modelov je preč. V roku 2026 neexistuje "najlepší model". Existuje najlepší model pre každú úlohu. Agregácia je spôsob, ako túto skutočnosť skutočne využiť.
  • Jedna faktúra. Financie to chceli viac ako inžinieri. Jedna faktúra, jeden vzťah s dodávateľom, jedna zmluva pre 12 poskytovateľov.

Ak prevádzkujete akýkoľvek významný objem na jednom poskytovateľovi, prechod sa zaplatí už v prvom mesiaci.