2025 végéig minden csevegéssel kapcsolatos dolgot közvetlenül az OpenAI-n keresztül futtattunk. Egy fiók, egy kulcs, egy számla. 2026 januárjában áttértünk egy többmodellű aggregátorra. Íme, mi történt valójában.

Amink volt

  • OpenAI vállalati szint — $~$8k/hó minden felületen
  • Minden csevegés befejezése gpt-4o vagy gpt-4o-mini modellel
  • Egy beágyazási modell, egy képi modell (DALL-E 3)
  • Közvetlen SDK integráció négy szolgáltatásban

A váltás okai

  • Claude Opus 4.6 észrevehetően jobban teljesített az ügynöki kódolási értékeléseinken
  • Gemini 3 Pro egyértelmű győztes lett a hosszú kontextusú dokumentumelemzésben
  • Nyílt forráskódú modelleket akartunk tesztelni (DeepSeek, Llama 4) anélkül, hogy inferencia infrastruktúrát állítanánk fel
  • Öt szolgáltató futtatása öt szerződést, öt számlázási ciklust, öt sebességkorlátozási irányítópultot jelentett

A migráció

Átváltottunk egy OpenAI-kompatibilis aggregátorra (valójában erre — a saját termékünket használjuk a termelésben). Az egész változás a baseURL és apiKey cseréje volt az SDK-ban. A kódkülönbség 8 sor volt a négy szolgáltatásban.

// Előtte
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Utána
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Mi változott a számlán

  • Csevegés (GPT-4o → vegyes GPT-4o + Claude Sonnet a feladattól függően): -22%
  • Ügynöki kódolás (Claude Opus-ra váltás): +8%, de az értékelések 15 ponttal javultak
  • Hosszú kontextusú elemzés (Gemini 3 Pro-ra váltás): -40%
  • Kép generálás (DALL-E 3-ról Nano Banana-ra váltás): -65%

A havi számla nettó hatása: -28%. Jobb modellválasztás minden felületen + alacsonyabb tokenenkénti díjak a felsőbb aggregátoroktól, amelyekkel nem kell közvetlenül tárgyalnunk.

Három dolog, ami rosszul sült el

  • Streaming SSE formátum különbségek. Claude kissé másként streamel, mint az OpenAI. Az ügyféloldali puffer logikánk körülbelül 10 percig nem működött, amíg hozzá nem adtunk egy kompatibilitási réteget.
  • Token számolás. Különböző modellek különbözőképpen tokenizálnak. A belső "felhasznált tokenek beszélgetésenként" metrikánkat újra kellett kalibrálni modell szerint.
  • Cache modelnév alapján. A prompt cache-ünk gpt-4o-t használta kulcsként. Amikor elkezdtünk néhány kérést Claude-hoz irányítani, elavult cache találatokat kaptunk. Tanulság: mindig tartalmazza a modellt a cache kulcsokban.

Újra megtennénk?

Igen — három, a költségektől független ok miatt.

  • Opcionalitás. Amikor az OpenAI-nak 40 perces leállása volt április 3-án, a csevegési felületünk tovább működött, mert a forgalom automatikusan átváltott az Anthropic és Gemini szolgáltatásokra. Ez önmagában megéri a migrációt.
  • A modellparitás véget ért. 2026-ban nincs "a legjobb modell". Minden feladathoz van egy legjobb modell. Az aggregáció az, ahogyan ezt a tényt valóban kihasználhatjuk.
  • Egy számla. A pénzügy ezt jobban akarta, mint a mérnöki csapat. Egy számla, egy szállítói kapcsolat, egy szerződés 12 szolgáltatóval.

Ha bármilyen jelentős mennyiséget futtat egyetlen szolgáltatónál, az átállás az első hónapban megtérül.