2025 végéig minden csevegéssel kapcsolatos dolgot közvetlenül az OpenAI-n keresztül futtattunk. Egy fiók, egy kulcs, egy számla. 2026 januárjában áttértünk egy többmodellű aggregátorra. Íme, mi történt valójában.
Amink volt
- OpenAI vállalati szint — $~$8k/hó minden felületen
- Minden csevegés befejezése
gpt-4ovagygpt-4o-minimodellel - Egy beágyazási modell, egy képi modell (DALL-E 3)
- Közvetlen SDK integráció négy szolgáltatásban
A váltás okai
- Claude Opus 4.6 észrevehetően jobban teljesített az ügynöki kódolási értékeléseinken
- Gemini 3 Pro egyértelmű győztes lett a hosszú kontextusú dokumentumelemzésben
- Nyílt forráskódú modelleket akartunk tesztelni (DeepSeek, Llama 4) anélkül, hogy inferencia infrastruktúrát állítanánk fel
- Öt szolgáltató futtatása öt szerződést, öt számlázási ciklust, öt sebességkorlátozási irányítópultot jelentett
A migráció
Átváltottunk egy OpenAI-kompatibilis aggregátorra (valójában erre — a saját termékünket használjuk a termelésben). Az egész változás a baseURL és apiKey cseréje volt az SDK-ban. A kódkülönbség 8 sor volt a négy szolgáltatásban.
// Előtte
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// Utána
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Mi változott a számlán
- Csevegés (GPT-4o → vegyes GPT-4o + Claude Sonnet a feladattól függően): -22%
- Ügynöki kódolás (Claude Opus-ra váltás): +8%, de az értékelések 15 ponttal javultak
- Hosszú kontextusú elemzés (Gemini 3 Pro-ra váltás): -40%
- Kép generálás (DALL-E 3-ról Nano Banana-ra váltás): -65%
A havi számla nettó hatása: -28%. Jobb modellválasztás minden felületen + alacsonyabb tokenenkénti díjak a felsőbb aggregátoroktól, amelyekkel nem kell közvetlenül tárgyalnunk.
Három dolog, ami rosszul sült el
- Streaming SSE formátum különbségek. Claude kissé másként streamel, mint az OpenAI. Az ügyféloldali puffer logikánk körülbelül 10 percig nem működött, amíg hozzá nem adtunk egy kompatibilitási réteget.
- Token számolás. Különböző modellek különbözőképpen tokenizálnak. A belső "felhasznált tokenek beszélgetésenként" metrikánkat újra kellett kalibrálni modell szerint.
- Cache modelnév alapján. A prompt cache-ünk
gpt-4o-t használta kulcsként. Amikor elkezdtünk néhány kérést Claude-hoz irányítani, elavult cache találatokat kaptunk. Tanulság: mindig tartalmazza a modellt a cache kulcsokban.
Újra megtennénk?
Igen — három, a költségektől független ok miatt.
- Opcionalitás. Amikor az OpenAI-nak 40 perces leállása volt április 3-án, a csevegési felületünk tovább működött, mert a forgalom automatikusan átváltott az Anthropic és Gemini szolgáltatásokra. Ez önmagában megéri a migrációt.
- A modellparitás véget ért. 2026-ban nincs "a legjobb modell". Minden feladathoz van egy legjobb modell. Az aggregáció az, ahogyan ezt a tényt valóban kihasználhatjuk.
- Egy számla. A pénzügy ezt jobban akarta, mint a mérnöki csapat. Egy számla, egy szállítói kapcsolat, egy szerződés 12 szolgáltatóval.
Ha bármilyen jelentős mennyiséget futtat egyetlen szolgáltatónál, az átállás az első hónapban megtérül.