Iki 2025 metų pabaigos viską, kas susiję su pokalbiais, vykdėme tiesiogiai per OpenAI. Viena paskyra, vienas raktas, viena sąskaita. 2026 metų sausį perėjome prie kelių modelių agregatoriaus. Štai kas iš tikrųjų įvyko.
Ką turėjome
- OpenAI įmonės lygis — $~$8k/mėn. visose platformose
- Visi pokalbių užbaigimai
gpt-4oarbagpt-4o-mini - Vienas įterpimo modelis, vienas vaizdo modelis (DALL-E 3)
- Tiesioginė SDK integracija keturiose paslaugose
Ką paskatino perėjimas
- Claude Opus 4.6 mūsų agentinio kodo vertinimuose pasirodė pastebimai geriau
- Gemini 3 Pro tapo aiškiu nugalėtoju ilgų kontekstų dokumentų analizei
- Norėjome išbandyti atvirojo kodo modelius (DeepSeek, Llama 4) be infrastruktūros kūrimo
- Penkių tiekėjų naudojimas reiškė penkias sutartis, penkis atsiskaitymo ciklus, penkias ribos stebėjimo skydus
Migracija
Perėjome prie OpenAI suderinamo agregatoriaus (šis, iš tikrųjų — naudojame savo produktą gamyboje). Visas pakeitimas buvo baseURL ir apiKey pakeitimas SDK. Kodo skirtumas buvo 8 eilutės keturiose paslaugose.
// Prieš
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// Po
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Kas pasikeitė sąskaitoje
- Pokalbiai (GPT-4o → mišrus GPT-4o + Claude Sonnet pagal užduotį): -22%
- Agentinis kodavimas (perkelta į Claude Opus): +8%, bet vertinimai pagerėjo 15 taškų
- Ilgo konteksto analizė (perkelta į Gemini 3 Pro): -40%
- Vaizdų generavimas (perkelta iš DALL-E 3 į Nano Banana): -65%
Grynas poveikis mėnesinei sąskaitai: -28%. Geresnis modelio pasirinkimas kiekvienoje platformoje + mažesni per-token tarifai iš aukštesnių agregatorių, su kuriais nereikia tiesiogiai derėtis.
Trys dalykai, kurie nepavyko
- SSE srauto formato skirtumai. Claude srautai šiek tiek skiriasi nuo OpenAI. Mūsų kliento pusės buferio logika neveikė apie 10 minučių, kol pridėjome suderinamumo šimelį.
- Žetonų skaičiavimas. Skirtingi modeliai skirtingai suskaido žetonus. Mūsų vidinis "žetonų naudojimas per pokalbį" rodiklis turėjo būti perkalibruotas kiekvienam modeliui.
- Kešavimas pagal modelio pavadinimą. Mūsų užklausų kešas naudojo
gpt-4okaip raktą. Kai pradėjome nukreipti kai kurias užklausas į Claude, gavome pasenusius kešo hitus. Pamoka: visada įtraukite modelį į kešo raktus.
Ar darytume tai dar kartą?
Taip — dėl trijų priežasčių, nesusijusių su kaina.
- Pasirinkimo galimybė. Kai OpenAI balandžio 3 d. turėjo 40 minučių trukmės sutrikimą, mūsų pokalbių platforma veikė toliau, nes srautas automatiškai perėjo į Anthropic ir Gemini. Vien dėl to verta migracijos.
- Modelio pariteto nebėra. 2026 metais nėra "geriausio modelio". Yra geriausias modelis kiekvienai užduočiai. Agregavimas yra būdas tai iš tikrųjų panaudoti.
- Viena sąskaita. Finansai to norėjo labiau nei inžinerija. Viena sąskaita, vienas tiekėjo santykis, viena sutartis 12 tiekėjų.
Jei naudojate bet kokį reikšmingą kiekį viename tiekėjuje, perėjimas atsiperka pirmą mėnesį.