Kodėl perėjome nuo tiesioginio OpenAI prie kelių modelių agregatoriaus

Tikri skaičiai apie perėjimą nuo tik OpenAI prie agreguotos API. Vėlavimas, patikimumas, sąskaitos poveikis ir trys dalykai, kurie nepavyko.

Iki 2025 metų pabaigos viską, kas susiję su pokalbiais, vykdėme tiesiogiai per OpenAI. Viena paskyra, vienas raktas, viena sąskaita. 2026 metų sausį perėjome prie kelių modelių agregatoriaus. Štai kas iš tikrųjų įvyko.

Ką turėjome

OpenAI įmonės lygis — $~$8k/mėn. visose platformose
Visi pokalbių užbaigimai gpt-4o arba gpt-4o-mini
Vienas įterpimo modelis, vienas vaizdo modelis (DALL-E 3)
Tiesioginė SDK integracija keturiose paslaugose

Ką paskatino perėjimas

Claude Opus 4.6 mūsų agentinio kodo vertinimuose pasirodė pastebimai geriau
Gemini 3 Pro tapo aiškiu nugalėtoju ilgų kontekstų dokumentų analizei
Norėjome išbandyti atvirojo kodo modelius (DeepSeek, Llama 4) be infrastruktūros kūrimo
Penkių tiekėjų naudojimas reiškė penkias sutartis, penkis atsiskaitymo ciklus, penkias ribos stebėjimo skydus

Migracija

Perėjome prie OpenAI suderinamo agregatoriaus (šis, iš tikrųjų — naudojame savo produktą gamyboje). Visas pakeitimas buvo baseURL ir apiKey pakeitimas SDK. Kodo skirtumas buvo 8 eilutės keturiose paslaugose.

// Prieš
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Po
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Kas pasikeitė sąskaitoje

Pokalbiai (GPT-4o → mišrus GPT-4o + Claude Sonnet pagal užduotį): -22%
Agentinis kodavimas (perkelta į Claude Opus): +8%, bet vertinimai pagerėjo 15 taškų
Ilgo konteksto analizė (perkelta į Gemini 3 Pro): -40%
Vaizdų generavimas (perkelta iš DALL-E 3 į Nano Banana): -65%

Grynas poveikis mėnesinei sąskaitai: -28%. Geresnis modelio pasirinkimas kiekvienoje platformoje + mažesni per-token tarifai iš aukštesnių agregatorių, su kuriais nereikia tiesiogiai derėtis.

Trys dalykai, kurie nepavyko

SSE srauto formato skirtumai. Claude srautai šiek tiek skiriasi nuo OpenAI. Mūsų kliento pusės buferio logika neveikė apie 10 minučių, kol pridėjome suderinamumo šimelį.
Žetonų skaičiavimas. Skirtingi modeliai skirtingai suskaido žetonus. Mūsų vidinis "žetonų naudojimas per pokalbį" rodiklis turėjo būti perkalibruotas kiekvienam modeliui.
Kešavimas pagal modelio pavadinimą. Mūsų užklausų kešas naudojo gpt-4o kaip raktą. Kai pradėjome nukreipti kai kurias užklausas į Claude, gavome pasenusius kešo hitus. Pamoka: visada įtraukite modelį į kešo raktus.

Ar darytume tai dar kartą?

Taip — dėl trijų priežasčių, nesusijusių su kaina.

Pasirinkimo galimybė. Kai OpenAI balandžio 3 d. turėjo 40 minučių trukmės sutrikimą, mūsų pokalbių platforma veikė toliau, nes srautas automatiškai perėjo į Anthropic ir Gemini. Vien dėl to verta migracijos.
Modelio pariteto nebėra. 2026 metais nėra "geriausio modelio". Yra geriausias modelis kiekvienai užduočiai. Agregavimas yra būdas tai iš tikrųjų panaudoti.
Viena sąskaita. Finansai to norėjo labiau nei inžinerija. Viena sąskaita, vienas tiekėjo santykis, viena sutartis 12 tiekėjų.

Jei naudojate bet kokį reikšmingą kiekį viename tiekėjuje, perėjimas atsiperka pirmą mėnesį.

Kodėl perėjome nuo tiesioginio OpenAI prie kelių modelių agregatoriaus — ir kiek tai mums kainavo

Ką turėjome

Ką paskatino perėjimas

Migracija

Kas pasikeitė sąskaitoje

Trys dalykai, kurie nepavyko

Ar darytume tai dar kartą?

Skaityti toliau

Veo 3.1 vs Runway Aleph — kurį AI vaizdo modelį rinktis 2026 metais?

Flux Kontext Pro vs Nano Banana vs 4o Image — 2026 m. vaizdų generavimo etalonas

AI muzika jūsų programėlėje su Suno v4.5 — 30 minučių integracijos vadovas

Mokate tik už savo iškvietimus.