Kāpēc mēs pārgājām no tiešās OpenAI uz vairāku modeļu agregatoru

Reālie skaitļi par pāreju no tikai OpenAI uz apkopotu API. Aizture, uzticamība, rēķina ietekme un trīs lietas, kas nogāja greizi.

Līdz 2025. gada beigām mēs visu, kas saistīts ar tērzēšanu, vadījām tieši caur OpenAI. Viens konts, viena atslēga, viens rēķins. 2026. gada janvārī mēs pārgājām uz vairāku modeļu agregatoru. Lūk, kas patiesībā notika.

Kas mums bija

OpenAI uzņēmuma līmenis — $~$8k/mēnesī visās virsmās
Visas tērzēšanas pabeigšanas uz gpt-4o vai gpt-4o-mini
Viens iegulšanas modelis, viens attēlu modelis (DALL-E 3)
Tieša SDK integrācija četros pakalpojumos

Kāpēc mēs pārgājām

Claude Opus 4.6 mūsu aģentiskās kodēšanas novērtējumos ievērojami labāk
Gemini 3 Pro kļuva par skaidru uzvarētāju ilgstoša konteksta dokumentu analīzē
Mēs vēlējāmies pārbaudīt atvērtā koda modeļus (DeepSeek, Llama 4) bez inferencēšanas infrastruktūras izveides
Pieci pakalpojumu sniedzēji nozīmēja piecus līgumus, piecus rēķinu ciklus, piecas ātruma ierobežojumu informācijas paneļus

Migrācija

Mēs pārgājām uz OpenAI saderīgu agregatoru (patiesībā šo — mēs izmantojam savu produktu ražošanā). Visa izmaiņa bija baseURL un apiKey aizstāšana SDK. Koda atšķirība bija 8 rindas visos četros pakalpojumos.

// Pirms
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Pēc
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Kas mainījās rēķinā

Tērzēšana (GPT-4o → jaukts GPT-4o + Claude Sonnet atkarībā no uzdevuma): -22%
Aģentiskā kodēšana (pārvietota uz Claude Opus): +8%, bet novērtējumi uzlabojās par 15 punktiem
Ilgstoša konteksta analīze (pārvietota uz Gemini 3 Pro): -40%
Attēlu ģenerēšana (pārvietota no DALL-E 3 uz Nano Banana): -65%

Kopējā ietekme uz mēneša rēķinu: -28%. Labāka modeļu izvēle katrā virsmā + zemākas izmaksas par katru žetonu no augšupējiem agregatoriem, ar kuriem mums nav jāvienojas tieši.

Trīs lietas, kas nogāja greizi

Atšķirības straumēšanas SSE formātā. Claude straumē nedaudz savādāk nekā OpenAI. Mūsu klienta puses bufera loģika sabojājās uz apmēram 10 minūtēm, līdz mēs pievienojām saderības šim.
Žetonu skaitīšana. Dažādi modeļi žetonizē atšķirīgi. Mūsu iekšējais "lietoto žetonu skaits uz sarunu" rādītājs bija jākalibrē no jauna katram modelim.
Kešatmiņa, kas balstīta uz modeļa nosaukumu. Mūsu uzvedņu kešatmiņa izmantoja gpt-4o kā atslēgu. Kad mēs sākām novirzīt dažus pieprasījumus uz Claude, mēs saņēmām novecojušus kešatmiņas trāpījumus. Mācība: vienmēr iekļaut modeli kešatmiņas atslēgās.

Vai mēs to darītu vēlreiz?

Jā — trīs iemeslu dēļ, kas nav saistīti ar izmaksām.

Izvēles iespējas. Kad OpenAI 3. aprīlī bija 40 minūšu pārtraukums, mūsu tērzēšanas virsma turpināja darboties, jo trafiks automātiski pārgāja uz Anthropic un Gemini. Tas vien ir migrācijas vērts.
Modeļu paritāte ir beigusies. 2026. gadā nav "labākā modeļa". Ir labākais modelis katram uzdevumam. Agregācija ir veids, kā jūs faktiski izmantojat šo faktu.
Viens rēķins. Finanšu nodaļa to vēlējās vairāk nekā inženierija. Viena faktūra, viena pārdevēja attiecības, viens līgums 12 pakalpojumu sniedzējiem.

Ja jūs vadāt jebkādu nozīmīgu apjomu pie viena pakalpojumu sniedzēja, pāreja atmaksājas jau pirmajā mēnesī.

Kāpēc mēs pārgājām no tiešās OpenAI uz vairāku modeļu agregatoru — un ko tas mums izmaksāja

Kas mums bija

Kāpēc mēs pārgājām

Migrācija

Kas mainījās rēķinā

Trīs lietas, kas nogāja greizi

Vai mēs to darītu vēlreiz?

Lasīt tālāk

Veo 3.1 vs Runway Aleph — kuru AI video modeli izvēlēties 2026. gadā?

Flux Kontext Pro vs Nano Banana vs 4o Image — 2026. gada attēlu ģenerēšanas etalons

AI mūzikas integrācija jūsu lietotnē ar Suno v4.5 — 30 minūšu ceļvedis

Maksājat tikai par saviem izsaukumiem.