Līdz 2025. gada beigām mēs visu, kas saistīts ar tērzēšanu, vadījām tieši caur OpenAI. Viens konts, viena atslēga, viens rēķins. 2026. gada janvārī mēs pārgājām uz vairāku modeļu agregatoru. Lūk, kas patiesībā notika.

Kas mums bija

  • OpenAI uzņēmuma līmenis — $~$8k/mēnesī visās virsmās
  • Visas tērzēšanas pabeigšanas uz gpt-4o vai gpt-4o-mini
  • Viens iegulšanas modelis, viens attēlu modelis (DALL-E 3)
  • Tieša SDK integrācija četros pakalpojumos

Kāpēc mēs pārgājām

  • Claude Opus 4.6 mūsu aģentiskās kodēšanas novērtējumos ievērojami labāk
  • Gemini 3 Pro kļuva par skaidru uzvarētāju ilgstoša konteksta dokumentu analīzē
  • Mēs vēlējāmies pārbaudīt atvērtā koda modeļus (DeepSeek, Llama 4) bez inferencēšanas infrastruktūras izveides
  • Pieci pakalpojumu sniedzēji nozīmēja piecus līgumus, piecus rēķinu ciklus, piecas ātruma ierobežojumu informācijas paneļus

Migrācija

Mēs pārgājām uz OpenAI saderīgu agregatoru (patiesībā šo — mēs izmantojam savu produktu ražošanā). Visa izmaiņa bija baseURL un apiKey aizstāšana SDK. Koda atšķirība bija 8 rindas visos četros pakalpojumos.

// Pirms
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Pēc
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Kas mainījās rēķinā

  • Tērzēšana (GPT-4o → jaukts GPT-4o + Claude Sonnet atkarībā no uzdevuma): -22%
  • Aģentiskā kodēšana (pārvietota uz Claude Opus): +8%, bet novērtējumi uzlabojās par 15 punktiem
  • Ilgstoša konteksta analīze (pārvietota uz Gemini 3 Pro): -40%
  • Attēlu ģenerēšana (pārvietota no DALL-E 3 uz Nano Banana): -65%

Kopējā ietekme uz mēneša rēķinu: -28%. Labāka modeļu izvēle katrā virsmā + zemākas izmaksas par katru žetonu no augšupējiem agregatoriem, ar kuriem mums nav jāvienojas tieši.

Trīs lietas, kas nogāja greizi

  • Atšķirības straumēšanas SSE formātā. Claude straumē nedaudz savādāk nekā OpenAI. Mūsu klienta puses bufera loģika sabojājās uz apmēram 10 minūtēm, līdz mēs pievienojām saderības šim.
  • Žetonu skaitīšana. Dažādi modeļi žetonizē atšķirīgi. Mūsu iekšējais "lietoto žetonu skaits uz sarunu" rādītājs bija jākalibrē no jauna katram modelim.
  • Kešatmiņa, kas balstīta uz modeļa nosaukumu. Mūsu uzvedņu kešatmiņa izmantoja gpt-4o kā atslēgu. Kad mēs sākām novirzīt dažus pieprasījumus uz Claude, mēs saņēmām novecojušus kešatmiņas trāpījumus. Mācība: vienmēr iekļaut modeli kešatmiņas atslēgās.

Vai mēs to darītu vēlreiz?

Jā — trīs iemeslu dēļ, kas nav saistīti ar izmaksām.

  • Izvēles iespējas. Kad OpenAI 3. aprīlī bija 40 minūšu pārtraukums, mūsu tērzēšanas virsma turpināja darboties, jo trafiks automātiski pārgāja uz Anthropic un Gemini. Tas vien ir migrācijas vērts.
  • Modeļu paritāte ir beigusies. 2026. gadā nav "labākā modeļa". Ir labākais modelis katram uzdevumam. Agregācija ir veids, kā jūs faktiski izmantojat šo faktu.
  • Viens rēķins. Finanšu nodaļa to vēlējās vairāk nekā inženierija. Viena faktūra, viena pārdevēja attiecības, viens līgums 12 pakalpojumu sniedzējiem.

Ja jūs vadāt jebkādu nozīmīgu apjomu pie viena pakalpojumu sniedzēja, pāreja atmaksājas jau pirmajā mēnesī.